System and method of automatic discovery of terms in a document that are relevant to a given target topic

A computer program product is provided as an automatic mining system to discover terms that are relevant to a given target topic from a large databases of unstructured information such as the World Wide Web. The operation of the automatic mining system is performed in three stages: The first stage is carried out by a new terms discoverer for discovering the terms in a document, the second stage is carried out by a candidate terms discoverer for discovering potentially relevant terms, and the third stage is carried out by a relevant terms discoverer for refining or testing the discovered relevance to filter false relevance. The new terms discoverer includes a system for the automatic mining of patterns and relations, a system for the automatic mining of new relationships, and a system for selecting new terms from relations. In one embodiment, the system for the automatic mining of patterns and relations identifies a set of related terms on the WWW with a high degree of confidence, using a duality concept, and includes a terms database and two identifiers: a relation identifier and a pattern identifier. The system for the automatic mining of new relationships includes a database a knowledge module and a statistics module. The knowledge module includes a stemming unit, a synonym check unit, and a domain knowledge check unit. The candidate terms discoverer includes a metadata extractor, a document vector module, an association module, a filtering module, and a database. The relevant terms discoverer includes a stop word filter and a system for the automatic construction of generalization--specialization hierarchy of terms comprised of a terms database, an augmentation module, a generalization detection module, and a hierarchy database.
Un produit de programme machine est fourni comme système d'extraction automatique pour découvrir les limites qui sont appropriées à une matière donnée de cible d'de grandes bases de données d'information non structurée telles que le Web mondial. L'opération du système d'extraction automatique est effectuée dans trois étapes : La première étape est effectuée par un nouveau découvreur de limites pour découvrir les limites dans un document, la deuxième étape est effectuée par un découvreur de limites de candidat pour découvrir des limites potentiellement appropriées, et la troisième étape est effectuée par un découvreur approprié de limites pour le raffinage ou examiner la pertinence découverte avec la pertinence fausse de filtre. Le nouveau découvreur de limites inclut un système pour l'exploitation automatique des modèles et des relations, un système pour l'exploitation automatique de nouveaux rapports, et un système pour choisir de nouvelles limites à partir des relations. Dans une incorporation, le système pour l'exploitation automatique des modèles et les relations identifie un ensemble de limites relatives sur le WWW avec un degré élevé de confiance, en utilisant un concept de dualité, et inclut une base de données de limites et deux marques : une marque de relation et une marque de modèle. Le système pour l'exploitation automatique de nouveaux rapports inclut une base de données un module de la connaissance et un module de statistiques. Le module de la connaissance inclut une unité refoulante, une unité de contrôle de synonyme, et une unité de contrôle de la connaissance de domaine. Le découvreur de limites de candidat inclut un extracteur de metadata, un module de vecteur de document, un module d'association, un module de filtrage, et une base de données. Le découvreur approprié de limites inclut un filtre de mot d'arrêt et un système pour la construction automatique de la généralisation -- hiérarchie de spécialisation des limites consistées en une base de données de limites, un module d'augmentation, un module de détection de généralisation, et une base de données de hiérarchie.

Web www.patentalert.com

< Design and hardware synthesis of adaptive weighted fuzzy mean image filter

< Fuzzy keyboard

> Determining a distribution of a numeric variable

> Trainable adaptive focused replicator network for analyzing data

~ 00091