A computer program product is provided as an automatic mining system to
discover terms that are relevant to a given target topic from a large
databases of unstructured information such as the World Wide Web. The
operation of the automatic mining system is performed in three stages: The
first stage is carried out by a new terms discoverer for discovering the
terms in a document, the second stage is carried out by a candidate terms
discoverer for discovering potentially relevant terms, and the third stage
is carried out by a relevant terms discoverer for refining or testing the
discovered relevance to filter false relevance. The new terms discoverer
includes a system for the automatic mining of patterns and relations, a
system for the automatic mining of new relationships, and a system for
selecting new terms from relations. In one embodiment, the system for the
automatic mining of patterns and relations identifies a set of related
terms on the WWW with a high degree of confidence, using a duality
concept, and includes a terms database and two identifiers: a relation
identifier and a pattern identifier. The system for the automatic mining
of new relationships includes a database a knowledge module and a
statistics module. The knowledge module includes a stemming unit, a
synonym check unit, and a domain knowledge check unit. The candidate terms
discoverer includes a metadata extractor, a document vector module, an
association module, a filtering module, and a database. The relevant terms
discoverer includes a stop word filter and a system for the automatic
construction of generalization--specialization hierarchy of terms
comprised of a terms database, an augmentation module, a generalization
detection module, and a hierarchy database.
Un produit de programme machine est fourni comme système d'extraction automatique pour découvrir les limites qui sont appropriées à une matière donnée de cible d'de grandes bases de données d'information non structurée telles que le Web mondial. L'opération du système d'extraction automatique est effectuée dans trois étapes : La première étape est effectuée par un nouveau découvreur de limites pour découvrir les limites dans un document, la deuxième étape est effectuée par un découvreur de limites de candidat pour découvrir des limites potentiellement appropriées, et la troisième étape est effectuée par un découvreur approprié de limites pour le raffinage ou examiner la pertinence découverte avec la pertinence fausse de filtre. Le nouveau découvreur de limites inclut un système pour l'exploitation automatique des modèles et des relations, un système pour l'exploitation automatique de nouveaux rapports, et un système pour choisir de nouvelles limites à partir des relations. Dans une incorporation, le système pour l'exploitation automatique des modèles et les relations identifie un ensemble de limites relatives sur le WWW avec un degré élevé de confiance, en utilisant un concept de dualité, et inclut une base de données de limites et deux marques : une marque de relation et une marque de modèle. Le système pour l'exploitation automatique de nouveaux rapports inclut une base de données un module de la connaissance et un module de statistiques. Le module de la connaissance inclut une unité refoulante, une unité de contrôle de synonyme, et une unité de contrôle de la connaissance de domaine. Le découvreur de limites de candidat inclut un extracteur de metadata, un module de vecteur de document, un module d'association, un module de filtrage, et une base de données. Le découvreur approprié de limites inclut un filtre de mot d'arrêt et un système pour la construction automatique de la généralisation -- hiérarchie de spécialisation des limites consistées en une base de données de limites, un module d'augmentation, un module de détection de généralisation, et une base de données de hiérarchie.