A computer program product is provided as an automatic mining system to identify a set of relevant terms from a large text database of unstructured information, such as the World Wide Web (WWW), with a high degree of confidence, by association mining and refinement of co-occurrences using hypertext link metadata. The automatic mining system includes a software package comprised of a metadata extractor, a document vector module, an association module, and a filtering module. The automatic mining system further includes a database for storing the mined sets of relevant terms. The automatic mining system scans the downloaded hypertext links, rather than the entire body of the documents for related information. As a result, the crawler is not required to provide a relatively lengthy download of the document content, and thus, the automatic mining system minimizes the download and processing time.

Een computerprogrammaproduct wordt verstrekt als automatisch mijnbouwsysteem om een reeks relevante termijnen van een groot tekstgegevensbestand van ongestructureerde informatie, zoals het World Wide Web (WWW), met een hoge graad van vertrouwen te identificeren, door verenigingsmijnbouw en verbetering van mede-voorkomen gebruikend de meta-gegevens van de hypertextverbinding. Het automatische mijnbouwsysteem omvat een softwarepakket dat van een meta-gegevenstrekker, een document vectormodule, een verenigingsmodule, en een het filtreren module wordt samengesteld. Het automatische mijnbouwsysteem omvat verder een gegevensbestand voor het opslaan van de ontgonnen reeksen relevante termijnen. Het automatische mijnbouwsysteem tast de gedownloade hypertextverbindingen, eerder dan het volledige lichaam van de documenten voor verwante informatie af. Dientengevolge, wordt het kruippakje vereist om geen vrij lange download van de documentinhoud te verstrekken, en zo, minimaliseert het automatische mijnbouwsysteem de download en verwerkingstijd.

 
Web www.patentalert.com

< Method and apparatus for score normalization for information retrieval applications

< System and method of automatic discovery of terms in a document that are relevant to a given target topic

> Trainable adaptive focused replicator network for analyzing data

> System and method for improved string matching under noisy channel conditions

~ 00091