A computer program product is provided as an automatic mining system to
identify a set of relevant terms from a large text database of
unstructured information, such as the World Wide Web (WWW), with a high
degree of confidence, by association mining and refinement of
co-occurrences using hypertext link metadata. The automatic mining system
includes a software package comprised of a metadata extractor, a document
vector module, an association module, and a filtering module. The
automatic mining system further includes a database for storing the mined
sets of relevant terms. The automatic mining system scans the downloaded
hypertext links, rather than the entire body of the documents for related
information. As a result, the crawler is not required to provide a
relatively lengthy download of the document content, and thus, the
automatic mining system minimizes the download and processing time.
Een computerprogrammaproduct wordt verstrekt als automatisch mijnbouwsysteem om een reeks relevante termijnen van een groot tekstgegevensbestand van ongestructureerde informatie, zoals het World Wide Web (WWW), met een hoge graad van vertrouwen te identificeren, door verenigingsmijnbouw en verbetering van mede-voorkomen gebruikend de meta-gegevens van de hypertextverbinding. Het automatische mijnbouwsysteem omvat een softwarepakket dat van een meta-gegevenstrekker, een document vectormodule, een verenigingsmodule, en een het filtreren module wordt samengesteld. Het automatische mijnbouwsysteem omvat verder een gegevensbestand voor het opslaan van de ontgonnen reeksen relevante termijnen. Het automatische mijnbouwsysteem tast de gedownloade hypertextverbindingen, eerder dan het volledige lichaam van de documenten voor verwante informatie af. Dientengevolge, wordt het kruippakje vereist om geen vrij lange download van de documentinhoud te verstrekken, en zo, minimaliseert het automatische mijnbouwsysteem de download en verwerkingstijd.