A system and method for document retrieval is disclosed. The invention
addresses a major problem in text-based document retrieval: rapidly
finding a small subset of documents in a large document collection (e.g.
Web pages on the Internet) that are relevant to a limited set of query
terms supplied by the user. The invention is based on utilizing
information contained in the document collection about the statistics of
word relationships ("context") to facilitate the specification of search
queries and document comparison. The method consists of first compiling
word relationships into a context database that captures the statistics of
word proximity and occurrence throughout the document collection. At
retrieval time, a search matrix is computed from a set of user-supplied
keywords and the context database. For each document in the collection, a
similar matrix is computed using the contents of the document and the
context database. Document relevance is determined by comparing the
similarity of the search and document matrices. The disclosed system
therefore retrieves documents with contextual similarity rather than word
frequency similarity, simplifying search specification while allowing
greater search precision.
Un sistema e un metodo per ricerca documentaria è rilevato. L'invenzione richiama un problema importante nella ricerca documentaria basato del testo: velocemente trovando un piccolo sottoinsieme dei documenti in una grande collezione del documento (per esempio Web pagi sul Internet) che è relativo ad un insieme limitato dei termini di domanda ha fornito dall'utente. L'invenzione è basata sull'utilizzazione delle informazioni contenute nell'accumulazione del documento circa le statistiche dei rapporti di parola ("contesto") per facilitare la specifica delle domande di ricerca e del confronto del documento. Il metodo consiste di in primo luogo compilare i rapporti di parola in una base di dati di contesto che blocca le statistiche di prossimità e del caso di parola durante l'accumulazione del documento. A tempo di ricupero, una tabella di ricerca è computata da un insieme delle parole chiavi user-supplied e della base di dati di contesto. Per ogni documento nell'accumulazione, una tabella simile è computata usando il contenuto del documento e della base di dati di contesto. L'attinenza del documento è determinata confrontando la somiglianza delle tabelle del documento e di ricerca. Il sistema rilevato quindi ricerca i documenti con somiglianza contestuale di frequenza di parola piuttosto che di somiglianza, facilitante la specifica di ricerca mentre permette la precisione più grande di ricerca.