The present invention is a system, method, and program product that
comprises a computer with a collection of documents to be searched. The
documents contain free form (natural language) text. We define a set of
labels called QA-Tokens, which function as abstractions of phrases or
question-types. We define a pattern file, which consists of a number of
pattern records, each of which has a question template, an associated
question word pattern, and an associated set of QA-Tokens. We describe a
query-analysis process which receives a query as input and matches it to
one or more of the question templates, where a priority algorithm
determines which match is used if there is more than one. The
query-analysis process then replaces the associated question word pattern
in the matching query with the associated set of QA-Tokens, and possibly
some other words. This results in a processed query having some
combination of original query tokens, new tokens from the pattern file,
and QA-Tokens, possibly with weights. We describe a pattern-matching
process that identifies patterns of text in the document collection and
augments the location with corresponding QA-Tokens. We define a text index
data structure which is an inverted list of the locations of all of the
words in the document collection, together with the locations of all of
the augmented QA-Tokens. A search process then matches the processed query
against a window of a user-selected number of sentences that is slid
across the document texts. A hit-list of top-scoring windows is returned
to the user.
La presente invenzione è un sistema, un metodo e un prodotto di programma che contiene un calcolatore con una raccolta di documenti da cercare. I documenti contengono il testo libero della forma (linguaggio naturale). Definiamo un insieme delle etichette denominate QA-QA-Tokens, che funzionano come astrazioni delle frasi o dei domanda-tipi. Definiamo una lima del modello, che consiste di un certo numero di annotazioni del modello, ciascuno di cui ha una mascherina di domanda, modello collegato di parola di domanda e un insieme collegato del QA-Segno. Descriviamo un processo di interrog-analisi che riceve una domanda come input e fiammiferi esso ad uno o più delle mascherine di domanda, in cui una procedura di priorità determina quale fiammifero è usato se ci è più di uno. Il processo di interrog-analisi allora sostituisce il modello collegato di parola di domanda nella domanda di corrispondenza con l'insieme collegato del QA-Segno e possibilmente alcune altre parole. Ciò provoca una domanda proceduta che ha certa combinazione del segno originale di domanda, di nuovo segno dalla lima del modello e del QA-Segno, possibilmente con i pesi. Descriviamo un processo modello-abbinante che identifica i modelli di testo nell'accumulazione del documento ed aumenta la posizione con il QA-Segno corrispondente. Definiamo una struttura di dati di indice del testo che è una lista invertita delle posizioni di tutte le parole nell'accumulazione del documento, insieme alle posizioni di tutto il QA-Segno aumentato. Un processo di ricerca allora abbina la domanda proceduta contro una finestra di un numero utente-selezionato di frasi che è fatto scorrere attraverso i testi del documento. Una colp-lista delle finestre parte-notanti è restituita all'utente.