The present invention is directed to performing information retrieval
utilizing semantic representation of text. In a preferred embodiment, a
tokenizer generates from an input string information retrieval tokens that
characterize the semantic relationship expressed in the input string. The
tokenizer first creates from the input string a primary logical form
characterizing a semantic relationship between selected words in the input
string. The tokenizer then identifies hypemyms that each have an "is a"
relationship with one of the selected words in the input string. The
tokenizer then constructs from the primary logical form one or more
alternative logical forms. The tokenizer constructs each alternative
logical form by, for each of one or more of the selected words in the
input string, replacing the selected word in the primary logical form with
an identified hypernym of the selected word. Finally, the tokenizer
generates tokens representing both the primary logical form and the
alternative logical forms. The tokenizer is preferably used to generate
tokens for both constructing an index representing target documents and
processing a query against that index.
Die anwesende Erfindung wird auf das Durchführen der Information Retrievals verwiesen, die semantische Darstellung des Textes verwendet. In einer bevorzugten Verkörperung erzeugt ein tokenizer von einem Eingang Zeichenkette-Information Retrieval Zeichen, das das semantische Verhältnis kennzeichnen, das in der Eingang Zeichenkette ausgedrückt wird. Das tokenizer verursacht zuerst von der Eingang Zeichenkette eine logische hauptsächlichform, die ein semantisches Verhältnis zwischen vorgewählten Wörtern in der Eingang Zeichenkette kennzeichnet. Das tokenizer kennzeichnet dann hypemyms, daß jedes "ist ein" Verhältnis zu einem der vorgewählten Wörter in der Eingang Zeichenkette haben. Tokenizer dann herstellen aus der logischen hauptsächlichform eine oder mehr alternativen logischen Formen. Das tokenizer konstruiert jede alternative logische Form durch, für jede von einer oder mehr der vorgewählten Wörter in der Eingang Zeichenkette und ersetzt das vorgewählte Wort in der logischen hauptsächlichform mit einem gekennzeichneten hypernym des vorgewählten Wortes. Schließlich erzeugt das tokenizer das Zeichen, welches die logische hauptsächlichform und die alternativen logischen Formen darstellt. Das tokenizer wird vorzugsweise benutzt, um Zeichen für das Konstruieren eines Index zu erzeugen, der Zieldokumente darstellt und eine Frage gegen diesen Index verarbeitet.