A system and associated methods determine the semantic similarity of
different sentences to one another. A particularly appropriate application
of the present invention is to automatic processing of Chinese-language
text, for example, for document retrieval. A method for computing the
similarity between a first and a second set of words comprises identifying
a word of the second set of words as being most similar to a word of the
first set of words, wherein the word of the second set of words need not
be identical to the word of the first set of words; and computing a score
of the similarity between the first and second set of words based at least
in part on the word of the second set of words.
Ein System und verbundene Methoden stellen die semantische Ähnlichkeit der unterschiedlichen Sätze bis einen andere fest. Eine besonders passende Anwendung der anwesenden Erfindung ist zur automatischen Verarbeitung des Chinesisch-Sprachentextes z.B. für Dokumentenretrieval. Eine Methode für das Berechnen der Ähnlichkeit zwischen einer erster und einem zweiten Satz Wörtern enthält das Kennzeichnen eines Wortes des zweiten Satzes von Wörtern als seiend am ähnlichsten einem Wort des ersten Satzes von Wörtern, worin das Wort des zweiten Satzes von Wörtern nicht, braucht zum Wort des ersten Satzes von Wörtern identisch zu sein; und eine Kerbe der Ähnlichkeit zwischen dem ersten und zweiten Satz der Wörter berechnend gegründet mindestens im Teil auf dem Wort des zweiten Satzes von Wörtern.