A document retrieval system is provided which has a document display
interface which is easy to recognize the important portions even if a
document retrieved by using a query expression designated by a document or
a long sentence is displayed. When a text is registered, predetermined
character strings and location information which are extracted from the
text are stored in a location information file. A weight of each character
string is calculated by a predetermined method and is stored in a weight
file. In retrieving a document, predetermined character strings are
extracted from a designated query expression. A similarity is calculated
between the query expression and texts in the database by using the
location information and the weights acquired from the location file and
the weight file. In displaying the document, character strings having the
high weights are extracted from the character strings used for the
retrieval. Then, the display format of a portion which contains the
extracted character strings is changed to display the text.
Ein Dokumentenretrievalsystem wird zur Verfügung gestellt, das eine Dokumentanzeige Schnittstelle hat, die einfach ist, die wichtigen Teile zu erkennen, selbst wenn ein Dokument, das aufgefunden wird, indem man einen Frage Ausdruck verwendet, der durch ein Dokument oder einen langen Satz gekennzeichnet wird, angezeigt wird. Wenn ein Text registriert wird, werden vorbestimmte Zeichenfolgen und Position Informationen, die vom Text extrahiert werden, in einer Position Informationen Akte gespeichert. Ein Gewicht jeder Zeichenfolge wird durch eine vorbestimmte Methode errechnet und wird in einer Gewichtakte gespeichert. Wenn man ein Dokument auffindet, werden vorbestimmte Zeichenfolgen von einem gekennzeichneten Frage Ausdruck extrahiert. Eine Ähnlichkeit wird zwischen dem Frage Ausdruck errechnet und Texte in der Datenbank, indem sie die Position Informationen und die Gewichte verwenden, die von der Position Akte und vom Gewicht erworben werden, ordnen ein. Wenn man das Dokument anzeigt, werden die Zeichenfolgen, welche die hohen Gewichte haben, von den Zeichenfolgen extrahiert, die für die Wiederherstellung benutzt werden. Dann wird das Anzeigeformat eines Teils, der die extrahierten Zeichenfolgen enthält, geändert, um den Text anzuzeigen.