A method for extracting features in contents of a document without using a
word dictionary and a system using the method for accurately searching for
a relevant document or documents at high speed. The method includes steps
of storing character strings present in a text in a text database and
possibilities appearing at boundaries of words in the text in the form of
an occurrence probability file, storing occurrence frequencies of the
character strings in the text as an occurrence frequency file, extracting
characteristic strings from a text spcified by a user with use of the
occurrence probability file, and counting occurrence frequencies thereof
in the user-specified text. The method calculates similarities to the
user-specified text with use of the occurrence frequency file and the
occurrence frequencies in the user-specified text.
Un metodo per l'estrazione delle caratteristiche nel soddisfare di un documento senza usando un dizionario di parola e un sistema usando il metodo per esattamente la ricerca un documento o dei documenti relativi all'alta velocità. Il metodo include i punti di immagazzinare le serie di caratteri presenti in un testo in una base di dati del testo e le possibilità che compaiono ai contorni delle parole nel testo sotto forma d'una lima di probabilità di caso, memorizzanti le frequenze di caso delle serie di caratteri nel testo come lima di frequenza di caso, estraenti le stringhe caratteristiche da un testo spcified da un utente con uso della lima di probabilità di caso e di conteggio delle frequenze di caso di ciò nel testo user-specified. Il metodo calcola le somiglianze al testo user-specified con uso della lima di frequenza di caso e le frequenze di caso nel testo user-specified.