A multi-lingual indexing and search system performs tokenization and
stemming in a manner which is independent of whether index entries and
search terms appear as words in a dictionary. During the tokenization
phase of the process, a string of text is separated into individual word
tokens, and predetermined types of tokens are eliminated from further
processing. The stemming phase of the process reduces words to grammatical
stems by removing known word-endings associated with the various languages
to be supported. Known word endings are removed from the word tokens
without any effort to guarantee that the remaining stem is contained in a
dictionary. In a preferred implementation, the stemming process is only
applied to nouns.
Un sistema multilingue di ricerca e di indexing effettua il tokenization e lo staccamento in un modo da cui è l'indipendente se le entrate di indice ed i termini di ricerca compaiono come parole in un dizionario. Durante la fase di tokenization del processo, una serie di testo è separata nel segno specifico di parola ed i tipi predeterminati di segni sono eliminati dalla trasformazione più ulteriore. La fase di staccamento del processo riduce le parole ai gambi grammaticali dalle parola-conclusioni conosciute di rimozione connesse con le varie lingue da sostenere. Le conclusioni conosciute di parola sono rimosse dal segno di parola senza alcun sforzo garantire che il gambo restante è contenuto in un dizionario. In un'esecuzione preferita, il processo di staccamento è applicato soltanto ai nomi.