A method and apparatus for retrieving similar or identical textual passages
among different documents is disclosed. Normal discourse structures along
with textual content attributes are used to encode a known passage with
"marker sequences" that give a characterizing "signature" to the passage.
The encoded known passage is then evaluated against similarly encoded
passages appearing in a database of documents. If it is determined that
there is a possible match between the encoded known passage and an encoded
passage in a database document, a sequential string search is performed to
determine whether the two passages are likely to be similar or identical.
If the sequential string search records a probable match between the known
passage and the database passage, the database passage is displayed for
further review.
Показаны метод и прибор для retrieving подобные или идентичные текстуальные проходы среди по-разному документов. Нормальные структуры discourse вместе с текстуальными содержимыми атрибутами использованы для того чтобы зашифровать знанный проход с "отметкой sequences" та податливость характеризуя "подпись" к проходу. Зашифрованный знанный проход после этого оценен против подобно зашифрованных проходов появляясь в базу данных документов. Если обусловлено, то что будет по возможности спичка между зашифрованным знанным проходом и зашифрованным проходом в документе базы данных, последовательный поиск шнура выполнен для того чтобы обусловить ли 2 прохода правоподобны для того чтобы быть подобны или идентичны. Если последовательный поиск шнура записывает вероятную спичку между знанным проходом и проходом базы данных, то проход базы данных показан для более дальнеишего просмотрения.