Method and apparatus for retrieving text using document signatures page

A method and apparatus for retrieving similar or identical textual passages among different documents is disclosed. Normal discourse structures along with textual content attributes are used to encode a known passage with "marker sequences" that give a characterizing "signature" to the passage. The encoded known passage is then evaluated against similarly encoded passages appearing in a database of documents. If it is determined that there is a possible match between the encoded known passage and an encoded passage in a database document, a sequential string search is performed to determine whether the two passages are likely to be similar or identical. If the sequential string search records a probable match between the known passage and the database passage, the database passage is displayed for further review.

Показаны метод и прибор для retrieving подобные или идентичные текстуальные проходы среди по-разному документов. Нормальные структуры discourse вместе с текстуальными содержимыми атрибутами использованы для того чтобы зашифровать знанный проход с "отметкой sequences" та податливость характеризуя "подпись" к проходу. Зашифрованный знанный проход после этого оценен против подобно зашифрованных проходов появляясь в базу данных документов. Если обусловлено, то что будет по возможности спичка между зашифрованным знанным проходом и зашифрованным проходом в документе базы данных, последовательный поиск шнура выполнен для того чтобы обусловить ли 2 прохода правоподобны для того чтобы быть подобны или идентичны. Если последовательный поиск шнура записывает вероятную спичку между знанным проходом и проходом базы данных, то проход базы данных показан для более дальнеишего просмотрения.