A method and system for generating and searching a tree-structured index of
window vectors that represent database sequences comprise a window vector
generation module, a tree-structured index generation module, a query
sequence partitioning module, and a retrieval component. The window vector
generation module partitions a database sequence into a plurality of
overlapping windows. Each window has a fixed length W comprising a fixed
number of nucleotides, and the offset among windows is determined by a
parameter .DELTA.. The window vector generation module then maps each
database sequence window into a window vector. The database sequence
window vector indicates the frequency of appearance of each k-tuple in the
corresponding database sequence window. The tree-structured index
generation module then generates a tree-structured index using the
database sequence window vectors. The query sequence partitioning module
partitions a query sequence into a plurality of windows and maps each
query sequence window into a query sequence window vector. Each query
sequence window vector is then compared against the tree-structured index
to locate the database sequences that are similar to the query sequence.
The list of database sequences that are similar to the query sequence is
then returned as the result of the search.
Метод и система для производить и искать tree-structured индекс векторов окна представляют последовательности базы данных состоят из модуля поколения вектора окна, tree-structured модуля поколения индекса, последовательности query разделяя модуль, и компонента возвращения. Модуль поколения вектора окна разделяет последовательность базы данных в множественность перекрывая окон. Каждое окно имеет фикчированную длину ш состоять из установленное количество нуклеотидов, и смещение среди окон обусловлено DELTA. параметра. Модуль поколения вектора окна после этого составляет карту каждое окно последовательности базы данных в вектор окна. Вектор окна последовательности базы данных показывает частоту возникновения каждого к-k-tuple в соответствуя окне последовательности базы данных. Tree-structured модуль поколения индекса после этого производит tree-structured индекс использующ векторы окна последовательности базы данных. Последовательность query разделяя модуль разделяет последовательность query в множественность окон и составляет карту каждое окно последовательности query в вектор окна последовательности query. Каждый вектор окна последовательности query после этого сравнен против tree-structured индекса для того чтобы обнаружить местонахождение последовательности базы данных подобно к последовательности query. Перечень последовательности базы данных подобно к последовательности query после этого возвращен по мере того как результат поиска.