A system and method operates with a document collection in which documents
are represented as normalized document vectors. The document vector space
is partitioned into a set of disjoint clusters and a concept vector is
computed for each partition, the concept vector comprising the mean vector
of all the documents in each partition. Documents are then reassigned to
the cluster having their closest concept vector, and a new set of concept
vectors for the new partitioning is computed. From an initial
partitioning, the concept vectors are iteratively calculated to a stopping
threshold value, leaving a concept vector subspace of the document
vectors. The documents can then be projected onto the concept vector
subspace to be represented as a linear combination of the concept vectors,
thereby reducing the dimensionality of the document space. A search query
can be received for the content of text documents and a search can then be
performed on the projected document vectors to identify text documents
that correspond to the search query.
Система и метод работают с собранием документа в документы представлены по мере того как normalized документ vectors. Космос вектора документа разделен в комплект disjoint группы и вектор принципиальной схемы вычислен для каждой перегородки, вектора принципиальной схемы состоя из среднего вектора всех документов в каждой перегородке. Документы после этого переподчинены к группе имея их самый близкий вектор принципиальной схемы, и вычислен новый комплект векторов принципиальной схемы для новый разделять. От первоначально разделять, векторы принципиальной схемы итеративно высчитаны к останавливая порогового значение, оставляя подпространство вектора принципиальной схемы векторов документа. Документы можно после этого запроектировать, что на подпространство вектора принципиальной схемы были представлены как линейная комбинация векторов принципиальной схемы, таким образом уменьшая размерность космоса документа. Query поиска можно получить для содержания документов текста и поиск можно после этого выполнить на запроектированных векторах документа для того чтобы определить документы текста соответствуют к query поиска.