Transformation-based method for indexing high-dimensional data for nearest neighbour queries

   
   

We disclose a transformation-based method for indexing high-dimensional data to support similarity search. The method, iDistance, partitions the data into clusters either based on some clustering strategies or simple data space partitioning strategies. The data in each cluster can be described based on their similarity with respect to a reference point, and hence they can be transformed into a single dimensional space based on such relative similarity. This allows us to index the data points using a B.sup.+ -tree structure and perform similarity search using range search strategy. As such, the method is well suited for integration into existing DBMSs. We also study two data partitioning strategies, and several methods on selection of reference points. We conducted extensive experiments to evaluate iDistance, and our results demonstrate its effectiveness.

Nós divulgamos um método transformação-baseado para posicionar dados elevado-dimensionais para suportar a busca da similaridade. O método, iDistance, divisórias que os dados em conjuntos ou basearam em algumas estratégias se aglomerando ou os dados simples espaçam dividir estratégias. Os dados em cada conjunto podem ser descritos basearam em sua similaridade com respeito a um ponto de referência, e daqui podem ser transformados em um único espaço dimensional baseado em tal similaridade relativa. Isto permite que nós posicionem os pontos de dados usando um B.sup.+ - estrutura de árvore e executem a busca da similaridade usando a estratégia da busca da escala. Como esta', o método é servido bem para a integração em DBMSs existente. Nós estudamos também duas estratégias dividindo dos dados, e diversos métodos na seleção de pontos de referência. Nós conduzimos experiências extensivas para avaliar o iDistance, e nossos resultados demonstram sua eficácia.

 
Web www.patentalert.com

< Computer system and process for transferring streams of data between multiple storage units and multiple applications in a scalable and reliable manner

< Routing client requests to back-end servers

> Arrangement and method relating to routing in a network

> Method and system for inclusion hash joins and exclusion hash joins in relational databases

~ 00150