A tree-structured index to multidimensional data is created using naturally
occurring patterns and clusters within the data which permit efficient
search and retrieval strategies in a database of DNA profiles. A search
engine utilizes hierarchical decomposition of the database by identifying
clusters of similar DNA profiles and maps to parallel computer
architecture, allowing scale up past previously feasible limits. Key
benefits of the new method are logarithmic scale up and parallelization.
These benefits are achieved by identification and utilization of naturally
occurring patterns and clusters within stored data. The patterns and
clusters enable the stored data to be partitioned into subsets of roughly
equal size. The method can be applied recursively, resulting in a database
tree that is balanced, meaning that all paths or branches through the tree
have roughly the same length. The method achieves high performance by
exploiting the natural structure of the data in a manner that maintains
balanced trees. Implementation of the method maps naturally to parallel
computer architectures, allowing scale up to very large databases.
Un index à structure arborescente sur des données multidimensionnelles est créé en utilisant les modèles et les faisceaux naturels dans les données qui permettent des stratégies efficaces de recherche et de récupération dans une base de données des profils d'ADN. Un Search Engine utilise la décomposition hiérarchique de la base de données en identifiant des faisceaux des profils semblables et des cartes d'ADN pour mettre en parallèle l'architecture d'ordinateur, permettant la balance vers le haut après des limites précédemment faisables. Les avantages principaux de la nouvelle méthode sont balance logarithmique haute et parallelization. Ces avantages sont réalisés par l'identification et l'utilisation des modèles et des faisceaux naturels dans des données stockées. Les modèles et les faisceaux permettent aux données stockées d'être divisées dans des sous-ensembles de taille rudement égale. La méthode peut être appliquée périodiquement, ayant pour résultat un arbre de base de données qui est équilibré, signifiant que tous les chemins ou branches par l'arbre ont rudement la même longueur. La méthode réalise le rendement élevé en exploitant la structure normale des données d'une façon qui maintient les arbres équilibrés. L'exécution de la méthode trace naturellement pour mettre en parallèle des architectures d'ordinateur, permettant la balance jusqu'aux bases de données très grandes.