Apparatus and method for use in querying a database containing data
records. The database is characterized by a compression scheme to provide
data clustering information. In accordance with a exemplary embodiment of
the invention a functional representation of data clustering is a Gaussian
and the queries are performing by integrating the Gaussian corresponding
to each of the data clusters over the ranges to determine the sum or the
count of data records from the database that fall within the selected
ranges. The process chooses a value for the cluster number K. The cluster
model is next broken up into areas (tiles) based on user defined
parameters. Data from the database is then classified based on the tiling
information. A sorted version of the classified data, ordered by cluster
number and then by the tile number within the cluster is generated. This
data is then evaluated to test the sufficiency of the model created during
the clustering.
Apparaten en methode voor gebruik in het vragen van een gegevensbestand dat gegevensverslagen bevat. Het gegevensbestand wordt door een compressieregeling om gegevens gekenmerkt te verstrekken die informatie groeperen zich. Overeenkomstig een voorbeeldige belichaming van de uitvinding is een functionele vertegenwoordiging van gegevens die Gaussian en de vragen presteert door het Gaussian beantwoorden aan elk van de gegevensclusters over de waaiers te integreren om de som of de telling van gegevensverslagen van het gegevensbestand groeperen zich te bepalen die binnen de geselecteerde waaiers vallen. Het proces kiest een waarde voor het clusteraantal K. Het clustermodel wordt daarna verdeeld in gebieden (tegels) die op gebruiker bepaalde parameters worden gebaseerd. De gegevens van het gegevensbestand zijn dan geclassificeerd gebaseerd op de het betegelen informatie. Een gesorteerde versie van de geclassificeerde gegevens, die door clusteraantal en dan door het tegelaantal binnen de cluster wordt bevolen wordt geproduceerd. Dit gegeven wordt dan geƫvalueerd om de voldoende hoeveelheid van het model te testen dat tijdens zich het groeperen wordt gecreeerd.