In one exemplary embodiment the invention provides a data mining system for
use in finding clusters of data items in a database or any other data
storage medium. Before the data evaluation begins a choice is made of the
number M of models to be explored, and the number of clusters (K) of
clusters within each of the M models. The clusters are used in
categorizing the data in the database into K different clusters within
each model. An initial set of estimates for a data distribution of each
model to be explored is provided. Then a portion of the data in the
database is read from a storage medium and brought into a rapid access
memory buffer whose size is determined by the user or operating system
depending on available memory resources. Data contained in the data buffer
is used to update the original model data distributions in each of the K
clusters over all M models. Some of the data belonging to a cluster is
summarized or compressed and stored as a reduced form of the data
representing sufficient statistics of the data. More data is accessed from
the database and the models are updated. An updated set of parameters for
the clusters is determined from the summarized data (sufficient
statistics) and the newly acquired data. Stopping criteria are evaluated
to determine if further data should be accessed from the database.
In één voorbeeldige belichaming verstrekt de uitvinding een systeem van de gegevensmijnbouw voor gebruik in het vinden van clusters van gegevensonderdelen in een gegevensbestand of een andere gegevensopslagmiddelen. Alvorens de gegevensevaluatie begint wordt een keus van het aantal M modellen gemaakt die, en het aantal clusters (K) van clusters binnen elk van de modellen van M moeten worden onderzocht. De clusters worden gebruikt in het categoriseren van de gegevens in het gegevensbestand in de verschillende clusters van K binnen elk model. Een eerste reeks ramingen voor een gegevensdistributie van wordt elk te onderzoeken model gemaakt. Dan wordt een gedeelte gegevens in het gegevensbestand gelezen van opslagmiddelen en in een snelle buffer gebracht van het toegangsgeheugen de waarvan grootte door de gebruiker of het werkende systeem afhankelijk van beschikbare geheugenmiddelen wordt bepaald. Het gegeven in de gegevensbuffer wordt gebruikt om de originele modelgegevensdistributies in elk van de clusters van K over alle modellen van M bij te werken. Enkele gegeven dat tot een cluster behoort wordt samengevat of samengeperst en als gereduceerde vorm van de gegevens die voldoende statistieken van de gegevens vertegenwoordigen opgeslagen. Meer gegeven wordt betreden van het gegevensbestand en de modellen worden bijgewerkt. Een bijgewerkte reeks parameters voor de clusters wordt bepaald van de samengevatte gegevens (voldoende statistieken) en de onlangs verworven gegevens. Tegenhoudend criteria worden geëvalueerd om te bepalen als de verdere gegevens van het gegevensbestand zouden moeten worden betreden.