Scalable system for expectation maximization clustering of large databases

In one exemplary embodiment the invention provides a data mining system for use in finding clusters of data items in a database or any other data storage medium. Before the data evaluation begins a choice is made of the number M of models to be explored, and the number of clusters (K) of clusters within each of the M models. The clusters are used in categorizing the data in the database into K different clusters within each model. An initial set of estimates for a data distribution of each model to be explored is provided. Then a portion of the data in the database is read from a storage medium and brought into a rapid access memory buffer whose size is determined by the user or operating system depending on available memory resources. Data contained in the data buffer is used to update the original model data distributions in each of the K clusters over all M models. Some of the data belonging to a cluster is summarized or compressed and stored as a reduced form of the data representing sufficient statistics of the data. More data is accessed from the database and the models are updated. An updated set of parameters for the clusters is determined from the summarized data (sufficient statistics) and the newly acquired data. Stopping criteria are evaluated to determine if further data should be accessed from the database.
In één voorbeeldige belichaming verstrekt de uitvinding een systeem van de gegevensmijnbouw voor gebruik in het vinden van clusters van gegevensonderdelen in een gegevensbestand of een andere gegevensopslagmiddelen. Alvorens de gegevensevaluatie begint wordt een keus van het aantal M modellen gemaakt die, en het aantal clusters (K) van clusters binnen elk van de modellen van M moeten worden onderzocht. De clusters worden gebruikt in het categoriseren van de gegevens in het gegevensbestand in de verschillende clusters van K binnen elk model. Een eerste reeks ramingen voor een gegevensdistributie van wordt elk te onderzoeken model gemaakt. Dan wordt een gedeelte gegevens in het gegevensbestand gelezen van opslagmiddelen en in een snelle buffer gebracht van het toegangsgeheugen de waarvan grootte door de gebruiker of het werkende systeem afhankelijk van beschikbare geheugenmiddelen wordt bepaald. Het gegeven in de gegevensbuffer wordt gebruikt om de originele modelgegevensdistributies in elk van de clusters van K over alle modellen van M bij te werken. Enkele gegeven dat tot een cluster behoort wordt samengevat of samengeperst en als gereduceerde vorm van de gegevens die voldoende statistieken van de gegevens vertegenwoordigen opgeslagen. Meer gegeven wordt betreden van het gegevensbestand en de modellen worden bijgewerkt. Een bijgewerkte reeks parameters voor de clusters wordt bepaald van de samengevatte gegevens (voldoende statistieken) en de onlangs verworven gegevens. Tegenhoudend criteria worden geëvalueerd om te bepalen als de verdere gegevens van het gegevensbestand zouden moeten worden betreden.

Web www.patentalert.com

< (none)

< Histogram synthesis modeler for a database query optimizer

> Therapeutic inhibitor of vascular smooth muscle cells

> (none)

~ 00009