A system and method for efficiently generating cluster groupings in a
multi-dimensional concept space is described. A plurality of terms are
extracted from each document in a collection of stored unstructured
documents. A concept space is built over the document collection. Terms
substantially correlated between a plurality of documents within the
document collection are identified. Each correlated term is expressed as a
vector mapped along an angle .theta. originating from a common axis in the
concept space. A difference between the angle .theta. for each document
and an angle .sigma. for each cluster within the concept space is
determined. Each such cluster is populated with those documents having
such difference between the angle .theta. for each such document and the
angle .sigma. for each such cluster falling within a predetermined
variance. A new cluster is created within the concept space those
documents having such difference between the angle .theta. for each such
document and the angle .sigma. for each such cluster falling outside the
predetermined variance.
Een systeem en een methode om clustergroeperingen in worden een multidimensionele conceptenruimte efficiënt te produceren beschreven. Een meerderheid van termijnen wordt gehaald uit elk document in een inzameling van opgeslagen ongestructureerde documenten. Een conceptenruimte wordt gebouwd over de documentinzameling. Termijnen die wezenlijk tussen een meerderheid van documenten binnen de documentinzameling worden de gecorreleerd worden geïdentificeerd. Elke gecorreleerde termijn wordt uitgedrukt als vector die langs een hoek in kaart wordt gebracht theta. voortkomend uit een gemeenschappelijke as in de conceptenruimte. Een verschil tussen de hoek theta. voor elk document en een hoek sigma. voor elke cluster binnen de conceptenruimte wordt bepaald. Elke dergelijke cluster is bevolkt met die documenten die dergelijk verschil tussen de hoek theta. voor elk dergelijk document en de hoek sigma. voor elke dergelijke cluster hebben die binnen een vooraf bepaald verschil valt. Een nieuwe cluster wordt binnen de conceptenruimte die documenten gecreeerd die dergelijk verschil tussen de hoek theta. voor elk dergelijk document en de hoek sigma. voor elke dergelijke cluster hebben die buiten het vooraf bepaalde verschil valt.