System and method for efficiently generating cluster groupings in a multi-dimensional concept space

   
   

A system and method for efficiently generating cluster groupings in a multi-dimensional concept space is described. A plurality of terms are extracted from each document in a collection of stored unstructured documents. A concept space is built over the document collection. Terms substantially correlated between a plurality of documents within the document collection are identified. Each correlated term is expressed as a vector mapped along an angle .theta. originating from a common axis in the concept space. A difference between the angle .theta. for each document and an angle .sigma. for each cluster within the concept space is determined. Each such cluster is populated with those documents having such difference between the angle .theta. for each such document and the angle .sigma. for each such cluster falling within a predetermined variance. A new cluster is created within the concept space those documents having such difference between the angle .theta. for each such document and the angle .sigma. for each such cluster falling outside the predetermined variance.

Een systeem en een methode om clustergroeperingen in worden een multidimensionele conceptenruimte efficiënt te produceren beschreven. Een meerderheid van termijnen wordt gehaald uit elk document in een inzameling van opgeslagen ongestructureerde documenten. Een conceptenruimte wordt gebouwd over de documentinzameling. Termijnen die wezenlijk tussen een meerderheid van documenten binnen de documentinzameling worden de gecorreleerd worden geïdentificeerd. Elke gecorreleerde termijn wordt uitgedrukt als vector die langs een hoek in kaart wordt gebracht theta. voortkomend uit een gemeenschappelijke as in de conceptenruimte. Een verschil tussen de hoek theta. voor elk document en een hoek sigma. voor elke cluster binnen de conceptenruimte wordt bepaald. Elke dergelijke cluster is bevolkt met die documenten die dergelijk verschil tussen de hoek theta. voor elk dergelijk document en de hoek sigma. voor elke dergelijke cluster hebben die binnen een vooraf bepaald verschil valt. Een nieuwe cluster wordt binnen de conceptenruimte die documenten gecreeerd die dergelijk verschil tussen de hoek theta. voor elk dergelijk document en de hoek sigma. voor elke dergelijke cluster hebben die buiten het vooraf bepaalde verschil valt.

 
Web www.patentalert.com

< Machine-to-machine e-commerce interface using extensible markup language

< Disc recording scheme for enabling quick access to disc data

> Indexing wavelet compressed video for efficient data handling

> Dynamic generation of optimizer hints

~ 00126