This mechanism relates to a method within the area of information mining
within a multitude of documents stored on computer systems. More
particularly, this mechanism relates to a computerized method of
generating a content taxonomy of a multitude of electronic documents. The
technique proposed by the current invention is able to improve at the same
time the scalability and the coherence and selectivity of taxonomy
generation. The fundamental approach of the current invention comprises a
subset selection step, wherein a subset of a multitude of documents is
being selected. In a taxonomy generation step a taxonomy is generated for
that selected subset of documents, the taxonomy being a tree structured
taxonomy hierarchy. Moreover this method comprises a routing selection
step assigning each unprocessed document to the taxonomy hierarchy based
on largest similarity.
Dit mechanisme heeft op een methode betrekking binnen het gebied van informatiemijnbouw binnen een massa documenten die op computersystemen worden opgeslagen. Meer in het bijzonder, heeft dit mechanisme op een geautomatiseerde methode om een inhoudstaxonomie betrekking van een massa elektronische documenten te produceren. De techniek die door de huidige uitvinding wordt voorgesteld kan scalability en de coherentie en de selectiviteit van taxonomiegeneratie tezelfdertijd verbeteren. De fundamentele benadering van de huidige uitvinding bestaat uit een stap van de ondergroepsselectie, waarin een ondergroep van een massa documenten wordt geselecteerd. In een stap van de taxonomiegeneratie wordt een taxonomie geproduceerd voor die geselecteerde ondergroep van documenten, de taxonomie die een boom gestructureerde taxonomiehiërarchie is. Bovendien bestaat deze methode uit een het leiden selectiestap toewijzend elk onverwerkt document aan de taxonomiehiërarchie die op grootste gelijkenis wordt gebaseerd.