A terminological system automatically generates sub-categories from
categories of a knowledge base. The knowledge base includes a plurality of
hierarchically arranged categories, as well as terms associated with the
categories. A subset of the categories of the knowledge base are
designated "dimensional categories." The system also stores a corpus of
documents, including themes and corresponding theme weights for each
document. A target category is selected to generate sub-categories. A set
of themes from the corpus of documents are selected for each term.
Dimensional category vectors, one for each term, are generated by
associating the set of themes for a term to a dimensional category in the
knowledge base. The dimensional category vectors for each term are
analyzed to determine if one or more clusters of terminological groups
exist to generate new sub-categories. A content processing system, which
generates themes and theme weights, is also disclosed.
Un système terminologique produit automatiquement des sous-catégories des catégories d'une base de connaissance. La base de connaissance inclut une pluralité de catégories hiérarchiquement disposées, aussi bien que des limites liées aux catégories. Un sous-ensemble des catégories de la base de connaissance sont indiqués "des catégories dimensionnelles." Le système stocke également un corpus des documents, y compris des thèmes et des poids correspondants de thème pour chaque document. Une catégorie de cible est choisie pour produire des sous-catégories. Un ensemble de thèmes du corpus des documents sont choisis pour chaque limite. Les vecteurs dimensionnels de catégorie, un pour chaque limite, sont produits en associant l'ensemble de thèmes pour une limite à une catégorie dimensionnelle dans la base de connaissance. Les vecteurs dimensionnels de catégorie pour chaque limite sont analysés pour déterminer si un ou plusieurs faisceaux des groupes terminologiques existent pour produire de nouvelles sous-catégories. Un système de traitement content, qui produit des thèmes et des poids de thème, est également révélé.