A document classification system includes disambiguation processing to
validate categories that have been preliminarily classified for themes of
a document. The themes of a document are preliminarily classified through
use of a classification hierarchy that contains a plurality of categories.
The disambiguation processing determines, for a theme selected for
disambiguation, whether the category preliminarily classified for the
theme selected is valid by analyzing the relationships among the category
preliminarily classified for the theme and other categories classified for
different themes in the document. The disambiguation processing also
utilizes a category cross reference database, which comprises a list of
category cross reference pairs, to disambiguate categories assigned to
themes by pairing a category classified for a theme and other categories
classified for other themes in the document and by comparing these
category pairs with category cross reference database pairs. If a match
occurs, then the categories of a document category pair are validated.
Un sistema de clasificación del documento incluye la desambiguación que procesa para validar las categorías que se han clasificado preliminar para los temas de un documento. Los temas de un documento se clasifican preliminar con uso de una jerarquía de la clasificación que contenga una pluralidad de categorías. El proceso de la desambiguación se determina, porque un tema seleccionado para la desambiguación, si la categoría clasificada preliminar para el tema seleccionado es válida analizando las relaciones entre la categoría clasificada preliminar para el tema y otras categorías clasificados para diversos temas en el documento. La desambiguación que procesa también utiliza una base de datos de la remisión de la categoría, que abarca una lista de pares de la remisión de la categoría, para quitar ambigüedades de las categorías asignadas a los temas apareando una categoría clasificada para un tema y de otras categorías clasificadas para otros temas en el documento y comparando estos pares de la categoría con pares de la base de datos de la remisión de la categoría. Si ocurre un fósforo, después las categorías de un par de la categoría del documento se validan.