A method and apparatus for efficiently classifying and categorizing data
objects such as electronic text, graphics, and audio based documents
within very-large-scale hierarchical classification trees is provided. In
accordance with one embodiment of the invention, a first node of a
plurality of nodes of a subject hierarchy is selected. Previously
classified data objects corresponding to a selected first node of a
subject hierarchy as well as any associated sub-nodes of the selected node
are aggregated to form a content class of data objects. Similarly, data
objects corresponding to sibling nodes of the selected node and any
associated sub-nodes of the sibling nodes are then aggregated to form an
anti-content class of data objects. Features are then extracted from each
of the content class of data objects and the anti-content class of data
objects to facilitate characterization of said previously classified data
objects.
Un método y un aparato para eficientemente clasificar y categorizar objetos de los datos tales como texto electrónico, gráficos, y documentos basados audio dentro muy-grande-escalan árboles jerárquicos de la clasificación se proporciona. De acuerdo con una encarnación de la invención, un primer nodo de una pluralidad de nodos de una jerarquía sujeta se selecciona. Los datos previamente clasificados se oponen corresponder a un primer nodo seleccionado de una jerarquía sujeta tan bien como cualquier secundario-nodo asociado del nodo seleccionado se agrega para formar una clase contenta de los objetos de los datos. Semejantemente, los objetos de los datos que corresponden a los nodos del hermano del nodo seleccionado y cualquier secundario-nodo asociado de los nodos del hermano entonces se agregan para formar una clase del contra-contenido de los objetos de los datos. Las características entonces se extraen de cada uno de la clase contenta de los objetos de los datos y de la clase del contra-contenido de los objetos de los datos para facilitar la caracterización de los objetos previamente clasificados dichos de los datos.