Automatic categorization of documents based on textual content

An electronic device automatically classifies documents based upon textual content. Documents may be classified into document categories. Statistical characteristics are gathered for each document category and these statistical characteristics are used as a frame of reference in determining how to classify the document. The document categories may be intersecting or non-intersecting. A neutral category is used to represent documents that do not fit into many of the other specified categories. The statistical characteristics for an input document are compared with those for the document category and for the neutral category in making a determination on how to categorize the document. This approach is extensible, generalizable and efficient.
Een elektronisch apparaat classificeert automatisch documenten die op tekstuele inhoud worden gebaseerd. De documenten kunnen in documentcategorieën worden geclassificeerd. De statistische kenmerken worden verzameld voor elke documentcategorie en deze statistische kenmerken worden gebruikt als kader van verwijzing in het bepalen hoe te om het document te classificeren. De documentcategorieën kunnen snijden of niet-snijden. Een neutrale categorie wordt gebruikt om documenten te vertegenwoordigen die niet in veel van de andere gespecificeerde categorieën passen. De statistische kenmerken voor een inputdocument worden vergeleken met die voor de documentcategorie en voor de neutrale categorie in het opstellen van een besluit op hoe te om het document te categoriseren. Deze benadering is verlengbaar, generalizable en efficiënt.

Web www.patentalert.com

< Automatic uniform resource locator-based message filter

< System and method for improving speed of operation of integrated circuits

> System and method for counteracting message filtering

> Delayed read/write scheme for SRAM interface compatible DRAM

~ 00089