An electronic device automatically classifies documents based upon textual
content. Documents may be classified into document categories. Statistical
characteristics are gathered for each document category and these
statistical characteristics are used as a frame of reference in
determining how to classify the document. The document categories may be
intersecting or non-intersecting. A neutral category is used to represent
documents that do not fit into many of the other specified categories. The
statistical characteristics for an input document are compared with those
for the document category and for the neutral category in making a
determination on how to categorize the document. This approach is
extensible, generalizable and efficient.
Een elektronisch apparaat classificeert automatisch documenten die op tekstuele inhoud worden gebaseerd. De documenten kunnen in documentcategorieën worden geclassificeerd. De statistische kenmerken worden verzameld voor elke documentcategorie en deze statistische kenmerken worden gebruikt als kader van verwijzing in het bepalen hoe te om het document te classificeren. De documentcategorieën kunnen snijden of niet-snijden. Een neutrale categorie wordt gebruikt om documenten te vertegenwoordigen die niet in veel van de andere gespecificeerde categorieën passen. De statistische kenmerken voor een inputdocument worden vergeleken met die voor de documentcategorie en voor de neutrale categorie in het opstellen van een besluit op hoe te om het document te categoriseren. Deze benadering is verlengbaar, generalizable en efficiënt.