The present invention is directed to a method and an apparatus for
performing document analysis. The apparatus of the present invention
comprises logic configured to recognize and label structures in a document
that are both common to multiple types of documents and that are unique to
the particular type of document being analyzed. The logic preferably is a
computer that receives the output of an optical character recognition
(OCR) system and then analyzes the output in accordance with a document
structure analysis routine. For structures that are common to multiple
types of documents, various types of tests may be performed by the
document structure analysis routine to recognize and label the common
types of structures. In order to recongize structures that are unique to
the particular type of document being analyzed, the document structure
analysis routine utilizes a rule base that is adapted to the particular
application domain associated with the document. The rule base comprises a
plurality of rules for testing structures in the document in order to
recognize unique, or application-domain-dependent, structures. These
structures are also labeled. All of the labeled structures are assigned a
likelihood indicator that is associated with a particular label. The
likelihood indicator indicates the likelihood that the label associated
with it is correct. The labels and the associated likelihood indicators
may then be used to correctly identify the application-domain-dependent
structures in the document.
A invenção atual é dirigida a um método e a um instrumento para executar a análise de original. O instrumento da invenção atual compreende a lógica configurarada para reconhecer e etiquetar as estruturas em um original que são comuns aos tipos múltiplos de originais e que são originais ao tipo particular de original que está sendo analisado. A lógica é preferivelmente um computador que receba a saída de um sistema do recognition de caráter ótico (OCR) e analise então a saída do acordo com uma rotina da análise da estrutura do original. Para as estruturas que são comuns aos tipos múltiplos de originais, os vários tipos de testes podem ser executados pela rotina da análise da estrutura do original para reconhecer e etiquetar os tipos comuns de estruturas. Recongize as estruturas que são originais ao tipo particular de original que está sendo analisado, a rotina da análise da estrutura do original utiliza uma base da régua que seja adaptada ao domínio particular da aplicação associado com o original. A base da régua compreende um plurality das réguas para estruturas testando no original a fim reconhecer original, ou aplicação-domínio-dependentes, estruturas. Estas estruturas são etiquetadas também. Todas as estruturas etiquetadas são atribuídas um indicador da probabilidade que seja associado com uma etiqueta particular. O indicador da probabilidade indica a probabilidade que a etiqueta associada com ela está correta. As etiquetas e os indicadores associados da probabilidade podem então ser usados identificar corretamente as estruturas aplicação-domínio-dependentes no original.