Method and apparatus for performing document structure analysis

   
   

The present invention is directed to a method and an apparatus for performing document analysis. The apparatus of the present invention comprises logic configured to recognize and label structures in a document that are both common to multiple types of documents and that are unique to the particular type of document being analyzed. The logic preferably is a computer that receives the output of an optical character recognition (OCR) system and then analyzes the output in accordance with a document structure analysis routine. For structures that are common to multiple types of documents, various types of tests may be performed by the document structure analysis routine to recognize and label the common types of structures. In order to recongize structures that are unique to the particular type of document being analyzed, the document structure analysis routine utilizes a rule base that is adapted to the particular application domain associated with the document. The rule base comprises a plurality of rules for testing structures in the document in order to recognize unique, or application-domain-dependent, structures. These structures are also labeled. All of the labeled structures are assigned a likelihood indicator that is associated with a particular label. The likelihood indicator indicates the likelihood that the label associated with it is correct. The labels and the associated likelihood indicators may then be used to correctly identify the application-domain-dependent structures in the document.

A invenção atual é dirigida a um método e a um instrumento para executar a análise de original. O instrumento da invenção atual compreende a lógica configurarada para reconhecer e etiquetar as estruturas em um original que são comuns aos tipos múltiplos de originais e que são originais ao tipo particular de original que está sendo analisado. A lógica é preferivelmente um computador que receba a saída de um sistema do recognition de caráter ótico (OCR) e analise então a saída do acordo com uma rotina da análise da estrutura do original. Para as estruturas que são comuns aos tipos múltiplos de originais, os vários tipos de testes podem ser executados pela rotina da análise da estrutura do original para reconhecer e etiquetar os tipos comuns de estruturas. Recongize as estruturas que são originais ao tipo particular de original que está sendo analisado, a rotina da análise da estrutura do original utiliza uma base da régua que seja adaptada ao domínio particular da aplicação associado com o original. A base da régua compreende um plurality das réguas para estruturas testando no original a fim reconhecer original, ou aplicação-domínio-dependentes, estruturas. Estas estruturas são etiquetadas também. Todas as estruturas etiquetadas são atribuídas um indicador da probabilidade que seja associado com uma etiqueta particular. O indicador da probabilidade indica a probabilidade que a etiqueta associada com ela está correta. As etiquetas e os indicadores associados da probabilidade podem então ser usados identificar corretamente as estruturas aplicação-domínio-dependentes no original.

 
Web www.patentalert.com

< Haptic feedback using a keyboard device

< Method and system for transporting traffic in a packet-switched network

> Ku80 homologue and uses thereof

> Polynucleotides for mammalian secreted protein, Z1055G2P

~ 00101