Method and apparatus for statistical text filtering

   
   

Disclosed herein is a method for automatically filtering a corpus of documents containing textual and non-textual information of a natural language. According to the method, through a first dividing step (101), the document corpus is divided into appropriate portions. At a following determining step (105), for each portion of the document corpus, there is determined a regularity value (V.sub.R) measuring the conformity of the portion with respect to character sequences probabilities predetermined for the language considered. At a comparing step (107), each regularity value (V.sub.R) is then compared with a threshold value (V.sub.T) to decide whether the conformity is sufficient. Finally, at a rejecting step (111), any portion of the document corpus whose conformity is not sufficient is rejected and removed from the corpus. An apparatus for carrying out such a method is also disclosed.

Se divulga adjunto un método para automáticamente filtrar una recopilación de los documentos que contienen la información textual y no-textual de una lengua natural. Según el método, con un primer paso que se divide (101), la recopilación del documento se divide en porciones apropiadas. En un paso de determinación siguiente (105), para cada porción de la recopilación del documento, allí se determina un valor de la regularidad (V.sub.R) que mide la conformidad de la porción con respecto a las probabilidades de las secuencias del carácter predeterminadas para la lengua considerada. En un paso que compara (107), cada valor de la regularidad (V.sub.R) entonces se compara con un valor de umbral (V.sub.T) para decidir a si la conformidad es suficiente. Finalmente, en un paso que rechaza (111), cualquier porción de la recopilación del documento que conformidad no es suficiente se rechaza y se quita de la recopilación. Un aparato para realizar tal método también se divulga.

 
Web www.patentalert.com

< Automatic image orientation detection based on classification of low-level image features

< Methods for outlining and filling regions in multi-dimensional arrays

> Method and apparatus for encoding frames of image data at a varying quality level

> Video coding and video decoding apparatus

~ 00173