System and method for interpreting document contents

   
   

A sequence of word filters are used to eliminate terms in the database which do not discriminate document content, resulting in a filtered word set and a topic word set whose members are highly predictive of content. These two word sets are then formed into a two dimensional matrix with matrix entries calculated as the conditional probability that a document will contain a word in a row given that it contains the word in a column. The matrix representation allows the resultant vectors to be utilized to interpret document contents.

Een opeenvolging van woordfilters wordt gebruikt om termijnen in het gegevensbestand te elimineren die document geen inhoud onderscheiden, resulterend in een gefiltreerde geplaatste woordreeks en een onderwerpwoord de waarvan leden van inhoud hoogst vooruitlopend zijn. Deze twee woordreeksen worden dan in een tweedimensionale matrijs met matrijsingangen gevormd die als voorwaardelijke waarschijnlijkheid worden berekend dat een document een woord in een rij zal bevatten gezien het het woord in een kolom bevat. De matrijsvertegenwoordiging laat de resulterende vectoren toe worden gebruikt om documentinhoud te interpreteren.

 
Web www.patentalert.com

< Search query refinement using related search phrases

< Color matching system and method

> System and method for quantitatively representing data objects in vector space

> Website for financial information

~ 00122