A sequence of word filters are used to eliminate terms in the database
which do not discriminate document content, resulting in a filtered word
set and a topic word set whose members are highly predictive of content.
These two word sets are then formed into a two dimensional matrix with
matrix entries calculated as the conditional probability that a document
will contain a word in a row given that it contains the word in a column.
The matrix representation allows the resultant vectors to be utilized to
interpret document contents.
Een opeenvolging van woordfilters wordt gebruikt om termijnen in het gegevensbestand te elimineren die document geen inhoud onderscheiden, resulterend in een gefiltreerde geplaatste woordreeks en een onderwerpwoord de waarvan leden van inhoud hoogst vooruitlopend zijn. Deze twee woordreeksen worden dan in een tweedimensionale matrijs met matrijsingangen gevormd die als voorwaardelijke waarschijnlijkheid worden berekend dat een document een woord in een rij zal bevatten gezien het het woord in een kolom bevat. De matrijsvertegenwoordiging laat de resulterende vectoren toe worden gebruikt om documentinhoud te interpreteren.