Methods and systems are provided that enable text in various sections of
data records to be separately catalogued, indexed, or vectorized for
analysis in a text visualization and mining system. A text processing
system receives a plurality of data records, where each data record has
one or a plurality of attribute fields associated with the records. The
attributes fields containing textual information are identified. The
specific textual content of each attribute field is identified. An index
is generated that associates the textual content contained in each
attribute field with the attribute field containing the textual content.
The index is operable for use in text processing. The plurality of data
records may be located in a data table and the textual information may be
contained within cells of the data table. In another aspect, a plurality
of data records is received, where at least some of the data records
contain text terms. A first method is applied to weight text terms of the
data records in a first manner to aid in distinguishing records from each
other in response to selection of the first method. A second method is
applied to weight text terms of the data records in a second manner to aid
in distinguishing records from each other in response to selection of the
second method. A vector is generated to distinguish each of the data
records based on the text terms weighted by either the first or second
method.
De methodes en de systemen worden verstrekt die toelaten dat de tekst in diverse secties gegevensverslagen afzonderlijk wordt gecatalogiseerd, geïndexeerd, of vectorized voor analyse in een van de tekstvisualisatie en mijnbouw systeem. Een systeem van de tekstverwerking ontvangt een meerderheid van gegevensverslagen, waar elk gegevensverslag één of een meerderheid van attributengebieden verbonden aan de verslagen heeft. De attributengebieden die tekstuele informatie bevatten worden geïdentificeerd. De specifieke tekstuele inhoud van elk attributengebied wordt geïdentificeerd. Een index wordt geproduceerd die de tekstuele inhoud op elk attributengebied met het attributengebied associëert dat de tekstuele inhoud bevat. De index is opereerbaar voor gebruik in tekstverwerking. De meerderheid van gegevensverslagen kan in een gegevenslijst worden gevestigd en de tekstuele informatie kan binnen cellen van de gegevenslijst worden bevat. In een ander aspect, wordt een meerderheid van gegevensverslagen ontvangen, waar minstens enkele gegevensverslagen teksttermijnen bevatten. Een eerste methode wordt toegepast op de termijnen van de gewichtstekst van de gegevensverslagen op een eerste manier aan hulp in het onderscheiden van verslagen van elkaar in antwoord op selectie van de eerste methode. Een tweede methode wordt toegepast op de termijnen van de gewichtstekst van de gegevensverslagen op een tweede manier aan hulp in het onderscheiden van verslagen van elkaar in antwoord op selectie van de tweede methode. Een vector wordt geproduceerd om elk van de gegevensverslagen te onderscheiden die onder de tekstvoorwaarden worden gebaseerd die door of de eerste of tweede methode worden gewogen.