System and method for use in text analysis of documents and records

Methods and systems are provided that enable text in various sections of data records to be separately catalogued, indexed, or vectorized for analysis in a text visualization and mining system. A text processing system receives a plurality of data records, where each data record has one or a plurality of attribute fields associated with the records. The attributes fields containing textual information are identified. The specific textual content of each attribute field is identified. An index is generated that associates the textual content contained in each attribute field with the attribute field containing the textual content. The index is operable for use in text processing. The plurality of data records may be located in a data table and the textual information may be contained within cells of the data table. In another aspect, a plurality of data records is received, where at least some of the data records contain text terms. A first method is applied to weight text terms of the data records in a first manner to aid in distinguishing records from each other in response to selection of the first method. A second method is applied to weight text terms of the data records in a second manner to aid in distinguishing records from each other in response to selection of the second method. A vector is generated to distinguish each of the data records based on the text terms weighted by either the first or second method.
De methodes en de systemen worden verstrekt die toelaten dat de tekst in diverse secties gegevensverslagen afzonderlijk wordt gecatalogiseerd, geïndexeerd, of vectorized voor analyse in een van de tekstvisualisatie en mijnbouw systeem. Een systeem van de tekstverwerking ontvangt een meerderheid van gegevensverslagen, waar elk gegevensverslag één of een meerderheid van attributengebieden verbonden aan de verslagen heeft. De attributengebieden die tekstuele informatie bevatten worden geïdentificeerd. De specifieke tekstuele inhoud van elk attributengebied wordt geïdentificeerd. Een index wordt geproduceerd die de tekstuele inhoud op elk attributengebied met het attributengebied associëert dat de tekstuele inhoud bevat. De index is opereerbaar voor gebruik in tekstverwerking. De meerderheid van gegevensverslagen kan in een gegevenslijst worden gevestigd en de tekstuele informatie kan binnen cellen van de gegevenslijst worden bevat. In een ander aspect, wordt een meerderheid van gegevensverslagen ontvangen, waar minstens enkele gegevensverslagen teksttermijnen bevatten. Een eerste methode wordt toegepast op de termijnen van de gewichtstekst van de gegevensverslagen op een eerste manier aan hulp in het onderscheiden van verslagen van elkaar in antwoord op selectie van de eerste methode. Een tweede methode wordt toegepast op de termijnen van de gewichtstekst van de gegevensverslagen op een tweede manier aan hulp in het onderscheiden van verslagen van elkaar in antwoord op selectie van de tweede methode. Een vector wordt geproduceerd om elk van de gegevensverslagen te onderscheiden die onder de tekstvoorwaarden worden gebaseerd die door of de eerste of tweede methode worden gewogen.

Web www.patentalert.com

< Method for converting relational data into a structured document

< Approach for performing administrative functions in information systems

> Query translation system for retrieving business vocabulary terms

> Channel communication system

~ 00095