A document query processing system comprising a document database and a
document query processor. The document database includes a document text
base, an encoded index file, and a dictionary. The document text base
includes document text in which each have an associated location
identifier in the document. The encoded index file including a plurality
of encoded records, each for a different word in the document text base.
Each record has a locator entry associated with each instance in the
document text base of the word associated with the record, the locator
entries containing encoded locator values identifying locations of
instances of the word in the document text base. The dictionary includes
record location identifiers pointing to the location in the encoded index
file of each encoded record. The query processing element includes a
dictionary lookup element to identify the locations of records in the
dictionary corresponding to each query word, and an encoded index file
processing element for using the record location identifier identified by
the dictionary to locate a record in the encoded index file for the query
words and decoding the encoded locator values in the locator entries of
the record to generate pointers each identifing locations in the document
text base of instances of the the query word. An encoding arrangement for
generating the encoded index file is also disclosed.
Een de verwerkingssysteem dat van de documentvraag uit een documentgegevensbestand en uit een bewerker van de documentvraag bestaat. Het documentgegevensbestand omvat een basis van de documenttekst, een gecodeerd indexdossier, en een woordenboek. De basis van de documenttekst omvat documenttekst waarin elk een bijbehorend plaatsherkenningsteken in het document heeft. Het gecodeerde indexdossier met inbegrip van een meerderheid van gecodeerde verslagen, elk voor een verschillend woord in de basis van de documenttekst. Elk verslag heeft een merktekeningang verbonden aan elke instantie in de basis van de documenttekst van het woord verbonden aan het verslag, de merktekeningangen die gecodeerde merktekenwaarden bevatten die plaatsen van instanties van het woord in de basis van de documenttekst identificeren. Het woordenboek omvat de herkenningstekens van de verslagplaats richtend aan de plaats in het gecodeerde indexdossier van elk gecodeerd verslag. Het element van de vraagverwerking omvat een element van de woordenboekraadpleging om de plaatsen van verslagen in het woordenboek te identificeren dat aan elk vraagwoord beantwoordt, en een gecodeerd de verwerkingselement van het indexdossier voor het gebruiken van het herkenningsteken van de verslagplaats dat door het woordenboek wordt geïdentificeerd van een verslag in het gecodeerde indexdossier voor de vraagwoorden de plaats te bepalen en het decoderen van de gecodeerde merktekenwaarden in de merktekeningangen van het verslag om elke wijzers te produceren identifing plaatsen in de basis van de documenttekst van instanties van het vraagwoord. Een het coderen regeling voor het produceren van het gecodeerde indexdossier wordt ook onthuld.