Provided is an indexing system for structured or semi-structured source
data comprising a tokenizer for accepting source data and generating
tokens representing the source data, the tokens from the tokenization
representing the source data in a relational view, where for tokens
representing a subset of the source data, the system generates tokens
identifying the table and column of the subset of the data in the
relational view of the source data, and an index builder for building
index structures based on the tokens generated by the tokenizer, the index
builder creating indexes which comprise a set of positional indexes for
indicating the position of token data in the source data, a set of
lexicographical indexes comprising a sort vector index and a join bit
index, associated with the sort vector index, a set of data structures
mapping between the lexicographical indexes and the positional indexes.
Si est un système d'indexation pour structuré ou des données de base de semi-finale-structured comportant un tokenizer pour accepter des données de base et produire de la marque représentant les données de base, la marque du tokenization représentant les données de base dans une vue relationnelle, où pour la marque représentant un sous-ensemble des données de base, le système produit de la marque identifiant la table et la colonne du sous-ensemble des données dans la vue relationnelle des données de base, et d'un constructeur d'index pour des structures d'index de bâtiment basait sur la marque produite par le tokenizer, le constructeur d'index créant les index qui comportent un ensemble des index de position pour indiquer la position des données symboliques dans les données de base, un ensemble de lexicographique index comportant un index de vecteur de sorte et un index de peu de joindre, associés à l'index de vecteur de sorte, un ensemble de structures de données traçant entre les index lexicographiques et les index de position.