A method and a computer system for indexing and searching the data content
of nested field records, such as those in Extensible Markup Language
(XML). The system includes an indexing and searching engine that
constructs an improved full-text search index on the input XML data and
then performs searches using the index. The system supports exact matches
and partial matches using a wildcard character. The method transforms the
input XML data into a form that encodes the data structural information by
suffixing each word with its corresponding field qualifiers or an
equivalent numerical pattern thereof. The resulting encoded words are then
stored in a full-text index structure. Various types of full-index search
may be performed. One alternative embodiment is to combine string matching
and numeric or integer pattern matching to identify a particular word in a
particular field. The portion of the word without field qualifiers is
matched against the words in the index, and the pattern of numerals
representing the word's field qualifiers is matched against the numeral
patterns of the words in the index that correspond to their respective
field qualifiers. Therefore, evaluation of complex field criteria is
reduced to simpler and faster numeric matching.
Une méthode et un système informatique pour l'indexation et rechercher la teneur en données des disques nichés de champ, de ce type en Extensible Markup Language (XML). Le système inclut un moteur d'indexation et de recherche qui construit un index à texte intégral amélioré de recherche sur les données de l'entrée XML et puis exécute des recherches en utilisant l'index. Le système soutient les allumettes exactes et les allumettes partielles en utilisant un caractère de wildcard. La méthode transforme les données de l'entrée XML en forme qui code l'information structurale de données en suffixant chaque mot avec ses qualificateurs correspondants de champ ou un modèle numérique équivalent en. Les mots codés résultants sont alors stockés dans une structure à texte intégral d'index. De divers types de recherche d'plein-index peuvent être exécutés. Une incorporation alternative doit combiner la corde s'assortissant et s'assortissant numérique ou de nombre entier de modèle pour identifier un mot particulier dans un domaine particulier. La partie du mot sans qualificateurs de champ est assortie contre les mots dans l'index, et le modèle des numéros représentant les qualificateurs du champ du mot est assorti contre les modèles numéraux des mots dans l'index qui correspondent à leurs qualificateurs respectifs de champ. Par conséquent, l'évaluation des critères complexes de champ est réduite à un assortiment plus simple et plus rapidement numérique.