A schema discovery system and associated method discover a majority schema
for a set of related and similarly marked up documents, such as HTML
documents, based on the assumption that though the structure of these
documents is mostly for visual purposes, the keywords used in the
documents along with the structural tags provide some hints, and allow a
rough sketch of the underlying intended schema. With the assumption that
albeit the set of HTML documents are marked up differently due to diverse
authoring skills, they are closely related in content, it is reasonable to
find a schema that can unify these different schemas, which schema is
shared by the majority of these HTML documents. The system employs
constraint rules on tree ordering to reduce the computational complexity
in arriving at optimized XML DTD schema. These generalized XML DTD schemas
may be used to perform automated comparison and evaluation schemes of
profile documents on the WWW.
Un sistema di scoperta dello schema e un metodo collegato scoprono uno schema di maggioranza per un insieme di relativo e contrassegnato similmente sui documenti, quali i documenti del HTML, basati sul presupposto che anche se la struttura di questi documenti è principalmente per gli scopi visivi, le parole chiavi usate nei documenti con le modifiche strutturali forniscono alcuni suggerimenti e permettono un abbozzo approssimativo dello schema progettato di fondo. Con il presupposto che anche se l'insieme del HTML documenta sono contrassegnati su diversamente dovuto le abilità creanti varie, strettamente sono collegati nel soddisfare, esso è ragionevole da trovare uno schema che può unificare questi schemi differenti, che lo schema è ripartito dalla maggior parte di questi documenti del HTML. Il sistema impiega le regole di vincolo sull'albero che ordina per ridurre la complessità di calcolo nell'arrivare allo schema ottimizzato del DTD di XML. Questi schemi generalizzati del DTD di XML possono essere usati per effettuare gli schemi automatizzati di valutazione e di confronto dei documenti di profilo sul WWW.