A method for generating a wrapper grammar for a file having a structure of
a particular format includes providing at least one sample file of the
particular format, where the particular format comprises a plurality of
string tokens. Each sample file includes a plurality of tokens (data
strings) which may be actual data from the document, an HTML tag or some
other grammatical separator. The sample file of the particular format is
then processed by annotating attributable tokens with a user-defined
attribute, such as Author, Title, etc. from a set of attributes to form an
annotated sample set. The annotated sample set is then evaluated to
determine if wrapper grammar generation is possible, and if it is
possible, a wrapper grammar for the files having a structure of the
particular format is generated. Preferably, the annotated sample set is
evaluated by determining if all attributes in the annotated sample set are
distinguishable from one another.
Une méthode pour produire d'une grammaire d'emballage pour un dossier ayant une structure d'un format particulier inclut fournir au moins un dossier témoin du format particulier, où le format particulier comporte une pluralité de la marque de corde. Chaque dossier témoin inclut une pluralité de marque (cordes de données) qui peut être des données réelles du document, d'une étiquette de HTML ou d'un autre séparateur grammatical. Le dossier témoin du format particulier est alors traité en annotant la marque attribuable avec un attribut défini pour l'utilisateur, tel que l'auteur, le titre, etc. d'un ensemble d'attributs pour former un ensemble annoté témoin. L'ensemble annoté témoin est alors évalué pour déterminer si la génération de grammaire d'emballage est possible, et s'il est possible, une grammaire d'emballage pour les dossiers ayant une structure du format particulier est produite. De préférence, l'ensemble annoté témoin est évalué en déterminant si tous les attributs dans l'ensemble annoté témoin sont distinguables les uns des autres.