A method and apparatus are disclosed for compressing textual documents
encoded using a tag-based markup language, such as XML or SGML documents,
in a manner that allows a compressed document to be processed without
decompression. A document is compressed using a standard compression
algorithm that is applied only to the data elements of the document. The
tag elements of the XML document that impose the hierarchical structure on
the data elements are not compressed. The hierarchical relationship of the
data elements can be ascertained from the compressed document. A user can
thereafter selectively decompress desired portions of the document,
without decompressing the entire document. An identification of the
employed compression technique can be inserted into a root node tag
element of the XML document or into an additional tag element pair that is
inserted into the XML document. An XML decoder can utilize the
uncompressed tag elements to ascertain the hierarchical structure of the
compressed data and present the user with a corresponding hierarchical
expression of the document.
Une méthode et un appareil sont révélés pour comprimer les documents textuels codés en utilisant une langue étiquette-basée de marge bénéficiaire bénéficiaire, telle que des documents de XML ou de SGML, en quelque sorte qui permet à un document comprimé d'être traité sans décompression. Un document est comprimé en utilisant un algorithme standard de compression qui est appliqué seulement aux éléments d'informations du document. Les éléments d'étiquette des XML documentent qui imposent la structure hiérarchique aux éléments d'informations ne sont pas comprimés. Le rapport hiérarchique des éléments d'informations peut être assuré du document comprimé. Un utilisateur peut ensuite sélectivement décomprimer les parties désirées du document, sans décomprimer le document entier. Une identification de la technique utilisée de compression peut être insérée dans un élément d'étiquette de noeud de racine du document de XML ou dans une paire additionnelle d'élément d'étiquette qui est insérée dans le document de XML. Un décodeur de XML peut utiliser les éléments non comprimés d'étiquette pour s'assurer la structure hiérarchique des données comprimées et pour présenter l'utilisateur avec une expression hiérarchique correspondante du document.