Method and apparatus for compressing textual documents

   
   

A method and apparatus are disclosed for compressing textual documents encoded using a tag-based markup language, such as XML or SGML documents, in a manner that allows a compressed document to be processed without decompression. A document is compressed using a standard compression algorithm that is applied only to the data elements of the document. The tag elements of the XML document that impose the hierarchical structure on the data elements are not compressed. The hierarchical relationship of the data elements can be ascertained from the compressed document. A user can thereafter selectively decompress desired portions of the document, without decompressing the entire document. An identification of the employed compression technique can be inserted into a root node tag element of the XML document or into an additional tag element pair that is inserted into the XML document. An XML decoder can utilize the uncompressed tag elements to ascertain the hierarchical structure of the compressed data and present the user with a corresponding hierarchical expression of the document.

Une méthode et un appareil sont révélés pour comprimer les documents textuels codés en utilisant une langue étiquette-basée de marge bénéficiaire bénéficiaire, telle que des documents de XML ou de SGML, en quelque sorte qui permet à un document comprimé d'être traité sans décompression. Un document est comprimé en utilisant un algorithme standard de compression qui est appliqué seulement aux éléments d'informations du document. Les éléments d'étiquette des XML documentent qui imposent la structure hiérarchique aux éléments d'informations ne sont pas comprimés. Le rapport hiérarchique des éléments d'informations peut être assuré du document comprimé. Un utilisateur peut ensuite sélectivement décomprimer les parties désirées du document, sans décomprimer le document entier. Une identification de la technique utilisée de compression peut être insérée dans un élément d'étiquette de noeud de racine du document de XML ou dans une paire additionnelle d'élément d'étiquette qui est insérée dans le document de XML. Un décodeur de XML peut utiliser les éléments non comprimés d'étiquette pour s'assurer la structure hiérarchique des données comprimées et pour présenter l'utilisateur avec une expression hiérarchique correspondante du document.

 
Web www.patentalert.com

< Method and apparatus for a Meta Data Service in a data processing system

< Method of and apparatus for controlling access to the internet in a computer system and computer readable medium storing a computer program

> Providing internet protocol (IP) security

> Collecting event data and describing events

~ 00158