Meta normalization for text page

A system and method for normalizing encoded text data such as Unicode which is extensible without use of character definition tables through the use of metadata tagging. First, metadata characters, which have no effect on the interpretation of the raw text data, are used to express higher order protocols of encoded two text strings. Next, meta normal form conversion is performed on one or both of two strings to be compared, if both strings are not already in the same meta normal form. Finally, content equivalence determination is performed in which the characters in each string are compared to each other. If a string contains a metadata character, that character is ignored for purposes of equivalence comparison. The remaining characters represent the pure content of the string, e.g. characters without any particular glyph representation.

Um sistema e um método para normalizar dados codificados do texto tais como Unicode que é extensible sem uso da definição do caráter tabelam com o uso de etiquetar do metadata. Primeiramente, os caráteres do metadata, que não têm nenhum efeito na interpretação dos dados do texto cru, são usados expressar protocolos de uma ordem mais elevada do codificado duas cordas de texto. Em seguida, a conversão normal do formulário do meta está executada em uma ou em ambos as duas cordas a ser comparadas, se ambas as cordas não estiverem já no mesmo formulário do normal do meta. Finalmente, a determinação de equivalência satisfeita é executada em que os caráteres em cada corda se são comparados. Se uma corda contiver um caráter do metadata, esse caráter está ignorado para finalidades da comparação de equivalência. Os caráteres restantes representam o índice puro da corda, por exemplo caráteres sem nenhuma respresentação particular do glyph.