A system and method for normalizing encoded text data such as Unicode which
is extensible without use of character definition tables through the use
of metadata tagging. First, metadata characters, which have no effect on
the interpretation of the raw text data, are used to express higher order
protocols of encoded two text strings. Next, meta normal form conversion
is performed on one or both of two strings to be compared, if both strings
are not already in the same meta normal form. Finally, content equivalence
determination is performed in which the characters in each string are
compared to each other. If a string contains a metadata character, that
character is ignored for purposes of equivalence comparison. The remaining
characters represent the pure content of the string, e.g. characters
without any particular glyph representation.
Um sistema e um método para normalizar dados codificados do texto tais como Unicode que é extensible sem uso da definição do caráter tabelam com o uso de etiquetar do metadata. Primeiramente, os caráteres do metadata, que não têm nenhum efeito na interpretação dos dados do texto cru, são usados expressar protocolos de uma ordem mais elevada do codificado duas cordas de texto. Em seguida, a conversão normal do formulário do meta está executada em uma ou em ambos as duas cordas a ser comparadas, se ambas as cordas não estiverem já no mesmo formulário do normal do meta. Finalmente, a determinação de equivalência satisfeita é executada em que os caráteres em cada corda se são comparados. Se uma corda contiver um caráter do metadata, esse caráter está ignorado para finalidades da comparação de equivalência. Os caráteres restantes representam o índice puro da corda, por exemplo caráteres sem nenhuma respresentação particular do glyph.