A system for collecting and categorizing metadata about content provided
via the internet or intranet, regardless of the language of generation of
the content. The content of each document is assigned token IDs, which
token IDs are the same for any given topic irrespective of the language in
which the document is written. Filtering of single language documents will
generate a single output; whereas, multilingual documents will be divided
into language segments with each segment being filtered by the appropriate
language filter.
Um sistema para coletar e categorizar o metadata sobre o índice forneceu através do Internet ou do Intranet, não obstante a língua da geração do índice. O índice de cada original é atribuído o símbolo IDs, que o símbolo IDs é o mesmo para todo o tópico dado irrespective da língua em que o original é escrito. Filtrar de únicos originais da língua gerará uma única saída; visto que, os originais multilingual serão divididos em segmentos da língua com cada segmento que está sendo filtrado pelo filtro apropriado da língua.