A system for determining whether a record-to-be-added to a database is a
duplicate of an existing record. The database is first processed, to
generate a library of signatures, one for each record. For example, assume
each record contains a phrase. The signature may be a concatenation of the
first letters of each word in the phrase. Thus, the signature for "Cats
like milk" would be CLM. After generation of the library, when a new
record is to be added to the database, a signature is generated for the
new record. That signature is compared with the library. In this example,
if the new record is "Cats like milk," and if "CLM" is not found in the
library, then it is conclusively known that "Cats like milk" is not
present in the database. The new record can be added, without fear of
duplication. However, if "CLM" is found in the library, that fact is not
dispositive. "CLM" could be present because of the different phrase "Cats
like mice" in a record. If such a matching signature is found, then human
intervention is called for, to determine whether the new record duplicates
an existing record.
Um sistema para determinar se grav-à-est-adicionado uma base de dados é uma duplicata de um registro existente. A base de dados é processada primeiramente, para gerar uma biblioteca das assinaturas, uma para cada registro. Para o exemplo, suponha que cada registro contem uma frase. A assinatura pode ser uma concatenação das primeiras letras de cada palavra na frase. Assim, a assinatura para "gatos como o leite" seria CLM. Após a geração da biblioteca, quando um registro novo deve ser adicionada à base de dados, uma assinatura é gerada para o registro novo. Essa assinatura é comparada com a biblioteca. Neste exemplo, se o registro novo for "gatos como o leite," e se o "CLM" não for encontrado na biblioteca, a seguir nela é sabido conclusively que os "gatos como o leite" não estão atuais na base de dados. O registro novo pode ser adicionado, sem medo da duplicação. Entretanto, se o "CLM" for encontrado na biblioteca, esse fato não é dispositive. o "CLM" podia estar atual por causa da frase diferente "gatos como ratos" em um registro. Se uma assinatura tão combinando for encontrada, a intervenção humana está chamada então para, para determinar se o registro novo duplica um registro existente.