A computer-implemented method determines the resemblance of data objects
such as Web pages. Each data object is partitioned into a sequence of
tokens. The tokens are grouped into overlapping sets of the tokens to form
shingles. Each shingle is represented by a unique identification element
encoded as a fingerprint. A minimum element from each of the images of the
set of fingerprints associated with a document under each of a plurality
of pseudo random permutations of the set of all fingerprints are selected
to generate a sketch of each data object. The sketches characterize the
resemblance of the data objects. The sketches can be further partitioned
into a plurality of groups. Each group is fingerprinted to form a feature.
Data objects that share more than a certain numbers of features are
estimated to be nearly identical.
Un metodo calcolatore-effettuato determina la rassomiglianza degli oggetti di dati quali i Web pagi. Ogni oggetto di dati è diviso in una sequenza del segno. Il segno è raggruppato in serie di sovrapposizione del segno per formare le assicelle. Ogni assicella è rappresentata da un elemento unico dell'identificazione messo come impronta digitale. Un elemento minimo da ciascuna delle immagini dell'insieme delle impronte digitali si è associato con un documento sotto ciascuna di una pluralità di permutazioni casuali pseudi dell'insieme di tutte le impronte digitali è selezionato per generare un abbozzo di ogni oggetto di dati. Gli abbozzi caratterizzano la rassomiglianza degli oggetti di dati. Gli abbozzi possono più ulteriormente essere divisi in una pluralità di gruppi. Ogni gruppo fingerprinted per formare una caratteristica. I dati obiettano che la parte più dell'determinati numeri di caratteristiche è valutata per essere quasi identica.