A computer-implemented method determines the resemblance of data objects such as Web pages. Each data object is partitioned into a sequence of tokens. The tokens are grouped into overlapping sets of the tokens to form shingles. Each shingle is represented by a unique identification element encoded as a fingerprint. A minimum element from each of the images of the set of fingerprints associated with a document under each of a plurality of pseudo random permutations of the set of all fingerprints are selected to generate a sketch of each data object. The sketches characterize the resemblance of the data objects. The sketches can be further partitioned into a plurality of groups. Each group is fingerprinted to form a feature. Data objects that share more than a certain numbers of features are estimated to be nearly identical.

Un metodo calcolatore-effettuato determina la rassomiglianza degli oggetti di dati quali i Web pagi. Ogni oggetto di dati è diviso in una sequenza del segno. Il segno è raggruppato in serie di sovrapposizione del segno per formare le assicelle. Ogni assicella è rappresentata da un elemento unico dell'identificazione messo come impronta digitale. Un elemento minimo da ciascuna delle immagini dell'insieme delle impronte digitali si è associato con un documento sotto ciascuna di una pluralità di permutazioni casuali pseudi dell'insieme di tutte le impronte digitali è selezionato per generare un abbozzo di ogni oggetto di dati. Gli abbozzi caratterizzano la rassomiglianza degli oggetti di dati. Gli abbozzi possono più ulteriormente essere divisi in una pluralità di gruppi. Ogni gruppo fingerprinted per formare una caratteristica. I dati obiettano che la parte più dell'determinati numeri di caratteristiche è valutata per essere quasi identica.

 
Web www.patentalert.com

< (none)

< Method of manufacturing rubber weir main body

> Method and apparatus for performing supplemental searches over a network

> (none)

~ 00027