An improved duplicate detection technique that uses query-relevant
information to limit the portion(s) of documents to be compared for
similarity is described. Before comparing two documents for similarity,
the content of these documents may be condensed based on the query. In one
embodiment, query-relevant information or text (also referred to as
"snippets") is extracted from the documents and only the extracted
snippets, rather than the entire documents, are compared for purposes of
determining similarity.
Une technique double améliorée de détection qui emploie l'information questionner-appropriée pour limiter le portion(s) des documents à comparer pour la similitude est décrite. Avant de comparer deux documents pour la similitude, le contenu de ces documents peut être condensé a basé sur la question. Dans une incorporation, l'information ou le texte questionner-appropriée (également désigné sous le nom des "extraits") est extraite à partir des documents et seulement des extraits extraits, plutôt que des documents entiers, sont comparés aux fins de déterminer la similitude.