A method is described for identifying related pages among a plurality of
pages in a linked database such as the World Wide Web. An initial page is
selected from the plurality of pages. Pages linked to the initial page are
represented as a graph in a memory. The pages represented in the graph are
scored on content, and a set of pages is selected, the selected set of
pages having scores greater than a first predetermined threshold. The
selected set of pages is scored on connectivity, and a subset of the set
of pages that have scores greater than a second predetermined threshold
are selected as related pages.
Une méthode est décrite pour identifier les pages relatives parmi une pluralité de pages dans une base de données liée telle que le Web mondial. Une première page est choisie parmi la pluralité de pages. Des pages liées à la page initiale sont représentées comme graphique dans une mémoire. Les pages représentées dans le graphique sont marquées sur le contenu, et un ensemble de pages est choisi, l'ensemble choisi de pages ayant des points plus grands qu'un premier seuil prédéterminé. L'ensemble choisi de pages est marqué sur la connectivité, et un sous-ensemble de l'ensemble de pages qui ont des points plus grands qu'un deuxième a prédéterminé le seuil sont choisis en tant que pages relatives.