Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages page

A method and system for identifying groups of pages of common interest from a collection of hyper-linked pages are disclosed. A plurality of community cores are identified from the collection where each core includes first and second sets of pages, and each page in the first set points to every page in the second set. Each identified core is expanded into a full community which is a subset of the pages regarding a particular topic. The identification community cores is based on the analysis of the Web graph in which the communities correspond to instances of Web subgraphs. Extraneous pages are then pruned to improve the quality of the resulting communities.

Un método y un sistema para identificar grupos de páginas del interés común de una colección de páginas hiperactivo-ligadas se divulgan. Una pluralidad de corazones de la comunidad se identifica de la colección donde cada base incluye primero y fija en segundo lugar de páginas, y de cada página en los primeros puntos de ajuste a cada página en el segundo sistema. Cada base identificada se amplía en una comunidad completa que sea un subconjunto de las páginas con respecto a un asunto particular. Los corazones de la comunidad de la identificación se basan en el análisis del gráfico del Web en el cual las comunidades corresponden a los casos de los subgraphs del Web. Las páginas extrañas entonces se podan para mejorar la calidad de las comunidades que resultan.