A method and system for identifying groups of pages of common interest from
a collection of hyper-linked pages are disclosed. A plurality of community
cores are identified from the collection where each core includes first
and second sets of pages, and each page in the first set points to every
page in the second set. Each identified core is expanded into a full
community which is a subset of the pages regarding a particular topic. The
identification community cores is based on the analysis of the Web graph
in which the communities correspond to instances of Web subgraphs.
Extraneous pages are then pruned to improve the quality of the resulting
communities.
Un método y un sistema para identificar grupos de páginas del interés común de una colección de páginas hiperactivo-ligadas se divulgan. Una pluralidad de corazones de la comunidad se identifica de la colección donde cada base incluye primero y fija en segundo lugar de páginas, y de cada página en los primeros puntos de ajuste a cada página en el segundo sistema. Cada base identificada se amplía en una comunidad completa que sea un subconjunto de las páginas con respecto a un asunto particular. Los corazones de la comunidad de la identificación se basan en el análisis del gráfico del Web en el cual las comunidades corresponden a los casos de los subgraphs del Web. Las páginas extrañas entonces se podan para mejorar la calidad de las comunidades que resultan.