XML: finding authoritative pages for mining communities based on page structure criteria

   
   

A method of determining well-formed web pages which are authorities on a given topic utilizing link analysis. A root set of pages is first obtained by taking a given number of the highest ranked pages returned form a textual based searching and ranking system. Each page within the set is evaluated and given a structure score which reflects how well-formed the page is. The structure score is determined by evaluating each page within the set according to a set of parameters which relate to well-formed pages. For each parameter, the page is assigned a parameter score. These parameter scores are then weighted and summed to obtain the pages structure score. Each page within the set also has corresponding hub and authority weights which are updated and maintained to determine the strongest authorities. The initial hub and authority weights of a each page are set to the corresponding structure score of the page. An iterative algorithm is then utilized to determine the strongest authorities. For each round of the algorithm, the authority weights of a page are updated by summing the hub weights of each page pointing to the page, while the hub weights of a page are updated by summing the authority weights of each page which is pointed to by the page whose hub weight is being determined. After a series of iterations, the pages having the highest authority weights are identified as the strongest authorities, with the best structure, on the query topic.

Une méthode de déterminer les pages Web bien formées qui sont des autorités sur une matière donnée utilisant l'analyse de lien. Un ensemble de racine de pages est d'abord obtenu en prenant à un nombre indiqué de la forme retournée par pages rangée la plus élevée un système basé textuel de recherche et de rang. Chaque page dans l'ensemble est évaluée et donnée des points de structure qui reflètent comment bien formé la page est. Les points de structure sont déterminés en évaluant chaque page dans l'ensemble selon un ensemble de paramètres qui se relient aux pages bien formées. Pour chaque paramètre, la page est assignée des points de paramètre. Ces points de paramètre sont alors pesés et additionné pour obtenir les pages structurez les points. Chaque page dans l'ensemble a également les poids correspondants de moyeu et d'autorité qui sont mis à jour et maintenus pour déterminer les autorités les plus fortes. Les poids initiaux de moyeu et d'autorité d'une chaque page sont placés aux points correspondants de structure de la page. Un algorithme itératif est alors utilisé pour déterminer les autorités les plus fortes. Pour chaque rond de l'algorithme, les poids d'autorité d'une page sont mis à jour en additionnant les poids de moyeu de chaque page se dirigeant à la page, alors que les poids de moyeu d'une page sont mis à jour en additionnant les poids d'autorité de chaque page qui est dirigée à par la page dont le poids de moyeu est déterminé. Après une série d'itérations, les pages ayant les poids de la plus Haute Autorité sont identifiées comme autorités les plus fortes, avec la meilleure structure, sur la matière de question.

 
Web www.patentalert.com

< Complex multivariate analysis system and method

< Integrated control system to control addressable remote devices

> System and method for determining and communicating progress toward achieving optimal motor vehicle characteristics

> Method, computer program product, and system for the generation of transaction screen displays from a hierarchical database management log utilizing a batch terminal simulator

~ 00125