A distributed collection of web-crawlers to gather information over a large
portion of the cyberspace. These crawlers share the overall crawling
through a cyberspace partition scheme. They also collaborate with each
other through load balancing to maximally utilize the computing resources
of each of the crawlers. The invention takes advantage of the hierarchical
nature of the cyberspace namespace and uses the syntactic components of
the URL structure as the main vehicle for dividing and assigning crawling
workload to individual crawler. The partition scheme is completely
distributed in which each crawler makes the partitioning decision based on
its own crawling status and a globally replicated partition tree data
structure.
Una collezione distribuita di fotoricettore-cingoli per riunire le informazioni sopra una grande parte del Cyberspace. Questi cingoli ripartiscono strisciare generale con uno schema del divisorio del Cyberspace. Inoltre collaborano con a vicenda attraverso il carico che equilibra al massimo per utilizzare le risorse di computazione di ciascuno dei cingoli. L'invenzione approfitta della natura gerarchica del namespace del Cyberspace ed usa i componenti sintattici della struttura del URL come il veicolo principale per la divisione e l'assegnazione della quota di lavoro strisciante al cingolo specifico. Lo schema del divisorio completamente รจ distribuito in quale ogni cingolo rende alla decisione dividente basata sulla relativa propria condizione strisciante e su una struttura di dati globalmente ripiegata dell'albero del divisorio.