A network repository service supplements the functions of a web server to enable an increase in the efficiency of web crawling. The repository service: (a) automatically maintains a file modification list that contains the names of files on the server that have been modified (i.e., added, deleted, or otherwise modified), together with the date and time of the file modification; and (b) provides a requesting crawler with the file modification list (or a portion of the list corresponding to a time period specified by the crawler). The repository service may also (c) limit or restrict access privileges of crawlers that do not request the file modification list prior to crawling, thereby protecting the server from overcrawling. The repository service enables a crawler to request the file modification list, and avoid unnecessarily recrawling files that have not been modified since its last visit, thereby preventing considerable waste of time, network bandwidth, server processing resources, and crawler processing resources. Using the file modification list, the crawler can remove all prior references to deleted files, and efficiently recrawl only those files that have been added or changed since the crawler last visited the web server.

De dienst van de netwerkbewaarplaats vult de functies van een Webserver aan om een verhoging van de efficiency toe te laten van Web het kruipen. De bewaarplaatsdienst: (a) handhaaft automatisch een lijst van de dossierwijziging die de namen van dossiers op de server die bevat (d.w.z., toegevoegd, geschrapt, of anders gewijzigd) zijn gewijzigd, samen met de datum en de tijd van de dossierwijziging; en (b) voorziet een het vragen kruippakje van de lijst van de dossierwijziging (of een gedeelte van de lijst die aan een tijdspanne beantwoordt die door het kruippakje wordt gespecificeerd). De bewaarplaatsdienst kan ook (c) grens of om toegangsvoorrechten van kruippakjes te beperken die niet om de lijst van de dossierwijziging voorafgaand aan het kruipen verzoeken, daardoor beschermend de server tegen het overcrawling. De bewaarplaatsdienst laat een kruippakje toe om om de lijst van de dossierwijziging te verzoeken, en te vermijden recrawling onnodig dossiers die niet sinds zijn laatste bezoek zijn gewijzigd, daardoor verhinderend aanzienlijk afval van tijd, netwerkbandbreedte, de middelen van de serververwerking, en de middelen van de kruippakjeverwerking. Gebruikend de lijst van de dossierwijziging, kan het kruippakje alle vroegere verwijzingen naar geschrapte dossiers verwijderen, en efficiƫnt recrawl slechts die dossiers die zijn toegevoegd of sinds het jongstleden kruippakje veranderd bezochten de Webserver.

 
Web www.patentalert.com

< (none)

< Method and apparatus for position and attitude control of a satellite

> Network repository service directory for efficient web crawling

> (none)

~ 00037