A network repository service supplements the functions of a web server to
enable an increase in the efficiency of web crawling. The repository
service: (a) automatically maintains a file modification list that
contains the names of files on the server that have been modified (i.e.,
added, deleted, or otherwise modified), together with the date and time of
the file modification; and (b) provides a requesting crawler with the file
modification list (or a portion of the list corresponding to a time period
specified by the crawler). The repository service may also (c) limit or
restrict access privileges of crawlers that do not request the file
modification list prior to crawling, thereby protecting the server from
overcrawling. The repository service enables a crawler to request the file
modification list, and avoid unnecessarily recrawling files that have not
been modified since its last visit, thereby preventing considerable waste
of time, network bandwidth, server processing resources, and crawler
processing resources. Using the file modification list, the crawler can
remove all prior references to deleted files, and efficiently recrawl only
those files that have been added or changed since the crawler last visited
the web server.
De dienst van de netwerkbewaarplaats vult de functies van een Webserver aan om een verhoging van de efficiency toe te laten van Web het kruipen. De bewaarplaatsdienst: (a) handhaaft automatisch een lijst van de dossierwijziging die de namen van dossiers op de server die bevat (d.w.z., toegevoegd, geschrapt, of anders gewijzigd) zijn gewijzigd, samen met de datum en de tijd van de dossierwijziging; en (b) voorziet een het vragen kruippakje van de lijst van de dossierwijziging (of een gedeelte van de lijst die aan een tijdspanne beantwoordt die door het kruippakje wordt gespecificeerd). De bewaarplaatsdienst kan ook (c) grens of om toegangsvoorrechten van kruippakjes te beperken die niet om de lijst van de dossierwijziging voorafgaand aan het kruipen verzoeken, daardoor beschermend de server tegen het overcrawling. De bewaarplaatsdienst laat een kruippakje toe om om de lijst van de dossierwijziging te verzoeken, en te vermijden recrawling onnodig dossiers die niet sinds zijn laatste bezoek zijn gewijzigd, daardoor verhinderend aanzienlijk afval van tijd, netwerkbandbreedte, de middelen van de serververwerking, en de middelen van de kruippakjeverwerking. Gebruikend de lijst van de dossierwijziging, kan het kruippakje alle vroegere verwijzingen naar geschrapte dossiers verwijderen, en efficiƫnt recrawl slechts die dossiers die zijn toegevoegd of sinds het jongstleden kruippakje veranderd bezochten de Webserver.