A web crawler stores fixed length representations of document addresses in
first and second caches and a disk file. When the web crawler downloads a
document from a host computer, it identifies URL's (document addresses) in
the downloaded document. Each identified URL is converted into a fixed
size numerical representation. The numerical representation is
systematically compared to numerical representations in the caches and
disk file. If the representation is not found in the caches and disk file,
the document corresponding to the representation is scheduled for
downloading, and the representation is stored in the second cache. If the
representation is not found in the caches but is found in the disk file,
the representation is added to the first cache. When the second cache is
full, it is merged with the disk file and the second cache is reset to an
initial state. When the first cache is full, one or more representations
are evicted in accordance with an eviction policy. The representations
include a prefix that is a function of a host component of the
corresponding URL's, and the representations are stored in the disk file
in sorted order. When the web crawler searches for a representation in the
disk file, an index of the disk file is searched to identify a single
block of the disk file, and only that single block of the disk file is
searched for the representation.
Μια αντιολισθητική αλυσίδα Ιστού αποθηκεύει τις σταθερές αντιπροσωπεύσεις μήκους των διευθύνσεων εγγράφων πρώτα και των δεύτερων κρυπτών και ενός αρχείου δίσκων. Όταν η αντιολισθητική αλυσίδα Ιστού μεταφορτώνει ένα έγγραφο από έναν οικοδεσπότη υπολογιστή, προσδιορίζει URL (διευθύνσεις εγγράφων) στο μεταφορτωμένο έγγραφο. Κάθε προσδιορισμένο URL μετατρέπεται σε μια σταθερή αριθμητική αντιπροσώπευση μεγέθους. Η αριθμητική αντιπροσώπευση συγκρίνεται συστηματικά με τις αριθμητικές αντιπροσωπεύσεις στις κρύπτες και το αρχείο δίσκων. Εάν η αντιπροσώπευση δεν βρίσκεται στις κρύπτες και το αρχείο δίσκων, το έγγραφο που αντιστοιχεί στην αντιπροσώπευση σχεδιάζεται για τη μεταφόρτωση, και η αντιπροσώπευση αποθηκεύεται στη δεύτερη κρύπτη. Εάν η αντιπροσώπευση δεν βρίσκεται στις κρύπτες αλλά βρίσκεται στο αρχείο δίσκων, η αντιπροσώπευση προστίθεται στην πρώτη κρύπτη. Όταν η δεύτερη κρύπτη είναι πλήρης, συγχωνεύεται με το αρχείο δίσκων και η δεύτερη κρύπτη επαναρυθμίζεται σε ένα αρχικό κράτος. Όταν η πρώτη κρύπτη είναι πλήρης, μια ή περισσότερες αντιπροσωπεύσεις εκδιώκονται σύμφωνα με μια πολιτική απέλαση. Οι αντιπροσωπεύσεις περιλαμβάνουν ένα πρόθεμα που είναι μια λειτουργία ενός τμήματος οικοδεσποτών της αντιστοιχίας URL, και οι αντιπροσωπεύσεις αποθηκεύονται στο αρχείο δίσκων στην ταξινομημένη διαταγή. Όταν οι αναζητήσεις αντιολισθητικών αλυσίδων Ιστού μιας αντιπροσώπευσης στο αρχείο δίσκων, ένας δείκτης του αρχείου δίσκων αναζητώνται για να προσδιορίσουν έναν ενιαίο φραγμό του αρχείου δίσκων, και μόνο αυτού ο ενιαίος φραγμός του αρχείου δίσκων αναζητάται για την αντιπροσώπευση.