A method and system for the processing and maintenance of electronic
information retrieved from electronic documents stored on a computer
network. The gatherer program of the present invention employs a crawler
to crawl a portion of the computer network to retrieve electronic
documents found during the crawl and that meet a set of crawl restriction
rules. Some or all of the data contained in the copies of electronic
documents is then stored in a data store such as an index. The invention
keeps the data in the data store current by accepting notifications of
when a previously retrieved document has changed. The notifications are
sent by a notification source that monitors a space containing the
previously retrieved documents for changes occurring after the document
was last retrieved by the gatherer program. Because the document is being
monitored for changes by the notification source, the gatherer program
only needs to retrieve the document again when the gatherer program has
been notified that the document has changed. If the notification source
experiences a discontinuity, such as a system shutdown, the notification
source requests that the gatherer perform an initialization crawl to
retrieve any documents that changed while the notification source was not
operational.
Un método y un sistema para el proceso y el mantenimiento de la información electrónica recuperados de los documentos electrónicos almacenados en una red de ordenadores. El programa del gatherer de la actual invención emplea una correa eslabonada para arrastrarse una porción de la red de ordenadores para recuperar los documentos electrónicos encontrados durante el arrastre y esa reunión que un sistema de la restricción del arrastre gobierna. Algunos o todos los datos contenidos en las copias de documentos electrónicos entonces se almacenan en un almacén de los datos tal como un índice. La invención mantiene los datos la corriente del almacén de los datos aceptando notificaciones de cuando un documento previamente recuperado ha cambiado. Las notificaciones son enviadas por una fuente de la notificación que supervise un espacio que contiene los documentos previamente recuperados para los cambios que ocurren después de que el documento fuera recuperado por último por el programa del gatherer. Porque el documento está siendo supervisado para los cambios por la fuente de la notificación, el programa del gatherer necesita solamente recuperar el documento otra vez cuando se ha notificado el programa del gatherer que el documento ha cambiado. Si la fuente de la notificación experimenta una discontinuidad, tal como una parada normal del sistema, la fuente de la notificación solicita que el gatherer realice un arrastre de la inicialización para recuperar cualquier documento que cambiara mientras que la fuente de la notificación no era operacional.