A method and system that operates as a background process automatically
identify and merge duplicate files into a single instance files, wherein
the duplicate files become independent links to the single instance files.
A groveler maintains a database of information about the files on a
volume, including a file size and checksum (signature) based on the file
contents. The groveler periodically acts in the background to scan the USN
log, a log that dynamically records file system activity. New or modified
files detected in the USN log are queued as work items, each work item
representing a file. The volume may be scanned to add work items to the
queue, which takes place initially or when there is a potential problem
with the USN log. The groveler periodically removes items from the queue,
calculates the signature of the corresponding file contents, and uses the
signature and file size to query the database for matching files. The
groveler then compares any matching files with the file corresponding to
the work item for an exact duplicate, and if found, calls a single
instance store facility to merge the files and create independent links to
those files.
Un método y un sistema que funciona mientras que un proceso de fondo identifica y combina automáticamente archivos duplicados en un solo caso archiva, en donde los archivos duplicados se convierten en acoplamientos independientes a los solos archivos del caso. Un groveler mantiene una base de datos de la información sobre los archivos en un volumen, incluyendo un tamaño del archivo y una suma de comprobación (firma) basados en el contenido del archivo. El groveler actúa periódicamente en el fondo para explorar el registro de USN, un registro que dinámicamente actividad del sistema de ficheros de expedientes. Los archivos nuevos o modificados detectados en el registro de USN se hacen cola como artículos del trabajo, cada artículo del trabajo que representa un archivo. El volumen se puede explorar para agregar artículos del trabajo a la coleta, que ocurre inicialmente o cuando hay un problema potencial con el registro de USN. El groveler quita artículos de la coleta, calcula la firma del contenido correspondiente del archivo, y utiliza periódicamente el tamaño de la firma y del archivo para preguntar la base de datos para los archivos que emparejan. El groveler entonces compara cualquier archivo que empareja con el archivo que corresponde al artículo del trabajo para un duplicado exacto, y si está encontrado, las llamadas una sola facilidad del almacén del caso para combinar los archivos y para crear acoplamientos independientes a esos archivos.