A computer-implemented method for comparing the contents of two sets of
documents includes the step of extracting from a set of documents ?44!
corresponding sets of document extract entries ?46!. The method further
includes a step of generating from the sets of document extract entries
?46! corresponding sets of word clusters ?48!. Each word cluster comprises
a cluster word list having N words, an N.times.N total distance matrix,
and an N.times.N number of connections matrix. The preferred embodiment
includes a step of grouping similar word clusters and combining the
similar word clusters to form a single word cluster for each group. The
grouping comprises evaluating a measure of cluster similarity between two
word clusters, and placing them in a common group of similar word clusters
if the measure of similarity exceeds a predetermined value. The step of
evaluating cluster similarity comprises intersecting clusters to form
subclusters and calculating a function of the subclusters. In the
preferred embodiment, the method is implemented in a system to
automatically identify database documents which are of interest to a given
user or users. In this implementation, the method comprises the step of
automatically deriving the first set of documents from a local data
storage device, such as a user's hard disk. The method also comprises the
step of deriving the second set of documents from a second data storage
device, such as a network machine. This application of the invention,
therefore, provides fast and accurate searching to identify documents of
interest to a particular user or users without any need for the user or
users to specify what search criteria to use.
¡Un método computadora-puesto en ejecucio'n para comparar el contenido de dos sistemas de documentos incluye el paso de extraer de un sistema de los documentos?44! los sistemas correspondientes del documento extraen las entradas?46!. ¡El método más futuro incluye un paso de la generación de los sistemas de las entradas?46 del extracto del documento! corresponder sistemas de la palabra arracima?48!. Cada racimo de la palabra abarca una lista de la palabra del racimo que tiene palabras de N, una matriz total de la distancia de N.times.N, y un número de N.times.N de la matriz de las conexiones. La encarnación preferida incluye un paso de agrupar racimos similares de la palabra y de combinar los racimos similares de la palabra para formar un racimo de la sola palabra para cada grupo. El agrupar abarca la evaluación de una medida de semejanza del racimo entre dos racimos de la palabra, y la colocación de ellos en un grupo común de la palabra similar arracima si la medida de semejanza excede un valor predeterminado. El paso de la semejanza de evaluación del racimo abarca racimos que se intersecan para formar subclusters y calcular una función de los subclusters. En la encarnación preferida, el método se pone en ejecucio'n en un sistema para identificar automáticamente los documentos de la base de datos que están de interés a un usuario o a usuarios dados. En esta puesta en práctica, el método abarca el paso automáticamente de derivar el primer sistema de documentos de un dispositivo de almacenaje local de datos, tal como disco duro de un usuario. El método también abarca el paso de derivar el segundo sistema de documentos de un segundo dispositivo de almacenaje de datos, tal como una máquina de la red. Este uso de la invención, por lo tanto, proporciona rápido y el buscar exacto para identificar documentos del interés a un usuario o a usuarios particulares sin cualesquiera necesita para que el usuario o los usuarios especifique qué criterios de la búsqueda a utilizar.