Document extraction and comparison method with applications to automatic personalized database searching

A computer-implemented method for comparing the contents of two sets of documents includes the step of extracting from a set of documents ?44! corresponding sets of document extract entries ?46!. The method further includes a step of generating from the sets of document extract entries ?46! corresponding sets of word clusters ?48!. Each word cluster comprises a cluster word list having N words, an N.times.N total distance matrix, and an N.times.N number of connections matrix. The preferred embodiment includes a step of grouping similar word clusters and combining the similar word clusters to form a single word cluster for each group. The grouping comprises evaluating a measure of cluster similarity between two word clusters, and placing them in a common group of similar word clusters if the measure of similarity exceeds a predetermined value. The step of evaluating cluster similarity comprises intersecting clusters to form subclusters and calculating a function of the subclusters. In the preferred embodiment, the method is implemented in a system to automatically identify database documents which are of interest to a given user or users. In this implementation, the method comprises the step of automatically deriving the first set of documents from a local data storage device, such as a user's hard disk. The method also comprises the step of deriving the second set of documents from a second data storage device, such as a network machine. This application of the invention, therefore, provides fast and accurate searching to identify documents of interest to a particular user or users without any need for the user or users to specify what search criteria to use.
¡Un método computadora-puesto en ejecucio'n para comparar el contenido de dos sistemas de documentos incluye el paso de extraer de un sistema de los documentos?44! los sistemas correspondientes del documento extraen las entradas?46!. ¡El método más futuro incluye un paso de la generación de los sistemas de las entradas?46 del extracto del documento! corresponder sistemas de la palabra arracima?48!. Cada racimo de la palabra abarca una lista de la palabra del racimo que tiene palabras de N, una matriz total de la distancia de N.times.N, y un número de N.times.N de la matriz de las conexiones. La encarnación preferida incluye un paso de agrupar racimos similares de la palabra y de combinar los racimos similares de la palabra para formar un racimo de la sola palabra para cada grupo. El agrupar abarca la evaluación de una medida de semejanza del racimo entre dos racimos de la palabra, y la colocación de ellos en un grupo común de la palabra similar arracima si la medida de semejanza excede un valor predeterminado. El paso de la semejanza de evaluación del racimo abarca racimos que se intersecan para formar subclusters y calcular una función de los subclusters. En la encarnación preferida, el método se pone en ejecucio'n en un sistema para identificar automáticamente los documentos de la base de datos que están de interés a un usuario o a usuarios dados. En esta puesta en práctica, el método abarca el paso automáticamente de derivar el primer sistema de documentos de un dispositivo de almacenaje local de datos, tal como disco duro de un usuario. El método también abarca el paso de derivar el segundo sistema de documentos de un segundo dispositivo de almacenaje de datos, tal como una máquina de la red. Este uso de la invención, por lo tanto, proporciona rápido y el buscar exacto para identificar documentos del interés a un usuario o a usuarios particulares sin cualesquiera necesita para que el usuario o los usuarios especifique qué criterios de la búsqueda a utilizar.

Web www.patentalert.com

< (none)

< Database Synchronizer

> Universal schema system

> (none)

~ 00000