Information management and retrieval

A method and apparatus is provided for extracting key terms from a data set, the method includes identifying a first set of one or more word groups of one or more word that occur more than once in the data set, and removing from this first set a second set of word groups that are sub-strings of longer word groups in the first set. The remaining word groups are key terms. Each word group is weighted according to its frequency of occurrence within the data set. The weighting of any word group may be increased by the frequency of any sub-string of words occurring in the second set and then dividing each weighting by the number of words in the word group. This weighting process operates to determine the order of occurrence of the word groups. Prefixes and suffixes are also removed from each word in the data set. This produces a neutral form of each word so that the weighting values are prefix and suffix independent.
Une méthode et un appareil est donnée pour extraire les limites principales à partir d'un Modem, la méthode inclut identifier un premier ensemble d'un ou plusieurs groupes de mot d'un ou plusieurs mot qui se produisent plus d'une fois dans le Modem, et enlever de cet premier ensemble un deuxième ensemble de groupes de mot qui sont des sous-chaînes de plus longs groupes de mot dans le premier ensemble. Les groupes restants de mot sont les limites principales. Chaque groupe de mot est pesé selon sa fréquence d'occurrence dans le Modem. Peser de n'importe quel groupe de mot peut être augmenté par la fréquence de n'importe quelle sous-chaîne des mots se produisant dans le deuxième ensemble et puis divisant chacun qui pèse par le nombre de mots dans le groupe de mot. Ce processus pesant fonctionne pour déterminer l'ordre de l'occurrence des groupes de mot. Des préfixes et les suffixes sont également enlevés de chaque mot dans le Modem. Ceci produit une forme neutre de chaque mot de sorte que les valeurs pesantes soient indépendant de préfixe et de suffixe.

Web www.patentalert.com

< (none)

< Process for producing partial glyceride

> Real-time query optimization in a decision support system

> (none)

~ 00024