A method and apparatus is provided for extracting key terms from a data
set, the method includes identifying a first set of one or more word
groups of one or more word that occur more than once in the data set, and
removing from this first set a second set of word groups that are
sub-strings of longer word groups in the first set. The remaining word
groups are key terms. Each word group is weighted according to its
frequency of occurrence within the data set. The weighting of any word
group may be increased by the frequency of any sub-string of words
occurring in the second set and then dividing each weighting by the number
of words in the word group. This weighting process operates to determine
the order of occurrence of the word groups. Prefixes and suffixes are also
removed from each word in the data set. This produces a neutral form of
each word so that the weighting values are prefix and suffix independent.
Une méthode et un appareil est donnée pour extraire les limites principales à partir d'un Modem, la méthode inclut identifier un premier ensemble d'un ou plusieurs groupes de mot d'un ou plusieurs mot qui se produisent plus d'une fois dans le Modem, et enlever de cet premier ensemble un deuxième ensemble de groupes de mot qui sont des sous-chaînes de plus longs groupes de mot dans le premier ensemble. Les groupes restants de mot sont les limites principales. Chaque groupe de mot est pesé selon sa fréquence d'occurrence dans le Modem. Peser de n'importe quel groupe de mot peut être augmenté par la fréquence de n'importe quelle sous-chaîne des mots se produisant dans le deuxième ensemble et puis divisant chacun qui pèse par le nombre de mots dans le groupe de mot. Ce processus pesant fonctionne pour déterminer l'ordre de l'occurrence des groupes de mot. Des préfixes et les suffixes sont également enlevés de chaque mot dans le Modem. Ceci produit une forme neutre de chaque mot de sorte que les valeurs pesantes soient indépendant de préfixe et de suffixe.