A known method for selecting words (or word sequences), which is an
important aspect of information retrieval, involves the problems of
inability to eliminate high-frequency common words and of often arbitrary
setting of the threshold value for dividing important and unimportant
words. These problems are solved by normalizing the difference between the
word distribution in a subset of all documents containing a word to be
extracted (or a subset of said document set) and the word distribution in
the set of all documents with the number of words in the said subset of
all documents containing the word as a parameter, and the accuracy of
support information retrieval is thereby enhanced.
Μια γνωστή μέθοδος για τις λέξεις (ή ακολουθίες λέξης), που είναι μια σημαντική πτυχή της ανάκτησης πληροφοριών, περιλαμβάνει τα προβλήματα της ανικανότητας να αποβληθούν οι υψηλής συχνότητας κοινές λέξεις και του συχνά αυθαίρετου καθορισμού της αξίας κατώτατων ορίων για τη διαίρεση των σημαντικών και ασήμαντων λέξεων. Αυτά τα προβλήματα λύνονται με την ομαλοποίηση της διαφοράς μεταξύ της διανομής λέξης σε ένα υποσύνολο όλων των εγγράφων που περιέχουν μια λέξη που εξάγεται (ή ένα υποσύνολο του εν λόγω εγγράφου καθορισμένου) και της διανομής λέξης στο σύνολο όλων των εγγράφων με τον αριθμό λέξεων στο εν λόγω υποσύνολο όλων των εγγράφων που περιέχουν τη λέξη ως παράμετρο, και η ακρίβεια της ανάκτησης πληροφοριών υποστήριξης με αυτόν τον τρόπο ενισχύεται.