Word importance calculation method, document retrieving interface, word dictionary making method page

A known method for selecting words (or word sequences), which is an important aspect of information retrieval, involves the problems of inability to eliminate high-frequency common words and of often arbitrary setting of the threshold value for dividing important and unimportant words. These problems are solved by normalizing the difference between the word distribution in a subset of all documents containing a word to be extracted (or a subset of said document set) and the word distribution in the set of all documents with the number of words in the said subset of all documents containing the word as a parameter, and the accuracy of support information retrieval is thereby enhanced.

Μια γνωστή μέθοδος για τις λέξεις (ή ακολουθίες λέξης), που είναι μια σημαντική πτυχή της ανάκτησης πληροφοριών, περιλαμβάνει τα προβλήματα της ανικανότητας να αποβληθούν οι υψηλής συχνότητας κοινές λέξεις και του συχνά αυθαίρετου καθορισμού της αξίας κατώτατων ορίων για τη διαίρεση των σημαντικών και ασήμαντων λέξεων. Αυτά τα προβλήματα λύνονται με την ομαλοποίηση της διαφοράς μεταξύ της διανομής λέξης σε ένα υποσύνολο όλων των εγγράφων που περιέχουν μια λέξη που εξάγεται (ή ένα υποσύνολο του εν λόγω εγγράφου καθορισμένου) και της διανομής λέξης στο σύνολο όλων των εγγράφων με τον αριθμό λέξεων στο εν λόγω υποσύνολο όλων των εγγράφων που περιέχουν τη λέξη ως παράμετρο, και η ακρίβεια της ανάκτησης πληροφοριών υποστήριξης με αυτόν τον τρόπο ενισχύεται.