A weighting system for calculating the term-document importance for each
term within each document that is part of a collection of documents (i.e.,
a corpus). The weighting system calculates the importance of a term within
a document based on a computed normalized term frequency and a computed
inverse document frequency. The computed normalized term frequency is a
function, referred to as the "computed term frequency function" ("A"), of
a normalized term frequency. The normalized term frequency is the term
frequency, which is the number of times that the term occurs in the
document, normalized by the total term frequency of the term within all
documents, which is the total number of times that the term occurs in all
the documents. The weighting system normalizes the term frequency by
dividing the term frequency by a function, referred to as the "normalizing
term frequency function" (".GAMMA."), of the total term frequency. The
computed inverse document frequency is a function, referred to as the
"computed inverse document frequency function" ("B") of the inverse
document frequency. The weighting system identifies a computed normalized
term frequency function A and a computed inverse document frequency
function B so that on average the computed normalized term frequency and
the computed inverse document frequency contribute equally to the weight
of the terms.
Um sistema tornando mais pesado para calcular a importância do termo-original para cada termo dentro de cada original que é parte de uma coleção dos originais (isto é, um corpus). O sistema tornando mais pesado calcula a importância de um termo dentro de um original baseado em uma freqüência normalizada computada do termo e em uma freqüência inversa computada do original. A freqüência normalizada computada do termo é uma função, consultada como "à função computada da freqüência do termo" ("A"), de uma freqüência normalizada do termo. A freqüência normalizada do termo é a freqüência do termo, que é o número das épocas que o termo ocorre no original, normalizado pela freqüência total do termo do termo dentro de todos os originais, que é o número total das épocas que o termo ocorre em todos os originais. O sistema tornando mais pesado normaliza a freqüência do termo dividindo a freqüência do termo por uma função, consultada como a "normalizar a função da freqüência do termo" ("GAMMA."), da freqüência total do termo. A freqüência inversa computada do original é uma função, consultada a como "computou a função inversa da freqüência do original" ("B") da freqüência inversa do original. O sistema tornando mais pesado identifica uma função normalizada computada A da freqüência do termo e uma função inversa computada B da freqüência do original de modo que na média a freqüência normalizada computada do termo e a freqüência inversa computada do original contribuam ingualmente ao peso dos termos.