A novel approach for filtering documents involves the use of delivery ratio
threshold setting technique to set an initial profile score threshold and
the use of beta-gamma regulation for dynamic threshold updating. A group
of documents is scored pursuant to a user profile. The score for each
document is indicative of the relevance of the corresponding document to
the user profile. The score can be compared with a profile score threshold
to decide if the document should be accepted or rejected. According to one
aspect of the invention, the initial threshold is set to a score threshold
that approximates an expected ratio of acceptable documents calibrated
with respect to a set of reference documents. According to another aspect
of the invention, the score threshold can be updated based on the
accumulated example documents, user's relevance judgment, and the user's
utility function. The accumulated example documents are first scored
against a profile and a ranked list of scored documents is obtained. Each
position at the ranked list corresponds to a candidate score threshold as
well as a utility value computed based on the relevance status of the
example documents. From these candidate threshold points, an optimal
utility threshold and a zero utility threshold are determined. Using the
optimal utility threshold and the zero utility threshold, a new utility
threshold is calculated by interpolating between estimates of the optimal
utility threshold and the zero utility threshold. This new utility
threshold is used for subsequent information retrieval and filtering.
Une approche de roman pour les documents de filtrage comporte l'utilisation du seuil de rapport de la livraison plaçant la technique pour placer un premier seuil de points de profil et l'utilisation du règlement de bêta-gamma pour la mise à jour dynamique de seuil. Un groupe de documents est marqué conformément à un profil d'utilisateur. Les points pour chaque document sont indicatifs de la pertinence du document correspondant avec le profil d'utilisateur. Les points peuvent être comparés à un seuil de points de profil pour décider si le document est accepté ou rejeté. Selon un aspect de l'invention, le seuil initial est placé à un seuil de points qui rapproche un rapport prévu des documents acceptables calibrés en ce qui concerne un ensemble de documents de référence. Selon un autre aspect de l'invention, le seuil de points peut être mis à jour basé sur les documents accumulés d'exemple, le jugement de la pertinence de l'utilisateur, et la fonction de service de l'utilisateur. Les documents accumulés d'exemple sont d'abord marqués contre un profil et une liste rangée de documents marqués est obtenue. Chaque position à la liste rangée correspond à un seuil de points de candidat comme une valeur de service calculée basée sur le statut de pertinence des documents d'exemple. À partir de ces points de seuil de candidat, un seuil de service optimal et un seuil de service zéro sont déterminés. En utilisant le seuil de service optimal et le seuil de service zéro, un nouveau seuil de service est calculé par l'interpolation entre les évaluations du seuil de service optimal et du seuil de service zéro. Ce nouveau seuil de service est employé pour la recherche documentaire et le filtrage suivants.