A technique for optimizing the number of terms in a profile used for
information extraction. This optimization is performed by estimating the
number of terms which will substantively affect the information extraction
process. That is, the technique estimates the point in a term weight curve
where that curve becomes flat. A term generally is important and remains
part of the profile as long as its weight and the weight of the next term
may be differentiated. When terms' weights are not differentiable, then
they are not significant and may be cut off. Reducing the number of terms
used in a profile increases the efficiency and effectiveness of the
information retrieval process.
Una técnica para optimizar el número de términos en un perfil usado para la extracción de la información. Esta optimización es realizada estimando el número de los términos que afectarán substantivamente el proceso de la extracción de la información. Es decir, la técnica estima el punto en una curva del peso del término donde esa curva llega a ser plana. Un término es importante y sigue siendo generalmente parte del perfil mientras su peso y el peso del término siguiente pueden ser distinguidos. Cuando los pesos de los términos no son diferenciables, después no son significativos y pueden ser cortados. La reducción del número de los términos usados en un perfil aumenta la eficacia y la eficacia del proceso de la recuperación de datos.