The present invention is embodied in a system and method for training a
statistical model, such as a Bayesian network, to effectively capture
probabilistic dependencies between the true state of an object being
tracked and evidence from various tracking modalities to achieve robust
digital vision tracking. The model can be trained and structured offline
using data collected from sensors, that may be either vision or
non-vision-based, in conjunction with position estimates from the sensing
modalities. Both the individual reports about targets provided by visual
processing modalities and inferences about the context-sensitive
accuracies of the reports are considered. Dependencies among variables
considered in the model can be restructured with Bayesian learning methods
that revise the dependencies considered in the model. In use, the learned
models for fusing multiple modalities of visual processing provide
real-time position estimates by making inferences from reports from the
modalities and by inferences about the context-specific reliabilities of
one or more modalities.
La actual invención se incorpora a un sistema y a un método para entrenar a un modelo estadístico, tal como una red bayesian, para capturar con eficacia dependencias probabilistic entre el estado verdadero de un objeto que es seguido y la evidencia de varias modalidades que siguen de alcanzar seguir digital robusto de la visión. El modelo puede ser entrenado y estructurado fuera de línea usar los datos recogidos de los sensores, de que puede ser visión o no-visio'n-basado, conjuntamente con estimaciones de la posición de las modalidades de detección. Ambos los informes individuales sobre blancos proporcionaron por modalidades de proceso de la representación visual y las inferencias sobre las exactitudes sensibles al contexto de los informes se consideran. Las dependencias entre las variables consideradas en el modelo se pueden reestructurar con los métodos que aprenden bayesian que revisan las dependencias consideradas en el modelo. En uso, los modelos doctos para fundir modalidades múltiples del proceso visual proporcionan estimaciones en tiempo real de la posición haciendo inferencias de informes de las modalidades y por inferencias sobre las confiabilidades contexto-especi'ficas de unas o más modalidades.