A video processing system tracks a moving person or other object of
interest using a combined audio-video tracking system. The audio-video
tracking system comprises an audio locator, a video locator, and a set of
rules for determining the manner in which settings of a camera are
adjusted based on outputs of the audio locator and video locator. The set
of rules may be configured such that only the audio locator output is used
to adjust the camera settings if the audio locator and video locator
outputs are not sufficiently close and a confidence indicator generated by
the audio locator is above a specified threshold. For example, in such a
situation, the audio locator output alone may be used to direct the camera
to a new speaker in a video conference. If the audio locator and video
locator outputs are sufficiently close, the system determines if a
confidence indicator generated by the video locator is above a specified
level, and if so, the video locator output may be used to adjust the
camera settings. For example, the camera may be zoomed in such that the
face of a video conference participant is centered in and occupies a
designated portion of a video frame generated by the camera.
Un système de traitement visuel dépiste une personne mobile ou tout autre objet d'intérêt en utilisant un système de piste combiné d'audio-vidéo. Le système de piste d'audio-vidéo comporte un repère audio, un repère visuel, et un ensemble de règles pour déterminer la façon dont des arrangements d'un appareil-photo sont ajustés a basé sur des sorties du repère audio et de repère de vidéo. L'ensemble de règles peut être configuré tels que seulement le rendement audio de repère est employé pour ajuster les arrangements d'appareil-photo si les sorties audio de repère et de repère de vidéo ne sont pas suffisamment étroites et un indicateur de confiance produit par le repère audio est au-dessus d'un seuil indiqué. Par exemple, dans une telle situation, le repère audio seul produit peut être utilisé pour diriger l'appareil-photo vers un nouveau haut-parleur dans une vidéoconférence. Si les sorties audio de repère et de repère de vidéo sont suffisamment étroites, le système détermine si un indicateur de confiance produit par le repère visuel est au-dessus d'un niveau indiqué, et si oui, le rendement visuel de repère peut être employé pour ajuster les arrangements d'appareil-photo. Par exemple, l'appareil-photo peut être bourdonné dans tels que le visage d'un participant de vidéoconférence est centré dedans et occupe une partie indiquée d'une armature visuelle produite par l'appareil-photo.