The combination of audio and video speech recognition in a manner to
improve the robustness of speech recognition systems in noisy
environments. Contemplated are methods and apparatus in which a video
signal associated with a video source and an audio signal associated with
the video signal are processed, the most likely viseme associated with the
audio signal and video signal is determined and, thereafter, the most
likely phoneme associated with the audio signal and video signal is
determined.
A combinação do recognition de discurso audio e video em uma maneira para melhorar o robustness de sistemas do recognition de discurso em ambientes ruidosos. São contemplados os métodos e o instrumento em que um sinal video associou com uma fonte video e um sinal audio associado com o sinal video é processado, o viseme mais provável associado com o sinal audio e o sinal video são determinados e, depois disso, o fonema mais provável associado com o sinal audio e o sinal video é determinado.