A method and apparatus of converting input text into an audio-visual speech
stream resulting in a talking face image enunciating the text. This method
of converting input text into an audio-visual speech stream comprises the
steps of: recording a visual corpus of a human-subject, building a viseme
interpolation database, and synchronizing the talking face image with the
text stream. In a preferred embodiment, viseme transitions are
automatically calculated using optical flow methods, and morphing
techniques are employed to result in smooth viseme transitions. The viseme
transitions are concatenated together and synchronized with the phonemes
according to the timing information. The audio-visual speech stream is
then displayed in real time, thereby displaying a photo-realistic talking
face.
Um método e um instrumento do texto de entrada convertendo-se em um discurso audio-visual fluem tendo por resultado uma imagem falando da cara que enunciating o texto. Este método de converter o texto de entrada em um córrego audio-visual do discurso compreende as etapas de: gravando um corpus visual de um humano-assunto, construindo uma base de dados do interpolation do viseme, e sincronizar a imagem falando da cara com o córrego do texto. Em uma incorporação preferida, as transições do viseme são calculadas automaticamente usando métodos óticos do fluxo, e as técnicas morphing são empregadas para resultar em transições lisas do viseme. As transições do viseme são concatenadas junto e sincronizadas com os fonemas de acordo com a informação do sincronismo. O córrego audio-visual do discurso é indicado então no tempo real, indicando desse modo uma cara falando foto-realística.