A system and method for synthesizing a facial image, compares a speech
frame from an incoming speech signal with acoustic features stored within
visually similar entries in an audio-visual codebook to produce a set of
weights. The audio-visual codebook also stores visual features
corresponding to the acoustic features. A composite visual feature is
generated as a weighted sum of the corresponding visual features, from
which the facial image is synthesized. The audio-visual codebook may
include multiple samples of the acoustic and visual features for each
entry, which corresponds to a sequence of one or more phonemes.
Um sistema e um método para synthesizing uma imagem facial, comparam um frame do discurso de um sinal de discurso entrante com as características acústicas armazenadas dentro das entradas visualmente similares em um codebook audio-visual para produzir um jogo dos pesos. O codebook audio-visual armazena também as características visuais que correspondem às características acústicas. Uma característica visual composta é gerada como uma soma tornada mais pesada das características visuais correspondentes, de que a imagem facial synthesized. O codebook audio-visual pode incluir amostras múltiplas das características acústicas e visuais para cada entrada, que corresponde a uma seqüência de um ou mais fonema.