A method of producing synthetic visual speech according to this invention
includes receiving an input containing speech information. One or more
visemes that correspond to the speech input are then identified. Next, the
weights of those visemes are calculated using a coarticulation engine
including viseme deformability information. Finally, a synthetic visual
speech output is produced based on the visemes' weights over time (or
tracks). The synthetic visual speech output is combined with a
synchronized audio output corresponding to the input to produce a
multimedia output containing a 3D lipsyncing animation.
Een methode om synthetische visuele toespraak volgens deze uitvinding te veroorzaken omvat het ontvangen van een input die toespraakinformatie bevat. Één of meerdere visemes die aan de toespraakinput beantwoorden worden dan geïdentificeerd. Daarna, worden de gewichten die visemes berekend gebruikend een coarticulationmotor met inbegrip van viseme vervormbaarheidsinformatie. Tot slot wordt een synthetische visuele toespraakoutput veroorzaakt gebaseerd op de gewichten van visemes over tijd (of sporen). De synthetische visuele toespraakoutput wordt gecombineerd met een gesynchroniseerde audiooutput die aan de input beantwoordt een output te veroorzaken die van verschillende media een 3D lipsyncing animatie bevat.