Method and apparatus for improved duration modeling of phonemes

A method and an apparatus for improved duration modeling of phonemes in a speech synthesis system are provided. According to one aspect, text is received into a processor of a speech synthesis system. The received text is processed using a sum-of-products phoneme duration model that is used in either the formant method or the concatenative method of speech generation. The phoneme duration model, which is used along with a phoneme pitch model, is produced by developing a non-exponential functional transformation form for use with a generalized additive model. The non-exponential functional transformation form comprises a root sinusoidal transformation that is controlled in response to a minimum phoneme duration and a maximum phoneme duration. The minimum and maximum phoneme durations are observed in training data. The received text is processed by specifying at least one of a number of contextual factors for the generalized additive model. An inverse of the non-exponential functional transformation is applied to duration observations, or training data. Coefficients are generated for use with the generalized additive model. The generalized additive model comprising the coefficients is applied to at least one phoneme of the received text resulting in the generation of at least one phoneme having a duration. An acoustic sequence is generated comprising speech signals that are representative of the received text.
Une méthode et un appareil pour modeler amélioré de durée des phonèmes dans un système de synthèse de la parole sont fournis. Selon un aspect, le texte est reçu dans un processeur d'un système de synthèse de la parole. Le texte reçu est traité en utilisant un modèle de durée de phonème de somme-de-produits qui est employé dans la méthode de formant ou la méthode concatenative de génération de la parole. Le modèle de durée de phonème, qui est employé avec un modèle de lancement de phonème, est produit en développant une forme fonctionnelle non exponentielle de transformation pour l'usage avec un modèle additif généralisé. La forme fonctionnelle non exponentielle de transformation comporte une transformation sinusoïdale de racine qui est commandée en réponse à une durée minimum de phonème et à une durée maximum de phonème. On observe les durées de minimum et de phonème de maximum dans des données de formation. Le texte reçu est traité en indiquant au moins un d'un certain nombre de facteurs contextuels pour le modèle additif généralisé. Un inverse de la transformation fonctionnelle non exponentielle est appliqué aux observations de durée, ou aux données de formation. Des coefficients sont produits pour l'usage avec le modèle additif généralisé. Le modèle additif généralisé comportant les coefficients est appliqué au moins à un phonème du texte reçu ayant pour résultat la génération au moins d'un phonème ayant une durée. Un ordre acoustique est produit comportant les sons articulés qui sont représentant du texte reçu.

Web www.patentalert.com

< Method of increasing the motility of a GI tract

< Flexible manufacturing system

> Underpants structure provided with means to augment perineal muscles

> Online database that includes indices representative of a tissue population

~ 00067