A method and an apparatus for improved duration modeling of phonemes in a
speech synthesis system are provided. According to one aspect, text is
received into a processor of a speech synthesis system. The received text
is processed using a sum-of-products phoneme duration model that is used
in either the formant method or the concatenative method of speech
generation. The phoneme duration model, which is used along with a phoneme
pitch model, is produced by developing a non-exponential functional
transformation form for use with a generalized additive model. The
non-exponential functional transformation form comprises a root sinusoidal
transformation that is controlled in response to a minimum phoneme
duration and a maximum phoneme duration. The minimum and maximum phoneme
durations are observed in training data. The received text is processed by
specifying at least one of a number of contextual factors for the
generalized additive model. An inverse of the non-exponential functional
transformation is applied to duration observations, or training data.
Coefficients are generated for use with the generalized additive model.
The generalized additive model comprising the coefficients is applied to
at least one phoneme of the received text resulting in the generation of
at least one phoneme having a duration. An acoustic sequence is generated
comprising speech signals that are representative of the received text.
Une méthode et un appareil pour modeler amélioré de durée des phonèmes dans un système de synthèse de la parole sont fournis. Selon un aspect, le texte est reçu dans un processeur d'un système de synthèse de la parole. Le texte reçu est traité en utilisant un modèle de durée de phonème de somme-de-produits qui est employé dans la méthode de formant ou la méthode concatenative de génération de la parole. Le modèle de durée de phonème, qui est employé avec un modèle de lancement de phonème, est produit en développant une forme fonctionnelle non exponentielle de transformation pour l'usage avec un modèle additif généralisé. La forme fonctionnelle non exponentielle de transformation comporte une transformation sinusoïdale de racine qui est commandée en réponse à une durée minimum de phonème et à une durée maximum de phonème. On observe les durées de minimum et de phonème de maximum dans des données de formation. Le texte reçu est traité en indiquant au moins un d'un certain nombre de facteurs contextuels pour le modèle additif généralisé. Un inverse de la transformation fonctionnelle non exponentielle est appliqué aux observations de durée, ou aux données de formation. Des coefficients sont produits pour l'usage avec le modèle additif généralisé. Le modèle additif généralisé comportant les coefficients est appliqué au moins à un phonème du texte reçu ayant pour résultat la génération au moins d'un phonème ayant une durée. Un ordre acoustique est produit comportant les sons articulés qui sont représentant du texte reçu.