The present invention relates to a speech synthesis apparatus for
generating an emotionally expressive synthesized voice. The emotionally
expressive synthesized voice can be generated by generating a synthesized
voice with a tone being changed in accordance with an emotional state. A
parameter generator 43 generates transform parameters and synthesis
control parameters on the basis of state information indicating the
emotional state of a pet robot. A data transformer 44 transforms the
frequency characteristics of phonemic unit data as speech information. A
waveform generator 42 obtains necessary phonemic unit data on the basis
of phoneme information included in a text analysis result, processes and
connects the phonemic unit data with one another on the basis of prosody
data and the synthesis control parameters, and generates synthesized
voice data with the corresponding prosody and tone. The present invention
is applicable to robots for outputting synthesized voices.
De onderhavige uitvinding heeft op een apparaat van de toespraaksynthese om een emotioneel expressieve samengestelde stem betrekking te produceren. De emotioneel expressieve samengestelde stem kan worden geproduceerd door een samengestelde stem met een toon die te produceren overeenkomstig een emotionele staat wordt veranderd. Een parametergenerator 43 produceert transformatieparameters en de parameters van de synthesecontrole op basis van staatsinformatie die op de emotionele staat van een huisdierenrobot wijst. Een gegevenstransformator 44 zet de frequentiekenmerken van fonemische eenheidsgegevens als toespraakinformatie om. Een golfvormgenerator 42 verkrijgt noodzakelijke fonemische eenheidsgegevens op basis van foneeminformatie inbegrepen in een resultaat van de tekstanalyse, verwerkt en verbindt elkaar de fonemische eenheidsgegevens met op basis van prosody gegevens en de parameters van de synthesecontrole, en produceert samengestelde stemgegevens met overeenkomstige prosody en de toon. De onderhavige uitvinding is van toepassing op robots voor het outputting van samengestelde stemmen.