A text to speech system modeling durational characteristics of a target
speaker is addressed herein. A body of target speaker training text is
selected having maximum possible information about speaker specific
characteristics. The body of target speaker training text is read by a
target speaker to produce a target speaker training corpus. A previously
generated source model reflecting characteristics of a source model is
retrieved and the target speaker training corpus is processed to produce
modification parameters reflecting differences between durational
characteristics of the target speaker and those predicted by the source
model. The modification parameters are applied to the source model to
produce a target model. Text inputs are processed using the target model
to produce speech outputs reflecting durational characteristics of the
target speaker.
Um texto ao sistema do discurso que modela características do durational de um altofalante do alvo é dirigido nisto. Um corpo do texto do treinamento do altofalante do alvo é selecionado tendo a informação possível máxima sobre características do específico do altofalante. O corpo do texto do treinamento do altofalante do alvo é lido por um altofalante do alvo para produzir um corpus do treinamento do altofalante do alvo. As características refletindo modelo previamente geradas de uma fonte de um modelo da fonte são recuperadas e o corpus do treinamento do altofalante do alvo é processado para produzir os parâmetros de modificação que refletem diferenças entre características do durational do altofalante do alvo e aqueles preditos pela fonte modelam. Os parâmetros de modificação são aplicados ao modelo da fonte para produzir um modelo do alvo. As entradas de texto são processadas usando o modelo do alvo produzir as saídas do discurso que refletem características do durational do altofalante do alvo.