Methods and apparatus for speaker specific durational adaptation page

A text to speech system modeling durational characteristics of a target speaker is addressed herein. A body of target speaker training text is selected having maximum possible information about speaker specific characteristics. The body of target speaker training text is read by a target speaker to produce a target speaker training corpus. A previously generated source model reflecting characteristics of a source model is retrieved and the target speaker training corpus is processed to produce modification parameters reflecting differences between durational characteristics of the target speaker and those predicted by the source model. The modification parameters are applied to the source model to produce a target model. Text inputs are processed using the target model to produce speech outputs reflecting durational characteristics of the target speaker.

Um texto ao sistema do discurso que modela características do durational de um altofalante do alvo é dirigido nisto. Um corpo do texto do treinamento do altofalante do alvo é selecionado tendo a informação possível máxima sobre características do específico do altofalante. O corpo do texto do treinamento do altofalante do alvo é lido por um altofalante do alvo para produzir um corpus do treinamento do altofalante do alvo. As características refletindo modelo previamente geradas de uma fonte de um modelo da fonte são recuperadas e o corpus do treinamento do altofalante do alvo é processado para produzir os parâmetros de modificação que refletem diferenças entre características do durational do altofalante do alvo e aqueles preditos pela fonte modelam. Os parâmetros de modificação são aplicados ao modelo da fonte para produzir um modelo do alvo. As entradas de texto são processadas usando o modelo do alvo produzir as saídas do discurso que refletem características do durational do altofalante do alvo.