A method and system for selecting formant trajectories based on input
speech and corresponding text data. The input speech is analyzed to obtain
formant candidates for the respective time frame. The text data
corresponding to the input speech is converted into a sequence of phonemes
which are then time aligned such that each phoneme is temporally labeled
with a corresponding segment of the input speech. Nominal formant
frequencies are assigned to a center timing point of each phoneme and
target formant trajectories are generated for each time frame by
interpolating the nominal formant frequencies between adjacent phonemes.
For each time frame, at least one formant candidate that is closest to the
corresponding target formant trajectories is selected according to a
minimum cost factor. The selected formant candidates are output for
storage or further processing in subsequent speech applications.
Um método e um sistema para selecionar o trajectories do formant baseado dados no texto do discurso e corresponder da entrada. O discurso da entrada é analisado para obter candidatos do formant para o frame de tempo respectivo. Os dados do texto que correspondem ao discurso da entrada são convertidos em uma seqüência dos fonemas que são então tempo alinharam tais que cada fonema está etiquetado temporally com um segmento correspondente do discurso da entrada. As freqüências nominais do formant são atribuídas a um ponto center do sincronismo de cada fonema e o trajectories do formant do alvo é gerado para cada vez molda interpolating as freqüências nominais do formant entre fonemas adjacentes. Para cada vez que o frame, ao menos um candidato do formant que é o mais próximo ao trajectories correspondente do formant do alvo é selecionado de acordo com um fator de custo mínimo. Os candidatos selecionados do formant output para o armazenamento ou processar mais adicional em aplicações subseqüentes do discurso.