A technique for adaptation of a speech recognizing system across multiple
remote communication sessions with a speaker. The speaker can be a
telephone caller. An acoustic model is utilized for recognizing the
speaker's speech. Upon initiation of a first remote session with the
speaker, the acoustic model is speaker-independent. During the first
session, the speaker is uniquely identified and speech samples are
obtained from the speaker. In the preferred embodiment, the samples are
obtained without requiring the speaker to engage in a training session.
The acoustic model is then modified based upon the samples thereby forming
a modified model. The model can be modified during the session or after
the session is terminated. Upon termination of the session, the modified
model is then stored in association with an identification of the speaker.
During a subsequent remote session, the speaker is identified and, then,
the modified acoustic model is utilized to recognize the speaker's speech.
Additional speech samples are obtained during the subsequent session and,
then, utilized to further modify the acoustic model. In this manner, an
acoustic model utilized for recognizing the speech of a particular speaker
is cumulatively modified according to speech samples obtained during
multiple sessions with the speaker. As a result, the accuracy of the
speech recognizing system improves for the speaker even when the speaker
only engages in relatively short remote sessions.
Uma técnica para a adaptação de um discurso que reconhece o sistema através das sessões remotas múltiplas de uma comunicação com um altofalante. O altofalante pode ser um chamador do telefone. Um modelo acústico é utilizado reconhecendo o discurso do altofalante. Em cima da iniciação de uma primeira sessão remota com o altofalante, o modelo acústico é altofalante-independente. Durante a primeira sessão, o altofalante é identificado excepcionalmente e as amostras de discurso são obtidas do altofalante. Na incorporação preferida, as amostras são obtidas sem reque o altofalante acoplar em uma sessão do treinamento. O modelo acústico é modificado então baseado nas amostras que dão forma desse modo a um modelo modificado. O modelo pode ser modificado durante a sessão ou depois que a sessão está terminada. Em cima da terminação da sessão, o modelo modificado é armazenado então na associação com uma identificação do altofalante. Durante uma sessão remota subseqüente, o altofalante é identificado e, então, o modelo acústico modificado é utilizado para reconhecer o discurso do altofalante. As amostras de discurso adicionais são obtidas durante a sessão subseqüente e, a seguir, utilizadas para modificar mais mais o modelo acústico. Nesta maneira, um modelo acústico utilizado reconhecendo o discurso de um altofalante particular é modificado cumulativa de acordo com as amostras de discurso obtidas durante sessões múltiplas com o altofalante. Em conseqüência, a exatidão do discurso que reconhece o sistema melhora para o altofalante mesmo quando o altofalante acopla somente em sessões remotas relativamente curtas.