Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis page

A method and apparatus for extracting speech features from a speech signal in which the linear frequency spectrum data, as generated, for example, by a conventional frequency transform, is first converted to logarithmic frequency spectrum data having frequency data distributed on a substantially logarithmic (rather than linear) frequency scale. Then, a plurality of digital auditory filters is applied to the resultant logarithmic frequency spectrum data, each of these filters having a substantially similar shape, but centered at different points on the logarithmic frequency scale. Because each of the filters have a similar shape, the feature extraction approach of the present invention advantageously can be easily modified or tuned by adjusting each of the filters in a coordinated manner, with the adjustment of only a handful of filter parameters.

Um método e um instrumento para extrair características do discurso de um sinal de discurso em que os dados lineares do spectrum da freqüência, como gerados, para o exemplo, por uma freqüência convencional transformam, são convertidos primeiramente aos dados logarítmicos do spectrum da freqüência que têm os dados da freqüência distribuídos em uma escala da freqüência substancialmente logarítmica (melhor que linear). Então, um plurality de filtros auditory digitais é aplicado aos dados logarítmicos resultantes do spectrum da freqüência, cada um destes filtros que têm uma forma substancialmente similar, mas centrado em pontos diferentes na escala logarítmica da freqüência. Porque cada um dos filtros tem uma forma similar, a aproximação da extração da característica da invenção atual vantajosamente pode fàcilmente ser modificada ou ajustado ajustando cada um dos filtros em uma maneira coordenada, com o ajuste somente de um punhado de parâmetros do filtro.