Speech encoder using voice activity detection in coding noise page

A multi-rate speech codec supports a plurality of encoding bit rate modes by adaptively selecting encoding bit rate modes to match communication channel restrictions. In higher bit rate encoding modes, an accurate representation of speech through CELP (code excited linear prediction) and other associated modeling parameters are generated for higher quality decoding and reproduction. For each bit rate mode selected, pluralities of fixed or innovation subcodebooks are selected for use in generating innovation vectors. The speech coder distinguishes various voice signals as a function of their voice content. For example, a Voice Activity Detection (VAD) algorithm selects an appropriate coding scheme depending on whether the speech signal comprises active or inactive speech. The encoder may consider varying characteristics of the speech signal including sharpness, a delay correlation, a zero-crossing rate, and a residual energy. In another embodiment of the present invention, code excited linear prediction is used for voice active signals whereas random excitation is used for voice inactive signals; the energy level and spectral content of the voice inactive signal may also be used for noise coding.

Un codec de la parole de multi-taux soutient une pluralité de coder des modes de débit binaire en choisissant de manière adaptative des modes de codage de débit binaire pour assortir des restrictions de voie de transmission. En modes de codage plus élevés de débit binaire, une représentation précise de discours par CELP (prévision linéaire passionnante par code) et autre associée modelant des paramètres sont produites pour un décodage et une reproduction plus de haute qualité. Pour chaque mode de débit binaire choisi, des pluralities des subcodebooks fixes ou d'innovation sont choisis pour l'usage en produisant des vecteurs d'innovation. Le codeur de la parole distingue de divers signaux de voix en fonction de leur contenu de voix. Par exemple, un algorithme de la détection d'activité de voix (VAD) choisit un code approprié selon si le son articulé comporte le discours actif ou inactif. L'encodeur peut considérer changer des caractéristiques du son articulé comprenant l'acuité, une corrélation de retarder, un taux de zéro-croisement, et une énergie résiduelle. Dans un autre mode de réalisation de la présente invention, la prévision linéaire passionnante par code est employée pour les signaux actifs de voix tandis que l'excitation aléatoire est employée pour les signaux inactifs de voix ; la force et la teneur spectrale du signal inactif de voix peuvent également être employées pour le codage de bruit.