A modular system and method is provided for low bit rate encoding and
decoding of speech signals using voicing probability determination. The
continuous input speech is divided into time segments of a predetermined
length. For each segment the encoder of the system computes a model signal
and subtracts the model signal from the original signal in the segment to
obtain a residual excitation signal. Using the excitation signal the
system computes the signal pitch and a parameter which is related to the
relative content of voiced and unvoiced portions in the spectrum of the
excitation signal, which is expressed as a ratio Pv, defined as a voicing
probability. The voiced and the unvoiced portions of the excitation
spectrum, as determined by the parameter Pv, are encoded using one or more
parameters related to the energy of the excitation signal in a
predetermined set of frequency bands. In the decoder, speech is
synthesized from the transmitted parameters representing the model speech,
the signal pitch, voicing probability and excitation levels in a reverse
order. Boundary conditions between voiced and unvoiced segments are
established to ensure amplitude and phase continuity for improved output
speech quality. Perceptually smooth transition between frames is ensured
by using an overlap and add method of synthesis. LPC interpolation and
post-filtering is used to obtain output speech with improved perceptual
quality.
Un sistema modulare e un metodo è fornito per la codifica di tasso di punta e la decodificazione basse dei segnali di discorso usando la determinazione d'espressione di probabilità. Il discorso continuo dell'input è diviso nei segmenti di tempo di una lunghezza predeterminata. Per ogni segmento il codificatore del sistema computa un segnale di modello e sottrae il segnale di modello dal segnale originale nel segmento ottenere un segnale residuo di eccitazione. Usando l'eccitazione segnali i calcoli del sistema il passo del segnale e un parametro quale è collegato con il contenuto relativo dell'espresso di ed unvoiced le parti nello spettro del segnale di eccitazione, che è espresso come rapporto Pv, definito come probabilità d'espressione. Espressa ed unvoiced le parti dello spettro di eccitazione, come determinato dal parametro Pv, sono messi usando uno o più parametri relativi all'energia del segnale di eccitazione in un insieme predeterminato delle fasce di frequenza. Nel decodificatore, il discorso è sintetizzato dai parametri trasmessi che rappresentano il discorso di modello, il passo del segnale, la probabilità d'espressione ed i livelli di eccitazione in un ordine d'inversione. I termini di contorno fra espresso ed unvoiced i segmenti sono stabiliti per accertare la continuità di fase e di ampiezza per qualità migliorata di discorso dell'uscita. La transizione regolare di Perceptually fra le strutture è accertata usando una sovrapposizione ed aggiunge il metodo della sintesi. L'interpolazione di LPC ed alberino-filtrare è usata per ottenere il discorso dell'uscita con qualità percettiva migliorata.