A human speech detection method detects pure-speech signals in an audio
signal containing a mixture of pure-speech and non-speech or mixed-speech
signals. The method accurately detects the pure-speech signals by
computing a novel Valley Percentage feature from the audio signal and then
classifying the audio signals into pure-speech and non-speech (or
mixed-speech) classifications. The Valley Percentage is a measurement of
the low energy parts of the audio signal (the valley) in comparison to the
high energy parts of the audio signal (the mountain). To classify the
audio signal, the method performs a threshold decision on the value of the
Valley Percentage. Using a binary mask, a high Valley Percentage is
classified as pure-speech and a low Valley Percentage is classified as
non-speech (or mixed-speech). The method further employs morphological
filters to improve the accuracy of human speech detection. Before
detection, a morphological closing filter may be employed to eliminate
unwanted noise from the audio signal. After detection, a combination of
morphological closing and opening filters may be employed to remove
aberrant pure-speech and non-speech classifications from the binary mask
resulting from impulsive audio signals in order to more accurately detect
the boundaries between the pure-speech and non-speech portions of the
audio signal. A number of parameters may be employed by the method to
further improve the accuracy of human speech detection. For implementation
in supervised digital audio signal applications, these parameters may be
optimized by training the application a priori. For implementation in an
unsupervised environment, adaptive determination of these parameters is
also possible.
Un metodo di rilevazione umano di discorso rileva i segnali di puro-discorso in un segnale audio che contiene una miscela dei segnali di puro-discorso e di non-discorso o di mescol-discorso. Il metodo rileva esattamente i segnali di puro-discorso computando una caratteristica di percentuale della valle del romanzo dal segnale audio ed allora classificando i segnali dell'audio nelle classificazioni di puro-discorso e di non-discorso (o mescol-discorso). La percentuale della valle è una misura delle parti basse di energia del segnale audio (la valle) rispetto alle parti di alta energia del segnale audio (la montagna). Per classificare il segnale audio, il metodo realizza una decisione della soglia sul valore della percentuale della valle. Usando una mascherina binaria, un'alta percentuale della valle è classificata mentre il puro-discorso e una percentuale bassa della valle è classificato come non-discorso (o mescol-discorso). Il metodo ulteriore impiega i filtri morfologici per migliorare l'esattezza di rilevazione umana di discorso. Prima di rilevazione, un filtro di chiusura morfologico può essere impiegato per eliminare il rumore indesiderabile dal segnale audio. Dopo rilevazione, una combinazione dei filtri di chiusura e d'apertura morfologici può essere impiegata per rimuovere le classificazioni aberrant di non-discorso e di puro-discorso dalla mascherina binaria derivando dai segnali audio impulsivi per rilevare esattamente i contorni fra il puro-discorso e le parti di non-discorso del segnale audio. Un certo numero di parametri possono essere impiegati con il metodo più ulteriormente per migliorare l'esattezza di rilevazione umana di discorso. Per l'esecuzione nelle applicazioni audio digitali sorvegliate del segnale, questi parametri possono essere ottimizzati addestrando l'applicazione a priori. Per l'esecuzione in unsupervised l'ambiente, determinazione adattabile di questi parametri è inoltre possibile.