The present invention is a system and method for characterizing human (or
animate) speech voiced excitation functions and acoustic signals, for
removing unwanted acoustic noise which often occurs when a speaker uses a
microphone in common environments, and for synthesizing personalized or
modified human (or other animate) speech upon command from a controller. A
low power EM sensor is used to detect the motions of windpipe tissues in
the glottal region of the human speech system before, during, and after
voiced speech is produced by a user. From these tissue motion
measurements, a voiced excitation function can be derived. Further, the
excitation function provides speech production information to enhance
noise removal from human speech and it enables accurate transfer functions
of speech to be obtained. Previously stored excitation and transfer
functions can be used for synthesizing personalized or modified human
speech. Configurations of EM sensor and acoustic microphone systems are
described to enhance noise cancellation and to enable multiple articulator
measurements.
Die anwesende Erfindung ist ein System und eine Methode für das Kennzeichnen der menschliche (oder beleben Sie), Rede geäußerten Erregungfunktionen und der akustischen Signale, für entfernende unerwünschte akustische Geräusche, die häufig, wenn ein Lautsprecher ein Mikrophon in den allgemeinen Klimas benutzt, und für personifizierte oder geänderte menschliches (oder anderes lebendiges) Rede Synthetisierens nach Befehl von einem Steuerpult auftritt. Ein niedriger Energie EM Sensor wird benutzt, um die Bewegungen der windpipe Gewebe in der glottal Region des menschlichen Redesystems vor zu ermitteln, während, und nach geäußerter Rede wird von einem Benutzer produziert. Von diesen Gewebebewegung Maßen kann eine geäußerte Erregungfunktion abgeleitet werden. Weiter liefert die Erregungfunktion Redeproduktion Informationen, um Geräuschabbau von der menschlichen Rede zu erhöhen und sie ermöglicht genauen Übergangsfunktionen der Rede erhalten zu werden. Vorher gespeicherte Erregung- und Übergangsfunktionen können für personifizierte oder geänderte menschliche Rede Synthetisierens verwendet werden. Konfigurationen des EM Sensors und akustische Mikrophonsysteme werden, um Geräuschannullierung zu erhöhen beschrieben und mehrfachen Artikulatormaßen zu ermöglichen.