A speaker identification system is provided that constructs speaker models using a discriminant analysis technique where the data in each class is modeled by Gaussian mixtures. The speaker identification method and apparatus determines the identity of a speaker, as one of a small group, based on a sentence-length password utterance. A speaker's utterance is received and a sequence of a first set of feature vectors are computed based on the received utterance. The first set of feature vectors are then transformed into a second set of feature vectors using transformations specific to a particular segmentation unit, and likelihood scores of the second set of feature vectors are computed using speaker models trained using mixture discriminant analysis. The likelihood scores are then combined to determine an utterance score and the speaker's identity is validated based on the utterance score. The speaker identification method and apparatus also includes training and enrollment phases. In the enrollment phase the speaker's password utterance is received multiple times. A transcription of the password utterance as a sequence of phones is obtained, and the phone string is stored in a database containing phone strings of other speakers in the group. In the training phase, the first set of feature vectors are extracted from each password utterance and the phone boundaries for each phone in the password transcription are obtained using a speaker independent phone recognizer. A mixture model is developed for each phone of a given speaker's password. Then, using the feature vectors from the password utterances of all of the speakers in the group, transformation parameters and transformed models are generated for each phone and speaker, using mixture discriminant analysis.

Een systeem van de sprekersidentificatie wordt verstrekt dat sprekersmodellen gebruikend een discriminerende analysetechniek construeert waar het gegeven in elke klasse door Gaussian mengsels wordt gemodelleerd. Het de methode en apparaat van de sprekersidentificatie bepalen de identiteit van een spreker, als één van een kleine groep, die op een zin-lengte wachtwoorduiting wordt gebaseerd. De uiting van een spreker wordt ontvangen en een opeenvolging van een eerste reeks eigenschapvectoren wordt gegevens verwerkt gebaseerd op de ontvangen uiting. De eerste reeks eigenschapvectoren wordt dan omgezet in een tweede reeks eigenschapvectoren gebruikend transformaties specifiek voor een bepaalde segmentatieeenheid, en de waarschijnlijkheidsscores van de tweede reeks eigenschapvectoren worden gegevens verwerkt het gebruiken van spreker opgeleid gebruikend mengsel discriminerende analyse modelleert. De waarschijnlijkheidsscores worden dan gecombineerd om een uitingsscore te bepalen en de identiteit van de spreker wordt bevestigd gebaseerd op de uitingsscore. Het de methode en apparaat van de sprekersidentificatie omvatten opleiding en inschrijving ook fasen. In de inschrijvingsfase is de het wachtwoorduiting van de spreker ontvangen veelvoudige tijden. Een transcriptie van de wachtwoorduiting als wordt opeenvolging van telefoons verkregen, en het telefoonkoord wordt in een gegevensbestand opgeslagen dat telefoonkoorden van andere sprekers in de groep bevat. In de opleidingsfase, wordt de eerste reeks eigenschapvectoren gehaald uit elke wachtwoorduiting en de telefoongrenzen voor elke telefoon in de wachtwoordtranscriptie worden verkregen gebruikend een waarnemingssysteem van de sprekers onafhankelijk telefoon. Een mengselmodel wordt ontwikkeld voor elke telefoon van het wachtwoord van een bepaalde spreker. Dan, gebruikend de eigenschapvectoren van de wachtwoorduitingen van de elk van sprekers in de groep, worden de transformatieparameters en de omgezette modellen geproduceerd voor elke telefoon en spreker, gebruikend mengsel discriminerende analyse.

 
Web www.patentalert.com

< (none)

< Memory cache with sequential page indicators

> Mark up language grammar based translation system

> (none)

~ 00022