Apparatus, method and system for cross-speaker speech recognition for telecommunication applications

The apparatus, method and system of the present invention provide for cross-speaker speech recognition, and are particularly suited for telecommunication applications such as automatic name (voice) dialing, message management, call return management, and incoming call screening. The method of the present invention includes receiving incoming speech, such as an incoming caller name, and generating a phonetic transcription of the incoming speech with a speaker-independent, hidden Markov model having an unconstrained grammar in which any phoneme may follow any other phoneme, followed by determining a transcription parameter as a likelihood of fit of the incoming speech to the speaker-independent model. The method further selects a first phoneme pattern, from a plurality of phoneme patterns, as having a highest likelihood of fit to the incoming speech, utilizing a speaker-independent, hidden Markov model having a grammar constrained by these phoneme patterns, followed by determining a recognition parameter as a likelihood of fit of the incoming speech to the selected, first phoneme pattern. The method then determines whether the input speech matches or collides with the first phoneme pattern based upon a correspondence of the transcription parameter with the recognition parameter in accordance with a predetermined criterion. In the preferred embodiment, this matching or collision determination is made as a function of a confidence ratio, the ratio of the transcription parameter to the recognition parameter, being within or less than a predetermined threshold value.
Οι συσκευές, η μέθοδος και το σύστημα της παρούσας εφεύρεσης επιτρέπουν τη λεκτική αναγνώριση διαγώνιος-ομιλητών, και είναι ιδιαίτερα ταιριαγμένες για τις εφαρμογές τηλεπικοινωνιών όπως το αυτόματο όνομα (φωνή) σχηματισμός, διαχείριση μηνυμάτων, επιστροφής διαχείριση κλήσης, και εισερχόμενη διαλογή κλήσης. Η μέθοδος της παρούσας εφεύρεσης περιλαμβάνει τη λήψη της εισερχόμενης ομιλίας, όπως ένα εισερχόμενο όνομα επισκεπτών, και την παραγωγή μιας φωνητικής μεταγραφής της εισερχόμενης ομιλίας με ένα ανεξάρτητο από τον ομιλητή, κρυμμένο markov πρότυπο που έχει μια αβίαστη γραμματική στην οποία οποιοδήποτε φώνημα μπορεί να ακολουθήσει οποιοδήποτε άλλοδήποτε φώνημα, που ακολουθείται με τον καθορισμό μιας παραμέτρου μεταγραφής ως πιθανότητα της τακτοποίησης της εισερχόμενης ομιλίας στο ανεξάρτητο από τον ομιλητή πρότυπο. Η μέθοδος επιλέγει περαιτέρω ένα πρώτο σχέδιο φωνήματος, από μια πολλαπλότητα των σχεδίων φωνήματος, όπως έχοντας μια υψηλότερη πιθανότητα της τακτοποίησης στην εισερχόμενη ομιλία, που χρησιμοποιεί ένα ανεξάρτητο από τον ομιλητή, κρυμμένο markov πρότυπο που έχει μια γραμματική περιορισμένη από αυτά τα σχέδια φωνήματος, που ακολουθούνται με τον καθορισμό μιας παραμέτρου αναγνώρισης ως πιθανότητα της τακτοποίησης της εισερχόμενης ομιλίας στο επιλεγμένο, πρώτο σχέδιο φωνήματος. Η μέθοδος έπειτα καθορίζει εάν η ομιλία εισαγωγής ταιριάζει με ή συγκρούεται με το πρώτο σχέδιο φωνήματος που βασίζεται σε μια αλληλογραφία της παραμέτρου μεταγραφής με την παράμετρο αναγνώρισης σύμφωνα με ένα προκαθορισμένο κριτήριο. Στην προτιμημένη ενσωμάτωση, αυτός ο ταίριασμα ή προσδιορισμός σύγκρουσης γίνεται ως λειτουργία μιας αναλογίας εμπιστοσύνης, η αναλογία της παραμέτρου μεταγραφής στην παράμετρο αναγνώρισης, που είναι μέσα ή λιγότερο από μια προκαθορισμένη αξία κατώτατων ορίων.

Web www.patentalert.com

< (none)

< Method for information retrieval in broadcast disk systems

> System for robust location of a mobile-transmitter

> (none)

~ 00041