The apparatus, method and system of the present invention provide for
cross-speaker speech recognition, and are particularly suited for
telecommunication applications such as automatic name (voice) dialing,
message management, call return management, and incoming call screening.
The method of the present invention includes receiving incoming speech,
such as an incoming caller name, and generating a phonetic transcription
of the incoming speech with a speaker-independent, hidden Markov model
having an unconstrained grammar in which any phoneme may follow any other
phoneme, followed by determining a transcription parameter as a likelihood
of fit of the incoming speech to the speaker-independent model. The method
further selects a first phoneme pattern, from a plurality of phoneme
patterns, as having a highest likelihood of fit to the incoming speech,
utilizing a speaker-independent, hidden Markov model having a grammar
constrained by these phoneme patterns, followed by determining a
recognition parameter as a likelihood of fit of the incoming speech to the
selected, first phoneme pattern. The method then determines whether the
input speech matches or collides with the first phoneme pattern based upon
a correspondence of the transcription parameter with the recognition
parameter in accordance with a predetermined criterion. In the preferred
embodiment, this matching or collision determination is made as a function
of a confidence ratio, the ratio of the transcription parameter to the
recognition parameter, being within or less than a predetermined threshold
value.
Οι συσκευές, η μέθοδος και το σύστημα της παρούσας εφεύρεσης επιτρέπουν τη λεκτική αναγνώριση διαγώνιος-ομιλητών, και είναι ιδιαίτερα ταιριαγμένες για τις εφαρμογές τηλεπικοινωνιών όπως το αυτόματο όνομα (φωνή) σχηματισμός, διαχείριση μηνυμάτων, επιστροφής διαχείριση κλήσης, και εισερχόμενη διαλογή κλήσης. Η μέθοδος της παρούσας εφεύρεσης περιλαμβάνει τη λήψη της εισερχόμενης ομιλίας, όπως ένα εισερχόμενο όνομα επισκεπτών, και την παραγωγή μιας φωνητικής μεταγραφής της εισερχόμενης ομιλίας με ένα ανεξάρτητο από τον ομιλητή, κρυμμένο markov πρότυπο που έχει μια αβίαστη γραμματική στην οποία οποιοδήποτε φώνημα μπορεί να ακολουθήσει οποιοδήποτε άλλοδήποτε φώνημα, που ακολουθείται με τον καθορισμό μιας παραμέτρου μεταγραφής ως πιθανότητα της τακτοποίησης της εισερχόμενης ομιλίας στο ανεξάρτητο από τον ομιλητή πρότυπο. Η μέθοδος επιλέγει περαιτέρω ένα πρώτο σχέδιο φωνήματος, από μια πολλαπλότητα των σχεδίων φωνήματος, όπως έχοντας μια υψηλότερη πιθανότητα της τακτοποίησης στην εισερχόμενη ομιλία, που χρησιμοποιεί ένα ανεξάρτητο από τον ομιλητή, κρυμμένο markov πρότυπο που έχει μια γραμματική περιορισμένη από αυτά τα σχέδια φωνήματος, που ακολουθούνται με τον καθορισμό μιας παραμέτρου αναγνώρισης ως πιθανότητα της τακτοποίησης της εισερχόμενης ομιλίας στο επιλεγμένο, πρώτο σχέδιο φωνήματος. Η μέθοδος έπειτα καθορίζει εάν η ομιλία εισαγωγής ταιριάζει με ή συγκρούεται με το πρώτο σχέδιο φωνήματος που βασίζεται σε μια αλληλογραφία της παραμέτρου μεταγραφής με την παράμετρο αναγνώρισης σύμφωνα με ένα προκαθορισμένο κριτήριο. Στην προτιμημένη ενσωμάτωση, αυτός ο ταίριασμα ή προσδιορισμός σύγκρουσης γίνεται ως λειτουργία μιας αναλογίας εμπιστοσύνης, η αναλογία της παραμέτρου μεταγραφής στην παράμετρο αναγνώρισης, που είναι μέσα ή λιγότερο από μια προκαθορισμένη αξία κατώτατων ορίων.