Disclosed is a five-step process for producing closed captions for a
television program, subtitles for a movie or other uses for time-aligned
transcripts. An operator transcribes the audio track while listening to
the recorded material. The system helps him/her to work efficiently and
produce precisely aligned captions. The first step consists of identifying
the portions of the input audio that contain spoken text. Only the spoken
parts are further processed by the invention system. The other parts may
be used to generate non-spoken captions. The second step controls the rate
of speech depending on how fast the operator types. While the operator
types, the third module records the time the words were typed in. This
provides a rough time alignment for the transcribed text. Then the fourth
module realigns precisely the transcribed text on the audio track. A final
module segments the transcribed text into captions, based on acoustic
clues and natural language constraints. Further, the speech rate-control
component of the system may be used in other systems where transcripts are
required to be generated from spoken audio.
Αποκαλύπτεται μια διαδικασία πέντε-βημάτων για τους κλειστούς τίτλους για ένα τηλεοπτικό πρόγραμμα, τους υποτίτλους για έναν κινηματογράφο ή άλλες χρήσεις για τα χρόνος-ευθυγραμμισμένα αντίγραφα. Ένας χειριστής μεταγράφει την ακουστική διαδρομή ακούοντας το καταγραμμένο υλικό. Το σύστημα την βοηθά τον/για να απασχοληθεί αποτελεσματικά και να παραγάγει στους ακριβώς ευθυγραμμισμένους τίτλους. Το πρώτο βήμα αποτελείται από τον προσδιορισμό των μερίδων του ήχου εισαγωγής που περιέχουν το προφορικό κείμενο. Μόνο τα προφορικά μέρη υποβάλλονται σε επεξεργασία περαιτέρω από το σύστημα εφευρέσεων. Τα άλλα μέρη μπορούν να χρησιμοποιηθούν για να παραγάγουν τους μη-μιλημένους τίτλους. Το δεύτερο βήμα ελέγχει το ποσοστό ομιλίας ανάλογα με πόσο γρήγορα οι τύποι χειριστών. Ενώ οι τύποι χειριστών, η τρίτη ενότητα καταγράφουν το χρόνο οι λέξεις δακτυλογραφήθηκαν. Αυτό παρέχει μια τραχιά χρονική ευθυγράμμιση για το μεταγραφόμενο κείμενο. Κατόπιν η τέταρτη ενότητα ευθυγραμμίζει εκ νέου ακριβώς το μεταγραφόμενο κείμενο στην ακουστική διαδρομή. Μια τελική ενότητα τέμνει το μεταγραφόμενο κείμενο στους τίτλους, βασισμένους στις ακουστικές ενδείξεις και τους περιορισμούς φυσικής γλώσσας. Περαιτέρω, το τμήμα λεκτικού ποσοστό-ελέγχου του συστήματος μπορεί να χρησιμοποιηθεί σε άλλα συστήματα όπου τα αντίγραφα πρέπει για να παραχθούν από τον προφορικό ήχο.