Voice converter for assimilation by frame synthesis with temporal alignment page

A voice converting apparatus is constructed for converting an input voice into an output voice according to a target voice. In the apparatus, a storage section provisionally stores source data, which is associated to and extracted from the target voice. An analyzing section analyzes the input voice to extract therefrom a series of input data frames representing the input voice. A producing section produces a series of target data frames representing the target voice based on the source data, while aligning the target data frames with the input data frames to secure synchronization between the target data frames and the input data frames. A synthesizing section synthesizes the output voice according to the target data frames and the input data frames.

Μια φωνή που μετατρέπει τις συσκευές κατασκευάζεται για τη μετατροπή μιας φωνής εισαγωγής σε μια φωνή παραγωγής σύμφωνα με μια φωνή στόχων. Στις συσκευές, ένα τμήμα αποθήκευσης αποθηκεύει προσωρινά το στοιχείο πηγής, το οποίο συνδέεται και εξάγεται από τη φωνή στόχων. Ένα αναλύοντας τμήμα αναλύει τη φωνή εισαγωγής για να εξαγάγει απ' αυτό μια σειρά πλαισίων δεδομένων εισόδου που αντιπροσωπεύουν τη φωνή εισαγωγής. Ένα παράγοντας τμήμα παράγει μια σειρά πλαισίων στοιχείων στόχων που αντιπροσωπεύουν τη φωνή στόχων βασισμένη στα στοιχεία πηγής, ευθυγραμμίζοντας τα πλαίσια στοιχείων στόχων με τα πλαίσια δεδομένων εισόδου για να εξασφαλίσει το συγχρονισμό μεταξύ των πλαισίων στοιχείων στόχων και των πλαισίων δεδομένων εισόδου. Ένα τμήμα σύνθεσης συνθέτει τη φωνή παραγωγής σύμφωνα με τα πλαίσια στοιχείων στόχων και τα πλαίσια δεδομένων εισόδου.