Client/server architecture for text-to-speech synthesis page

A client/server text-to-speech synthesis system and method divides the method optimally between client and server. The server stores large databases for pronunciation analysis, prosody generation, and acoustic unit selection corresponding to a normalized text, while the client performs computationally intensive decompression and concatenation of selected acoustic units to generate speech. The units are transmitted from the client to the server in a highly compressed format, with a compression method selected based on the predetermined set of potential acoustic units. This compression method allows for very high-quality and natural-sounding speech to be output at the client machine.

Un sistema e un metodo a comunicazione vocale client/server di sintesi divide ottimamente il metodo fra il cliente e l'assistente. L'assistente memorizza le grandi basi di dati per analisi di pronuncia, la generazione prosody e la selezione di unità acustica che corrisponde ad un testo normalizzato, mentre il cliente effettua informaticamente la decompressione e la concatenazione intense delle unità acustiche selezionate per generare il discorso. Le unità sono trasmesse dal cliente all'assistente in una disposizione altamente appiattita, con un metodo di compressione selezionato basato sull'insieme predeterminato delle unità acustiche potenziali. Questo metodo di compressione tiene conto di altissima qualità ed il naturale-sondaggio del discorso da produrre alla macchina del cliente.