The invention performs speech recognition using an array of mixtures of
Bayesian networks. A mixture of Bayesian networks (MBN) consists of plural
hypothesis-specific Bayesian networks (HSBNs) having possibly hidden and
observed variables. A common external hidden variable is associated with
the MBN, but is not included in any of the HSBNs. The number of HSBNs in
the MBN corresponds to the number of states of the common external hidden
variable, and each HSBN models the world under the hypothesis that the
common external hidden variable is in a corresponding one of those states.
In accordance with the invention, the MBNs encode the probabilities of
observing the sets of acoustic observations given the utterance of a
respective one of said parts of speech. Each of the HSBNs encodes the
probabilities of observing the sets of acoustic observations given the
utterance of a respective one of the parts of speech and given a hidden
common variable being in a particular state. Each HSBN has nodes
corresponding to the elements of the acoustic observations. These nodes
store probability parameters corresponding to the probabilities with
causal links representing dependencies between ones of said nodes.
A invenção executa o recognition de discurso usando uma disposição das misturas de redes bayesian. Uma mistura das redes bayesian (MBN) consiste nas redes bayesian hipótese-específicas plurais (HSBNs) que escondem possivelmente e em variáveis observadas. Uma variável escondida externa comum é associada com o MBN, mas não incluída em algum do HSBNs. O número de HSBNs no MBN corresponde ao número dos estados da variável escondida externa comum, e aos modelos de cada HSBN o mundo sob a hipótese que a variável escondida externa comum é em uma correspondente daqueles estados. De acordo com a invenção, o MBNs codifica as probabilidades de observar os jogos das observações acústicas dadas o utterance de um respectivo de partes ditas do discurso. Cada um do HSBNs codifica as probabilidades de observar os jogos das observações acústicas dadas o utterance de um respectivo das partes do discurso e dadas estar variável comum escondido em um estado particular. Cada HSBN tem nós corresponder aos elementos das observações acústicas. Estes nós armazenam os parâmetros da probabilidade que correspondem às probabilidades com as ligações causal que representam dependências entre um de nós ditos.