A language input architecture converts input strings of phonetic text
(e.g., Chinese Pinyin) to an output string of language text (e.g.,
Chinese Hanzi) in a manner that minimizes typographical errors and
conversion errors that occur during conversion from the phonetic text to
the language text. The language input architecture has a search engine,
one or more typing models, a language model, and one or more lexicons for
different languages. Each typing model is trained on real data, and
learns probabilities of typing errors. The typing model is configured to
generate a list of probable typing candidates that may be substituted for
the input string based on probabilities of how likely each of the
candidate strings was incorrectly entered as the input string. The
probable typing candidates may be stored in a database. The language
model provides probable conversion strings for each of the typing
candidates based on probabilities of how likely a probable conversion
output string represents the candidate string. The search engine combines
the probabilities of the typing and language models to find the most
probable conversion string that represents a converted form of the input
string. By generating typing candidates and then using the associated
conversion strings to replace the input string, the architecture
eliminates many common typographical errors. When multiple typing models
are employed, the architecture can automatically distinguish among
multiple languages without requiring mode switching for entry of the
different languages.
Eine Sprache gab Architekturbekehrt-Eingang Zeichenketten des Lauttextes (z.B., chinesisches Pinyin) zu einer Ausgang Zeichenkette des Sprachentextes (z.B., chinesisches Hanzi) in gewissem Sinne ein, der typographische Fehler und Umwandlung Störungen herabsetzt, die während der Umwandlung vom Lauttext zum Sprachentext auftreten. Die Spracheneingang Architektur hat ein Search Engine, eins oder mehr schreibenmodelle, ein Sprachenmodell und ein oder mehr Lexika für unterschiedliche Sprachen. Jedes schreibenmodell wird auf realen Daten ausgebildet und Wahrscheinlichkeiten von Tippfehlern erlernt. Das schreibenmodell wird zusammengebaut, um eine Liste der wahrscheinlichen schreibenanwärter zu erzeugen, die für die Eingang Zeichenkette ersetzt werden können, die auf Wahrscheinlichkeiten basiert von, wie wahrscheinlich jede der Bewerberzeichenketten falsch als die Eingang Zeichenkette betreten wurde. Die wahrscheinlichen schreibenanwärter können in einer Datenbank gespeichert werden. Das Sprachenmodell stellt wahrscheinliche Umwandlung Zeichenketten für jeden der schreibenanwärter zur Verfügung, die auf Wahrscheinlichkeiten basieren von, wie wahrscheinlich eine wahrscheinliche Umwandlung Ausgang Zeichenkette die Bewerberzeichenkette darstellt. Das Search Engine kombiniert die Wahrscheinlichkeiten der Schreiben- und Sprachen,modelle, zum der wahrscheinlichsten Umwandlung Zeichenkette zu finden, die eine umgewandelte Form der Eingang Zeichenkette darstellt. Indem sie schreibenanwärter erzeugt und dann die verbundenen Umwandlung Zeichenketten verwendet, um die Eingang Zeichenkette zu ersetzen, beseitigt die Architektur viele allgemeine typographische Fehler. Wenn mehrfache schreibenmodelle eingesetzt werden, kann die Architektur unter mehrfachen Sprachen automatisch unterscheiden, ohne Modusschaltung für Eintragung der unterschiedlichen Sprachen zu erfordern.