Described is a system and method for improving string matching in a noisy
channel environment. The invention provides a method for identifying
string candidates and analyzing the probability that the string candidate
matches a user-defined string. In one implementation, a find engine
receives a query string, converts an image file into a textual file, and
identifies each instance of the query string in the textual file. The find
engine identifies candidates within the textual file that may match the
query string. The find engine refers to a confusion table to help identify
whether candidates that are near matches to the query string are actually
matches to the query string but for a common recognition error. Candidates
meeting a probability threshold are identified as matches to the query
string. The invention further provides for analysis options including word
heuristics, language models, and OCR confidences.
Beschrieben ein System und eine Methode für das Verbessern der Zeichenkette, die in einem lauten Führung Klima zusammenpaßt. Die Erfindung stellt eine Methode für das Kennzeichnen der Zeichenketteanwärter und das Analysieren der Wahrscheinlichkeit zur Verfügung, daß der Zeichenketteanwärter eine verbraucherbestimmte Zeichenkette zusammenbringt. In einer Implementierung empfängt eine Entdeckungmaschine eine Frage Zeichenkette, wandelt eine Bildakte in eine Textakte um und kennzeichnet jeden Fall der Frage Zeichenkette in der Textakte. Die Entdeckungmaschine kennzeichnet Anwärter innerhalb der Textakte, die die Frage Zeichenkette zusammenbringen kann. Die Entdeckungmaschine bezieht sich eine auf Durcheinandertabelle, um zu helfen zu kennzeichnen, ob Anwärter, die nahe Gleiche zur Frage Zeichenkette sind, wirklich Gleiche zur Frage Zeichenkette aber für eine allgemeine Anerkennung Störung sind. Die Anwärter, die eine Wahrscheinlichkeit Schwelle treffen, werden als Gleiche zur Frage Zeichenkette gekennzeichnet. Die weitere Erfindung stellt für Analyse Wahlen einschließlich Wortheuristik, Sprachenmodelle und OCR confidences zur Verfügung.