Described is a system and method for improving string matching in a noisy channel environment. The invention provides a method for identifying string candidates and analyzing the probability that the string candidate matches a user-defined string. In one implementation, a find engine receives a query string, converts an image file into a textual file, and identifies each instance of the query string in the textual file. The find engine identifies candidates within the textual file that may match the query string. The find engine refers to a confusion table to help identify whether candidates that are near matches to the query string are actually matches to the query string but for a common recognition error. Candidates meeting a probability threshold are identified as matches to the query string. The invention further provides for analysis options including word heuristics, language models, and OCR confidences.

Beschrieben ein System und eine Methode für das Verbessern der Zeichenkette, die in einem lauten Führung Klima zusammenpaßt. Die Erfindung stellt eine Methode für das Kennzeichnen der Zeichenketteanwärter und das Analysieren der Wahrscheinlichkeit zur Verfügung, daß der Zeichenketteanwärter eine verbraucherbestimmte Zeichenkette zusammenbringt. In einer Implementierung empfängt eine Entdeckungmaschine eine Frage Zeichenkette, wandelt eine Bildakte in eine Textakte um und kennzeichnet jeden Fall der Frage Zeichenkette in der Textakte. Die Entdeckungmaschine kennzeichnet Anwärter innerhalb der Textakte, die die Frage Zeichenkette zusammenbringen kann. Die Entdeckungmaschine bezieht sich eine auf Durcheinandertabelle, um zu helfen zu kennzeichnen, ob Anwärter, die nahe Gleiche zur Frage Zeichenkette sind, wirklich Gleiche zur Frage Zeichenkette aber für eine allgemeine Anerkennung Störung sind. Die Anwärter, die eine Wahrscheinlichkeit Schwelle treffen, werden als Gleiche zur Frage Zeichenkette gekennzeichnet. Die weitere Erfindung stellt für Analyse Wahlen einschließlich Wortheuristik, Sprachenmodelle und OCR confidences zur Verfügung.

 
Web www.patentalert.com

< System and method for the automatic recognition of relevant terms by mining link annotations

< Trainable adaptive focused replicator network for analyzing data

> Music search engine

> Automated DNA array image segmentation and analysis

~ 00099