A method of standardizing address data in a database using a word
dictionary and a pattern dictionary. The method includes the steps of a)
breaking up a set of address data into lines; b) breaking up each line
into words; c) looking up each word in the word dictionary for identifying
the field type of the word; d) forming a line pattern from the field type
of the words in the line; e) looking up the line pattern in the pattern
dictionary; and f) returning a line pattern to each of the lines in the
address data. With each word in each line in a set of address data having
a field type assigned thereto, the address components can be easily
identified by a machine reading the address data. With the standardized
address data, for example, a machine can identify which component of an
address is the street name, and which component of a name line is the
title of the addressee.
Une méthode de normaliser des données d'adresse dans une base de données en utilisant un dictionnaire de mot et un dictionnaire de modèle. La méthode inclut les étapes a) se cassant vers le haut d'un ensemble de données d'adresse en lignes ; b) se cassant vers le haut de chaque ligne en mots ; c) recherchant chaque mot dans le dictionnaire de mot pour identifier le type de champ du mot ; d) formation d'une ligne modèle du type de champ des mots dans la ligne ; e) recherchant la ligne modèle dans le dictionnaire de modèle ; et f) renvoyant une ligne modèle à chacune des lignes dans les données d'adresse. Avec chaque mot dans chaque ligne dans un ensemble de données d'adresse faisant assigner un type de champ là-dessus, les composants d'adresse peuvent être facilement identifiés par une lecture de machine les données d'adresse. Avec les données normalisées d'adresse, par exemple, une machine peut identifier que le composant d'une adresse est le nom de rue, et que le composant d'une ligne nommée est le titre du destinataire.