A system and a method for the conversion of archived documents to a digital
format and storage of the data extracted in repositories which may be
easily extracted and searched by a user over a network such as the
Internet. The data is preferably stored in the form of microfilm, although
optionally the present invention could be operative with other types of
physical media, such as microfiche, paper and any type of printed
material. The microfilm data is preferably divided and/or grouped into at
least one file. Optionally and preferably, each file undergoes the
following automatic processing stages: combining files; analyzing image
layout; segmentation; OCR; optional segmentation improvement; and output
to XML, or another suitable output data format and/or language. In the
last stage, the data contained in the files is preferably extracted and
then more preferably transmitted to the relevant repository unit.
Een systeem en een methode voor de omzetting van gearchiveerde documenten aan een digitaal formaat en opslag van de gegevens die in bewaarplaatsen worden gehaald die gemakkelijk kunnen door een gebruiker over een netwerk zoals Internet worden gehaald en worden gezocht. Het gegeven wordt bij voorkeur opgeslagen in de vorm van microfilm, hoewel naar keuze de onderhavige uitvinding met andere types van fysieke media, zoals microfiche, document en om het even welk type van gedrukt materiaal doeltreffend zou kunnen zijn. De microfilmgegevens zijn bij voorkeur verdeeld en/of gegroepeerd in minstens één dossier. Naar keuze en bij voorkeur, ondergaat elk dossier de volgende automatische verwerkingsstadia: het combineren van dossiers; het analyseren van beeldlay-out; segmentatie; Optisch lezen; facultatieve de segmentatieverbetering; en output aan XML, of een andere geschikte formaat en/of taal van outputgegevens. In het laatste stadium, wordt het gegeven in de dossiers bij voorkeur gehaald en aan de relevante bewaarplaatseenheid liever dan overgebracht.