A framework for information extraction from natural language documents is
application independent and provides a high degree of reusability. The
framework integrates different Natural Language/Machine Learning
techniques, such as parsing and classification. The architecture of the
framework is integrated in an easy to use access layer. The framework
performs general information extraction, classification/categorization of
natural language documents, automated electronic data transmission (e.g.,
E-mail and facsimile) processing and routing, and plain parsing. Inside
the framework, requests for information extraction are passed to the
actual extractors. The framework can handle both pre- and post processing
of the application data, control of the extractors, enrich the information
extracted by the extractors. The framework can also suggest necessary
actions the application should take on the data. To achieve the goal of
easy integration and extension, the framework provides an integration
(outside) application program interface (API) and an extractor (inside)
API.
Een kader voor informatieextractie van natuurlijke taaldocumenten is toepassingsonafhankelijke en verstrekt een hoge graad van mogelijkheid om opnieuw gebruikt te worden. Het kader integreert verschillende Natuurlijke Taal/het Leren van de Machine technieken, zoals het ontleden en classificatie. De architectuur van het kader is geïntegreerd in een makkelijk te gebruiken toegangslaag. Het kader voert algemene informatieextractie, classificatie/categoriseren van natuurlijke taaldocumenten, geautomatiseerde elektronische gegevenstransmissie (b.v., E-mail en facsimile) verwerking en het leiden, en het duidelijke ontleden uit. Binnen het kader, worden de verzoeken om informatieextractie overgegaan tot de daadwerkelijke trekkers. Het kader kan zowel pre behandelen - als postverwerking van de toepassingsgegevens, controle van de trekkers, de informatie verrijken die door de trekkers wordt gehaald. Het kader kan noodzakelijke acties ook voorstellen de toepassing de gegevens zou moeten overnemen. Om het doel van gemakkelijke integratie en uitbreiding te bereiken, verstrekt het kader het programmainterface een van de integratie (buiten) toepassing (API) en een trekker (binnen) API.