A method and a system for extracting information from a natural language
text corpus based on a natural language query are disclosed. In the method
the natural language text corpus is analyzed with respect to surface
structure of word tokens and surface syntactic roles of constituents, and
the analyzed natural language text corpus is then indexed and stored.
Furthermore a natural language query is analyzed with respect to surface
structure of word tokens and surface syntactic roles of constituents. From
the analyzed natural language query one or more surface variants are then
created, where these surface variants are equivalent to the natural
language query with respect to lexical meaning of word tokens and surface
syntactic roles of constituents. The surface variants are then compared
with the indexed and stored analyzed natural language text corpus, and
each portion of text comprising a string of word tokens that matches the
any one of the surface variants or the natural language query is extracted
from the indexed and stored analyzed natural language text corpus.
Een methode en een systeem om informatie uit een natuurlijke taalcorpus te halen dat op een natuurlijke taalvraag wordt gebaseerd worden onthuld. In de methode wordt het natuurlijke taalcorpus geanalyseerd met betrekking tot oppervlaktestructuur van woordtekenen en oppervlakte syntactische rollen van constituenten, en het geanalyseerde natuurlijke taalcorpus wordt dan geïndexeerd en opgeslagen. Verder wordt een natuurlijke taalvraag geanalyseerd met betrekking tot oppervlaktestructuur van woordtekenen en oppervlakte syntactische rollen van constituenten. Van de geanalyseerde natuurlijke taalvraag worden één of meerdere oppervlaktevarianten dan gecreeerd, waar deze oppervlaktevarianten aan de natuurlijke taalvraag met betrekking tot lexicale betekenis van woordtekenen en oppervlakte syntactische rollen van constituenten gelijkwaardig zijn. De oppervlaktevarianten worden dan vergeleken met het geïndexeerde en opgeslagen geanalyseerde natuurlijke taalcorpus, en elk gedeelte dat van tekst uit een koord van woordtekenen dat bestaat om het even wie van de oppervlaktevarianten of de natuurlijke taalvraag aanpast wordt gehaald uit het geïndexeerde en opgeslagen geanalyseerde natuurlijke taalcorpus.