A word segmentation method to identify proper names in input text includes
locating a sequence of single-characters in the input text not forming
part of a multiple-character word. The method further includes comparing
the sequence of single-characters to a lexical knowledge base to identify
if a first portion of the sequence corresponds to stored identifiable
portions of a proper name, and comparing the sequence of single-characters
to the lexical knowledge base to identify if a second portion of the
sequence proximate the first portion includes characters known to comprise
a second portion of a proper name. Instructions can be provided on a
computer readable medium to implement the method.
Een methode van de woordsegmentatie om eigennamen in inputtekst te identificeren omvat de plaatsbepaling van een opeenvolging van enig-karakters die in de inputtekst een geen deel van een veelvoudig-karakterwoord vormen. De methode omvat verder het vergelijken van de opeenvolging van enig-karakters bij een lexicale te identificeren kennisbank zich als een eerste gedeelte van de opeenvolging aan opgeslagen identificeerbare gedeelten van een eigennaam beantwoordt, en het vergelijken van de opeenvolging van enig-karakters bij de lexicale te identificeren kennisbank zich als een tweede gedeelte van de naburige opeenvolging het eerste gedeelte karakters omvat die worden gekend om uit een tweede gedeelte van een eigennaam te bestaan. De instructies kunnen op een computer leesbaar middel worden verstrekt om de methode uit te voeren.