A finite state data structure includes paths that represent pairs of
strings, with a first string that is a string of tag combinations and a
second string that is a string of tags for tokens in a language. The
second strings of a set of paths with the same first string include only
highly probable strings of tags for the first string. The data structure
can be an FST or a bimachine, and can be used for mapping strings of tag
combinations to strings of tags. The tags can, for example, indicate parts
of speech of words, and the tag combinations can be ambiguity classes or,
in a bimachine, reduced ambiguity classes. An FST can be obtained by
approximating a Hidden Markov Model. A bimachine can include left-to-right
and right-to-left sequential FSTs obtained based on frequencies of tokens
in a training corpus.
Небесконечная структура данным по положения вклюает курсы представляют пары шнуров, с первым шнуром который будет шнуром комбинаций бирки и вторым шнуром который будет шнуром бирок для tokens в языке. Вторые шнуры комплекта курсов с таким же первым шнуром вклюают только высоки вероятные шнуры бирок для первого шнура. Структурой данных может быть FST или bimachine, и может быть использована для составлять карту шнуры комбинаций бирки к шнурам бирок. Бирки могут, например, показать части речи слов, и комбинациями бирки могут быть типами неоднозначности или, в bimachine, уменьшенными типами неоднозначности. FST может быть получено путем приближаться спрятанная модель Markov. Bimachine может включить left-to-right и прав-к-levoe последовательное полученное FSTs основанным на частотах tokens в corpus тренировки.