A procedure is disclosed for automatically constructing wrappers for
performing information-extraction from sites such as Internet resources
that display relevant information, interspersed with extraneous text
fragments, such as HTML formatting commands or advertisements. The
procedure has three basic steps. First, a set of example pages are
collected with a subroutine named GatherExamples. Gather Examples is
provided with information describing how to pose example queries to the
site whose wrapper is to be learned. Second, these example pages are
labeled by a subroutine named LabelExamples--i.e., the information to be
extracted from each example is identified for use in the third step. The
LabelExamples subroutine uses a general framework for labeling pages using
site-specific heuristics called recognizers, as well as allowing users to
correct and modify the recognized instances. Finally, the labeled example
pages are passed to a BuildWrapper subroutine, which constructs a wrapper.
Процедура показана для автоматически строить interspersed завертчицы для выполнять информаци-izvlecenie от мест such as ресурсов интернета показывают релевантную информацию, с extraneous частями текста, such as команды форматизации html или рекламы. Процедура имеет 3 основных шага. Во первых, комплект страниц примера собран при названная подпрограмма ГатюерЕхамплес. Примеры gather обеспечены при информация описывая как представить queries примера к месту завертчица должна быть выученным. Во-вторых, эти страницы примера обозначены названной подпрограммой ЛабелЕхамплес -- т.е., информация, котор нужно извлечь от каждого примера определена для пользы в третьем шаге. Подпрограмма LabelExamples использует вообще рамки для обозначая страниц использующ мест-speqificeski heuristics вызванный recognizers, также,как позволять потребителям исправить и доработать узнанные примеры. Окончательно, обозначенные страницы примера переданы к подпрограмме BuildWrapper, которая строит завертчицу.