A method and apparatus for extracting structure information from an
unstructured electronic document is described. The method includes the
step of identifying a structural type for each instance in the electronic
document by examining presentation attributes associated with each
instance. Examples of presentation attributes which are examined include
numbering formats, indentations, and font sizes and weights.
Un metodo e un apparecchio per l'estrazione delle informazioni della struttura da un documento elettronico non strutturato รจ descritto. Il metodo include il punto di identificare un tipo strutturale per ogni caso nel documento elettronico esaminando gli attributi di presentazione connessi con ogni caso. Gli esempi degli attributi di presentazione che sono esaminati includono le disposizioni di numerazione, rientranze e dimensioni e pesi.