A method and apparatus are provided for indexing electronic documents that
include one or more visible text portions and one or more non-visible text
portions. The method includes the step of identifying an electronic
document. Once the electronic document is identified, a set of words is
selected from a particular tag type that is associated with one or more
non-visible text portions of the electronic document. Each word in the
selected set of words is compared with words in the one or more visible
text portions of the electronic document. An index word set is then
determined for the electronic document based on matches between words in
the selected set of words and words in the one or more visible text
portions of the electronic document.
Een methode en een apparaat worden verstrekt voor het indexeren van elektronische documenten die één of meerdere zichtbare tekstgedeelten en één of meerdere niet zichtbare tekstgedeelten omvatten. De methode omvat de stap van het identificeren van een elektronisch document. Zodra het elektronische document wordt geïdentificeerd, wordt een reeks woorden geselecteerd uit een bepaald markeringstype dat met één of meerdere niet zichtbare tekstgedeelten van het elektronische document wordt geassocieerd. Elk woord in de geselecteerde reeks woorden wordt vergeleken met woorden in de één of meerdere zichtbare tekstgedeelten van het elektronische document. Een reeks van het indexwoord wordt dan voor het elektronische document bepaald dat op gelijken tussen woorden in de geselecteerde reeks woorden en woorden in de één of meerdere zichtbare tekstgedeelten wordt gebaseerd van het elektronische document.