A computer-based system and method of retrieving information pertaining to
Web documents on a computer network is disclosed. The method includes
maintaining an address map that associates primary addresses with
secondary addresses. A primary address includes a network retrieval
protocol and a network address. The secondary address may include a
different retrieval protocol or a different network address from the
primary document address. A Web crawler retrieves a Web document using the
primary document address, and determines whether the address map contains
a secondary document address prefix corresponding to the primary document
address prefix. If a secondary document address prefix exists, the Web
crawler creates a secondary address, retrieves additional information
pertaining to the Web document, and combines the additional information
with the data retrieved from the Web document. The combined data may be
stored in an index, and subsequently used to perform a document search.
Показаны computer-based система и метод retrieving информация pertaining к документам стержня на компьютерной сети. Метод вклюает поддержание карты адреса связывает первичные адресы с вторичными адресами. Главным образом адрес вклюает протокол возвращения сети и адрес сети. Вторичный адрес может включить по-разному протокол возвращения или по-разному адрес сети от главным образом адреса документа. Crawler стержня retrieves документ стержня использующ первичный адрес документа, и обусловливает содержит ли карта адреса вторичное приставку адреса документа соответствуя к главным образом приставке адреса документа. Если вторичное приставка адреса документа существует, то crawler стержня создает вторичный адрес, retrieves дополнительнаяа информация pertaining к документу стержня, и совмещает дополнительнаяа информация при данные retrieved от документа стержня. Совмещенные данные могут храниться в индексе, и затем использоваться для того чтобы выполнить поиск документа.