A method and system that detects mirrored host pairs using information
about a large set of pages, including one or more of: URLs, IP addresses,
and connectivity information. The identities of the detected mirrored
hosts are then saved so that browsers, crawlers, proxy servers, or the
like can correctly identify mirrored web sites. The described embodiments
of the present invention use one or a combination of techniques to
identify mirrors. A first group of techniques involves determining mirrors
based on URLs and information about connectivity (i.e., hyperlinks)
between pages. A second group of techniques looks at connectivity
information at a higher granularity, considering all links from all pages
on a host as one group and ignoring the target of each link beyond the
host level.
Метод и система обнаруживает отраженного хозяина спаривают использующ информацию о большом комплекте страниц, включая one or more из: URLs, адресы ip, и данные по connectivity. Тождественности обнаруженного отраженного хозяина после этого сохранены так, что браузеры, crawlers, серверы полномочия, или подобие смогут правильно определить отраженные места стержня. Описанные воплощения присытствыющего вымысла используют один или комбинацию из методов для того чтобы определить зеркала. Первая группа в составе методы включает обусловить зеркала основанные на URLs и информации о connectivity (т.е., hyperlinks) между страницами. Вторая группа в составе методы смотрит данные по connectivity на более высоком granularity, considering все соединения от всех страниц на хозяине как одна группа и игнорировать цель каждого соединения за уровнем хозяина.