Из-за этого паук скачивает сайты постепенно, небольшими «порциями», например, по нескольку десятков или сотен страниц в день. Размер этой порции на профессиональном сленге специалистов по продвижению и называется краулинговым бюджетом.
По сути, бюджет – это то количество страниц сайта, которое обновится в базе поисковика за определенный период. Чем больше бюджет, тем лучше, так как при большом бюджете можно быть уверенным, что все изменения на сайте быстро попадут в базу данных поисковика.
Краулинговый бюджет зависит от многих факторов (уровня траста, размера сайта, частоты обновления, тематики, региона) и рассчитывается по специальному алгоритму. Самостоятельно увеличить его на нужную величину довольно сложно.
Поэтому при продвижении сайта стоит обратная задача: вместить в имеющийся бюджет все изменения, которые произошли на сайте. Для этого применяется комплекс мер, от удаления дублей до управления индексацией с помощью служебных файлов. Все эти меры мы последовательно рассмотрим на страницах данной книги.
Остается добавить, что получить представление о краулинговом бюджете для продвигаемого сайта можно с помощью статистики, которую предоставляют поисковые системы в панелях для веб-мастеров, или анализа логов сервера.
В-третьих, из-за ошибок в алгоритмах поисковых систем после очередного обновления поискового индекса дубль может заменить в выдаче целевую страницу. Как правило, после этого позиции сайта в выдаче существенно ухудшаются.
Но даже если этого не произойдет, может возникнуть ряд негативных эффектов: например, падение конверсии[26] и накопление поведенческой статистики на неправильной странице. Целевая страница при этом может вообще пропасть из индекса (в самом деле, зачем держать в базе несколько копий одной и той же страницы?).
В-четвертых, может возникнуть ситуация, когда поисковая система не сможет разобраться, какой из дублей следует считать основным. В этом случае алгоритм понизит обе страницы (и сайт в целом) в результатах выдачи.
Причины возникновения дублей и методы их обнаружения
Причины возникновения дублей могут быть разными:
1. Дубли штатно или по ошибке может генерировать движок сайта. Например, дублями могут быть страница и ее версия для печати, встречаются дубли главной страницы (site.ru и site.ru/index.php) или одинаковые страницы с разными расширениями (.php и. html).
2. Дубли могут возникнуть из-за невнимательности вебмастера (после изменения адреса страницы она становится доступна и по старому, и по новому URL).
3. Дубли могут генерироваться из-за дизайнерских или контентных особенностей проекта (в интернет-магазинах часто похожие товары отличаются лишь очень кратким описанием или несколькими техническими параметрами).
Для обнаружения дубликатов есть множество эффективных инструментов:
1. Панели