Устранение дублей может быть сложным и зачастую требует творческого подхода. Однако есть направления, которые однозначно стоит проверить.
Ошибки движка сайта
Разберем типичные ошибки работы движка сайта, которые приводят к появлению дублей:
1. Движок сайта не генерирует 301 редирект при смене адреса страницы (этот редирект либо нельзя поставить вообще, либо нужно ставить в ручном режиме, о чем легко забыть). Данный недостаток легко устранить на программном уровне.
Рис. 2. Результаты сканирования сайта программой XENU: интерфейс безнадежно устарел, но функционал остается полезным при выполнении практических задач
2. Движок отображает один и тот же контент по разным адресам:
a. Разные страницы могут возникать при перестановке частей URL-адреса. Например, одинаковый контент выводится на страницах site.ru/cars/volvo и site.ru/volvo/cars.
b. Отображение страницы происходит при частичном вводе адреса, например по URL site.ru/sumki/cristina-agilera и site.ru/sumki/cristina.
c. Одна и та же страница может отображаться в разных категориях. Особенно это актуально для карточек товаров в интернет-магазине: site.ru/moto/sc-234 и site. ru/moto-s-pricepom/sc-234. Проще всего решить эту проблему, присвоив каждой карточке раз и навсегда свой уникальный адрес.
3. Движок сайта может генерировать сессионные переменные в адресе страниц. Ниже мы разберемся с этим вопросом подробнее.
Сессия – промежуток времени, в течение которого пользователь находился на сайте[31]. Когда пользователь заходит на сайт, последний с помощью cookies[32] браузера его идентифицирует. Это необходимо, чтобы понять, кто этот посетитель, и помочь ему пользоваться сайтом. Например, если при авторизации пользователь поставил галочку «Запомнить меня», то при следующем заходе на сайт он сразу будет залогинен.
Но бывает, что cookies у пользователя отключены. В таком случае возможны три варианта:
– сайт будет работать, как обычно;
– сайт не сможет работать полноценно и выдаст сообщение, что для нормальной работы нужно включить cookies;
– движок сайта постарается компенсировать отсутствие cookies с помощью так называемых сессионных переменных (уникальных идентификаторов, которые будут добавляться к URL тех страниц, на которых побывал пользователь).
Последний подход создает дополнительные проблемы для поисковых систем. Их роботы приходят на сайт, видят новые URL с сессионными переменными и индексируют их. В результате в поисковую базу попадают полные дубликаты уже существующих страниц.