Дублирование страниц
Если страницы сайта доступны по разным адресам, но имеют одинаковое содержимое, робот Яндекса может посчитать их дублями и объединить в группу дублей.
Если на сайте есть страницы-дубли:
Из результатов поиска может пропасть нужная вам страница, так как робот выбрал другую страницу из группы дублей.
Также в некоторых случаях страницы могут не объединяться в группу и участвовать в поиске как разные документы. Таким образом конкурировать между собой. Это может оказать влияние на сайт в поиске.
- В зависимости от того, какая страница останется в поиске, адрес документа может измениться. Это может вызвать трудности при просмотре статистики в сервисах веб-аналитики.
- Индексирующий робот дольше обходит страницы сайта, а значит данные о важных для вас страницах медленнее передаются в поисковую базу. Кроме этого, робот может создать дополнительную нагрузку на сайт.
Как определить, есть ли страницы-дубли на сайте
Страницы-дубли появляются по разным причинам:
- Естественным. Например, если страница с описанием товара интернет-магазина присутствует в нескольких категориях сайта.
- Связанным с особенностями работы сайта или его CMS (например, версией для печати, UTM-метки для отслеживания рекламы и т. д.)
- Перейдите в Вебмастер на страницу Страницы в поиске и выберите Исключённые страницы.
- Нажмите значок и выберите статус «Удалено: Дубль».
Также вы можете выгрузить архив — внизу страницы выберите формат файла. В файле дублирующая страница имеет статус DUPLICATE. Подробно о статусах
Если дубли появились из-за добавления GET-параметров в URL, об этом появится уведомление в Вебмастере на странице Диагностика сайта.
Как избавиться от страниц-дублей
Чтобы оставить в поисковой выдаче нужную страницу, укажите роботу Яндекса на нее . Это можно сделать несколькими способами в зависимости от вида адреса страницы.
Пример для обычного сайта:
http://example.com/page1/ и http://example.com/page2/
Пример для сайта с AMP-страницами:
http://example.com/page/ и http://example.com/AMP/page/
В этом случае:
Установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.
Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля.
Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.
Также вы можете ограничить AMP-страницы, которые дублируют контент страниц другого типа.
Чтобы определить, какая страница должна остаться в поиске, ориентируйтесь на удобство посетителей вашего сайта. Например, если речь идет о разделе с похожими товарами, вы можете выбрать в качестве страницы для поиска корневую или страницу этого каталога — откуда посетитель сможет просмотреть остальные страницы. В случае дублирования обычных HTML и AMP-страниц, рекомендуем оставлять в поиске обычные HTML.
https://example.com и https://example.com/index.php
В этом случае:
Установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.
Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
Рекомендуем устанавливать перенаправление с внутренних страниц на главную. Если вы настроите редирект со страницы https://example.com/ на https://example.com/index.php, контент страницы https://example.com/index.php будет отображаться по адресу https://example.com/ — согласно правилам обработки редиректов.
http://example.com/page/ и http://example.com/page
В этом случае установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. Тогда в поиске будет участвовать цель установленного редиректа.
Не рекомендуем в этом случае использовать атрибут rel=canonical, так как он может игнорироваться. При редиректе пользователи будут попадать сразу на нужный URL страницы.
Если проблема на главной странице, настраивать на ней ничего не нужно. Поисковая система распознает страницы http://example.com и http://example.com/ как одинаковые.
Яндекс индексирует ссылки со слешем на конце и без одинаково. При выборе URL, который останется в поиске, нужно учесть, по какому адресу сейчас индексируются страницы, если редирект еще не был установлен. Например, если в поиске уже участвуют страницы без слеша, стоит настроить перенаправление со страниц со слешем на ссылки без слеша. Это позволит избежать дополнительной смены адреса страниц в поиске.
http://example.com/page////something/
В этом случае поисковая система убирает дублирующиеся символы. Страница будет индексироваться по адресу http://example.com/page/something/.
Если в URL есть \ (например, http://example.com/page/something/\\\\), поисковая система воспринимает такую страницу как отдельную. Она будет индексироваться по адресу http://example.com/page/something/\\\\.
Установите редирект с HTTP-кодом 301 с одной страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.
- Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы.
Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.
Используйте рекомендации, если различия есть в тех параметрах, которые не влияют на контент. Например, такими параметрами могут быть UTM-метки:
https://example.com/page?utm_source=instagram&utm_medium=cpc
В этом случае добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал параметры в URL. Если в Вебмастере отображается уведомление о дублировании страниц из-за GET-параметров, этот способ исправит ошибку. Уведомление пропадет, когда робот узнает об изменениях.
User-agent: *
будет проигнорирована.- Пример директивы Clean-param
-
#для адресов вида: https://example.com/page?utm_source=link&utm_medium=cpc&utm_campaign=new #robots.txt будет содержать: User-agent: Yandex Clean-param: utm_source&utm_medium&utm_campaign /page #таким образом указываем роботу, что нужно оставить в поиске адрес https://example.com/page #чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес: User-agent: Yandex Clean-param: utm_source&utm_medium&utm_campaign
Если у вас нет возможности изменить robots.txt, укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
http://example.com/page/ и http://example.com/page?AMP
В этом случае добавьте директиву Clean-param в файл robots.txt, чтобы робот не учитывал параметры в URL.
Если AMP-страницы формируются не GET-параметром, а при помощи директории формата /AMP/, их можно рассматривать как обычные контентные дубли.
Робот узнает об изменениях, когда посетит ваш сайт. После посещения страница, которая не должна участвовать в поиске, будет исключена из него в течение трех недель. Если на сайте много страниц, этот процесс может занять больше времени.
Проверить, что изменения вступили в силу, можно в Яндекс Вебмастере на странице Страницы в поиске.
Разгруппировка
Для улучшения качества поиска может применяться механизм разгруппировки. Это происходит, если:
- Страницы, которые лучше решают задачу пользователя, расположены на одном домене, а остальные ресурсы менее релевантны. Например, когда в запросе указан конкретный сайт. В этом случае поиск может показать несколько ссылок на различные страницы этого сайта.
- В выдаче присутствуют разные поддомены крупного интернет-портала — сайта, который объединяет несколько информационных ресурсов и сервисов. Обычно на поддоменах находятся сайты разных бизнесов и владельцев, а контент касается разнородных услуг. Каждый из поддоменов интернет-портала поиск ранжирует изолированно. Например, такая разгруппировка применяется к крупнейшим экосистемным площадкам и блог-платформам.
Владелец сайта, часто попадающего в топ выдачи, может предложить переквалифицировать свой домен в интернет-портал через обращение в Вебмастере. Для этого нужно предоставить описание сервисов и их владельцев на поддоменах. После этого они могут ранжироваться как независимые сайты, которые самостоятельно накапливают пользовательский сигнал. Изменение пользовательского сигнала может как положительно, так и отрицательно сказаться на позициях поддоменов в поисковой выдаче.