Как скрыть от обхода страницы, которые не нужны в поиске

На сайте, как правило, имеются страницы, которые не предназначены для посетителей. К ним относятся:

  • Служебные страницы с технической информацией или предназначенные для управления сайтом.
  • Страницы, содержание которых может иметь ценность только для авторизованного пользователя. Это, например, страница оформления заказа в интернет-магазине или профиль пользователя.
  • Черновики, страницы-«заглушки» и прочие, не готовые к публикации.

Почему такие страницы нужно скрывать

Число таких страниц сравнимо и даже может превышать число страниц, на которые владелец сайта хотел бы привлечь посетителей. В результате:

  • Их обход поисковым роботом будет создавать лишнюю нагрузку на сайт.
  • Поисковый робот будет медленнее обходить целевые страницы.
  • Если такие страницы попадут в поисковый индекс, они могут конкурировать с целевыми, важными страницами и дезориентировать посетителей.

Как узнать в Яндекс Вебмастере, какие ненужные страницы обходит робот

В Яндекс Вебмастере вы можете проверить, какие страницы на вашем сайте робот Яндекса обошел, но не добавил в поиск.

  1. Перейдите в сервис: Индексирование → Страницы в поиске, вкладка Исключённые страницы.
  2. Нажмите значок и выберите Малоценная или маловостребованная.

В этом списке могут быть страницы, на которые вы хотите привлекать посетителей. Эти страницы можно доработать, чтобы увеличить шансы попадания в поиск.

В списке могут находиться и страницы, которые не предназначены для посетителей, но робот их обходит. Их лучше скрыть от робота.

Подробно:


Как скрыть страницы от робота

HTTP-статус ответа сервера 4xx

Для страниц с авторизацией, которые содержат личные данные (адрес доставки, телефон, платежная информация), настройте HTTP-код ответа сервера 403 Forbidden. Для страниц, которые были удалены, — 404 Not Found или 410 Gone.

Подробно:

Директива noindex метатега robots или HTTP-заголовка X-Robots-Tag

Директива noindex запрещает роботу индексировать текст страницы. Страница не будет участвовать в результатах поиска.

Для ее использования:

  • Настройте HTTP-заголовок X-Robots-Tag для определенного URL на сервере вашего сайта.
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex
  • Или поместите метатег robots с директивой noindex в HTML-коде страницы внутри элемента head:
<html>
    <head>
        <meta name="robots" content="noindex" />
    </head>
    <body>...</body>
</html>

Подробно:


Директива Disallow в файле robots.txt

Директива Disallow используется, чтобы запретить обход разделов сайта или отдельных страниц. С ее помощью можно закрыть от робота страницы панели управления сайта, страницы с конфиденциальными данными или страницы с результатами поиска по сайту.

Например:

User-agent: Yandex
Disallow: /admin # запрещаем обход страниц и разделов, URL которых начинается с /admin
Disallow: /order.html # запрещаем обход страницы оформления заказа
Disallow: *?s= # запрещаем обход результатов поиска по сайту, страниц, в URL которых входят символы ?s=

Подробно о robots.txt и директиве Disallow:


Как проверить в Яндекс Вебмастере, закрыта ли страница от индексации

Чтобы проверить, правильно ли закрыты страницы в файле robots.txt, перейдите на страницу Инструменты → Анализ robots.txt, добавьте адреса страниц в поле Разрешены ли URL? и запустите проверку. Если всё правильно, то в результатах проверки будет написано, что ссылка запрещена директивой Disallow.

Чтобы узнать, правильно ли закрыты страницы от роботов любым способом, воспользуйтесь инструментом Индексирование → Проверка состояния страницы. Запустите проверку адреса страницы. Состояние страницы в поиске отобразится на вкладке Версия страницы в базе → Состояние в поиске. Если страница закрыта от роботов, то у нее будет состояние «Страница неизвестна роботу».

Подробно:


Как удалить ненужные страницы из поиска, если они туда попали

Для удаления страниц из поиска вы можете применить:

  • запрет в файле robots.txt (директива Disallow);
  • HTTP-статус с кодом 404, 403 или 410;
  • метатег robots с директивой noindex.

Страница будет удалена из поисковой базы в течение недели после того, как робот обнаружит ваши указания.

Яндекс Вебмастер позволяет начать процесс удаления, не дожидаясь планового обхода робота, для этого перейдите на страницу Инструменты → Удаление страниц из поиска и укажите URL страницы или префикс для удаления группы страниц.

Подробно: