На сайте, как правило, имеются страницы, которые не предназначены для посетителей. К ним относятся:
Служебные страницы с технической информацией или предназначенные для управления сайтом.
Страницы, содержание которых может иметь ценность только для авторизованного пользователя. Это, например, страница оформления заказа в интернет-магазине или профиль пользователя.
Черновики, страницы-«заглушки» и прочие, не готовые к публикации.
Почему такие страницы нужно скрывать
Число таких страниц сравнимо и даже может превышать число страниц, на которые владелец сайта хотел бы привлечь посетителей. В результате:
Их обход поисковым роботом будет создавать лишнюю нагрузку на сайт.
Поисковый робот будет медленнее обходить целевые страницы.
Если такие страницы попадут в поисковый индекс, они могут конкурировать с целевыми, важными страницами и дезориентировать посетителей.
Как узнать в Яндекс Вебмастере, какие ненужные страницы обходит робот
В Яндекс Вебмастере вы можете проверить, какие страницы на вашем сайте робот Яндекса обошел, но не добавил в поиск.
Перейдите в сервис: Индексирование → Страницы в поиске, вкладка Исключённые страницы.
Нажмите значок и выберите Малоценная или маловостребованная.
В этом списке могут быть страницы, на которые вы хотите привлекать посетителей. Эти страницы можно доработать, чтобы увеличить шансы попадания в поиск.
В списке могут находиться и страницы, которые не предназначены для посетителей, но робот их обходит. Их лучше скрыть от робота.
Для страниц с авторизацией, которые содержат личные данные (адрес доставки, телефон, платежная информация), настройте HTTP-код ответа сервера 403 Forbidden. Для страниц, которые были удалены, — 404 Not Found или 410 Gone.
Директива Disallow используется, чтобы запретить обход разделов сайта или отдельных страниц. С ее помощью можно закрыть от робота страницы панели управления сайта, страницы с конфиденциальными данными или страницы с результатами поиска по сайту.
Например:
User-agent: Yandex
Disallow: /admin # запрещаем обход страниц и разделов, URL которых начинается с /admin
Disallow: /order.html # запрещаем обход страницы оформления заказа
Disallow: *?s= # запрещаем обход результатов поиска по сайту, страниц, в URL которых входят символы ?s=
Как проверить в Яндекс Вебмастере, закрыта ли страница от индексации
Чтобы проверить, правильно ли закрыты страницы в файле robots.txt, перейдите на страницу Инструменты → Анализ robots.txt, добавьте адреса страниц в поле Разрешены ли URL? и запустите проверку. Если всё правильно, то в результатах проверки будет написано, что ссылка запрещена директивой Disallow.
Чтобы узнать, правильно ли закрыты страницы от роботов любым способом, воспользуйтесь инструментом Индексирование → Проверка состояния страницы. Запустите проверку адреса страницы. Состояние страницы в поиске отобразится на вкладке Версия страницы в базе → Состояние в поиске. Если страница закрыта от роботов, то у нее будет состояние «Страница неизвестна роботу».
Как удалить ненужные страницы из поиска, если они туда попали
Для удаления страниц из поиска вы можете применить:
запрет в файле robots.txt (директива Disallow);
HTTP-статус с кодом 404, 403 или 410;
метатег robots с директивой noindex.
Страница будет удалена из поисковой базы в течение недели после того, как робот обнаружит ваши указания.
Яндекс Вебмастер позволяет начать процесс удаления, не дожидаясь планового обхода робота, для этого перейдите на страницу Инструменты → Удаление страниц из поиска и укажите URL страницы или префикс для удаления группы страниц.