Анализ robots.txt

Файл robots.txt — это текстовый файл, который размещается в корневом каталоге сайта и содержит инструкции для поисковых роботов. С его помощью можно указать, какие разделы или страницы сайта можно индексировать, а какие — нет.

Правильно настроенный файл помогает оптимизировать процесс индексации и снизить нагрузку на сервер, а также предотвратить обход поисковыми роботами ненужных или служебных страниц. Подробно см. Использование файла robots.txt.

Урок Как управлять индексированием сайта.

Инструмент Анализ robots.txt предназначен для проверки и анализа файла robots.txt. Он позволяет:

  • проверить, есть ли в файле синтаксические ошибки или противоречия, которые могут повлиять на индексацию сайта;
  • отследить изменения в файле;
  • понять, какие страницы разрешены или запрещены для индексации;
  • сэкономить время при анализе файла, особенно на крупных сайтах со сложной структурой.

Как проверить файл

  1. В основном меню слева выберите сайт, который хотите проверить.

    Если вы добавили и подтвердили права только на один сайт, он будет отображаться в сервисе по умолчанию.

  2. Перейдите на страницу Инструменты → Анализ robots.txt. Содержимое файла robots.txt для добавленного сайта отобразится на странице. Проверка запустится автоматически.

  1. В Яндекс Вебмастере перейдите на страницу Анализ robots.txt.

  2. Заполните поле Адрес сайта — укажите сайт, который хотите проверить. Например, https://example.com.

  3. Нажмите значок . Содержимое robots.txt и результаты анализа отобразятся ниже.

Вы также можете написать содержимое файла, чтобы после проверки скопировать его в robots.txt:

  1. В область под полем Адрес сайта добавьте все необходимые директивы.
  2. Нажмите Проверить.

В разделах для робота Яндекса (User-agent: Yandex или User-agent: *) инструмент проверяет директивы с учетом правил использования robots.txt. Остальные разделы проверяются в соответствии со стандартом.

Отчет о проверке отобразится в разделе Результаты анализа robots.txt:

  • На вкладке Правила обхода покажутся все директивы, которые учитывают роботы Яндекса при индексировании.
  • На вкладке Ошибки могут показаться ошибки, из-за которых инструмент не смог обработать строку, секцию или весь файл. Подробное описание см. в разделе Справочник по ошибкам анализа robots.txt.

При необходимости внесите правки в поле с кодом из файла и нажмите Проверить. Если ошибок нет, а правила отображаются корректно, скопируйте полученный код в файл robots.txt.

Как отслеживать изменения файла

Яндекс Вебмастер регулярно проверяет обновления файла robots.txt и сохраняет версии с учетом даты и времени изменения.

Если в сервисе есть информация об изменениях файла, на странице Инструменты → Анализ robots.txt будет доступен список версий за последние 6 месяцев. Максимальное количество сохраненных версий — 100.

Чтобы посмотреть список версий, добавьте сайт в Яндекс Вебмастер и подтвердите права на него.

Текущая версия файла загружается автоматически. Чтобы посмотреть предыдущую версию, выберите ее из списка Версия robots.txt. В поле ниже отобразится содержимое файла и результаты проверки.

Чтобы своевременно узнавать об изменениях файла robots.txt, настройте уведомления.

Как узнать, обойдет ли робот определенный URL

  1. Перейдите на страницу Инструменты → Анализ robots.txt и добавьте файл robots.txt для проверки.

  2. Под результатами анализа файла отобразится блок Доступ к страницам. В поле Список страниц добавьте адрес одной или нескольких страниц, доступ к которым хотите проверить.

    Можно указать полный URL или адрес относительно корневого каталога сайта. Например, https://example.com/page/ или /page/.

  3. Нажмите Проверить.

Ниже отобразится результат проверки для каждой страницы:

Статус Значение
Владелец площадки разрешил показ страницы в поиске Яндекса Страница открыта для индексирования
Владелец площадки запретил показ страницы в поиске Яндекса Страница недоступна для индексирования
Не удалось провести полную проверку Страница содержит ошибку (например, не загружается, ведет на другой адрес или отвечает с ошибкой)

Вопросы и ответы

Ошибка «Этот URL не принадлежит вашему домену»

Вероятно, в списке URL указан неглавный адрес сайта — например, http://example.com вместо http://www.example.com. Для системы это разные URL. Убедитесь, что проверяемые адреса принадлежат сайту, для которого анализируется файл robots.txt.

Сообщить об ошибке в работе инструмента

Укажите инструмент, в работе которого вы нашли ошибку, опишите ситуацию как можно подробнее, а при необходимости приложите , иллюстрирующий ситуацию.