Блог об интернет-маркетинге для предпринимателей и маркетологов
8 800 707-47-52

Правильный файл robots.txt для сайта

Robots.txt для сайта

Robots.txt для сайта — это файл, в котором прописываются правила индексирования ресурса роботами поисковых систем.

После добавления в корень сайта становится доступен по адресу: доменное имя.домен/robots.txt.

При очередном обходе боты ПС загружают robots.txt и в соответствии с содержащимися в нём инструкциями выполняют индексацию.

Например, если при последнем обращении к файлу страница или раздел ресурса запрещены для индексации, робот не проиндексирует их.

Изначально ПС исходят из того, что индексировать допустимо всё, что не запрещено. Поэтому владельцу сайта стоит позаботиться о добавлении в robots корректных инструкций, чтобы в поиск не попала информация конфиденциального характера: личные данные пользователей, переписка и прочая.

Задачи robots.txt

Сначала основной задачей файла-инструкции было скрытие личных пользовательских данных от индексации. Но с течением времени метод стал неэффективным, а robots начали использовать с другими целями. Их минимум три.

  1. Скрыть от роботов ПС нежелательные для индекса материалы:

дубли страниц;


служебные файлы;


бесполезные для посетителей файлы;


страницы с неуникальным контентом.

Правильно заполненный robots.txt позволяет показывать поисковикам только качественные, полезные страницы.

Использование этого файла не отменяет необходимости физически избавляться от дублей страниц, работать над уникализацией контента, удалять ссылки на ненужные для пользователей и поиска материалы.

Например, закрытие дублирующихся разделов сайта от индексации — это первый этап, который позволит перенаправить ресурс поискового робота на обход полезных страниц. Следующим действием должно быть изучение возможностей оптимизации и уникализации закрытых страниц для последующего добавления в индекс или удаление ссылок на такие страницы.

  1. Запретить посещение сайта для конкретных роботов ПС или открыть индексацию только для определённых программ.

Например, при необходимости ограничить доступ на сайт роботам-парсерам конкурентов просто прописываем соответствующую команду.

Следует учитывать, что часть ботов-обходчиков и ботов поисковых систем игнорируют robots. В таких случаях дополнительно лучше использовать возможности сервера.

  1. Добавить ссылки на xml-карту сайта.

Это способствует наиболее полной индексации ресурса. Поисковый робот при посещении файла с инструкциями получит ссылку сразу на весь перечень важных страниц.

Как создать robots.txt

Рассказывая, как создать файл robots.txt для сайта, будем говорить не о том, что писать, а о способах создания и правильной настройки.

1. Составить вручную

  1. Создать в текстовом редакторе документ с именем «robots».
  2. Прописать там необходимые директивы.
  3. Сохранить в формате .txt
  4. Загрузить в корневую директорию сайта.

*Для создания подходит любая программа, позволяющая сделать и править файл текстового формата (.txt). Например:

Блокнот


NotePad++


Microsoft Word (сохранить как стандартный текст)


TextEdit (для Macintosh — сохранить как Western)

Плюсы метода

Позволяет качественно и детально прописать содержимое файла.

Минусы метода

Необходимо:

разобраться с правилами построения структуры содержимого и понимать, как должен выглядеть файл;


изучить команды и директивы, что должно быть в инструкции для ботов и что излишне;


самостоятельно проверять и находить нужные категории и страницы для закрытия;


проверять готовый файл на случайную блокировку полезных страниц и корректировать правила.

2. Сгенерировать онлайн

Тем, кто не желает разбираться, как составить robots, советуем пользоваться онлайн-сервисами, позволяющими получить готовый файл после недолгой настройки в веб-интерфейсе.

Пример https://pr-cy.ru/robots/:

генератор файла robots.txt

Другие подобные онлайн-сервисы схожи по функционалу.

Плюсы метода

Скорость получения готового файла.

Минусы метода

Даёт ложное чувство корректности сгенерированной инструкции.


Добавляет ограниченный набор команд без учёта особенностей сайта.


Добавляет устаревшие элементы, не применяемые ПС (Host, Crawl-delay и пр.).


Необходимо самостоятельно проверять и находить категории и страницы для закрытия.


Требуется проверять готовый файл на случайную блокировку полезных страниц и вносить доработки.

По большому счёту, у онлайн-генераторов нет преимуществ перед созданием и наполнением файла вручную. Единственный плюс (скорость) нивелируется временем на доработку и корректировки.

3. Использовать шаблон

Популярные системы управления сайтами формируют robots.txt автоматически. В шаблон добавляются готовые команды, учитывающие специфику применяемой CMS. Для создания и вывода на сайт файла с инструкциями по индексированию надо включить соответствующую настройку на административной панели.

Например, в 1c-bitrix.ru генератор robots.txt — в разделе «Поисковая оптимизация».

шаблон файла robots.txt
После предварительной настройки и нажатия «Сохранить» файл будет опубликован.

Плюсы метода

Быстро.


Удобно.


Нет необходимости добавлять файл в корень сайта вручную.

Минусы метода

Добавляет массу лишних строк (зачастую большинство команд не задействуются).


Требуется проверка сайта и корректировка файла (не всё подлежащее закрытию будет спрятано).

Как правильно настроить robots.txt

Ни один метод формирования robots не освобождает от полноценной проверки сайта на наличие ненужных для индексации страниц, разделов. По сути, независимо от способа создания для корректного построения полезного файла необходимо самостоятельно дорабатывать его содержимое.

Чтобы правильно настроить robots.txt, нужно прописать регламенты индексации, нужно корректно указать значения каждого. В таблице представлены основные директивы, которые следует знать для верной настройки.

ДирективаТип значения
User-agentУказывает поискового бота, для которого актуальны перечисленные далее команды
DisallowУказывает разделы, страницы или типы файлов, которые закрываем от индексации
AllowУказывает разделы, страницы или типы файлов, которые добавляем в исключения к запретам индексации
SitemapУказывает путь к файлу Sitemap.xml
Clean-paramУказывает на параметры, не предусмотренные для индексирования

Далее расскажем подробнее о настройке каждой директивы файла robots.txt.

Выбор User-agent

В это поле ставим имя бота, для которого прописываются правила доступа.

Пример значения — “Yandex”

User-agent: Yandex

Указанные в последующих строчках запреты и разрешения будут актуальны только для Яндекса, распространяться на роботов этой ПС

Если значение User-agent равно '*', то последующие строчки укажут правила доступа по умолчанию для любого робота, который не соответствует прочим значениям в User-agent.

Другими словами, если в robots.txt присутствуют команды для поисковых ботов Яндекса (User-agent: Yandex), а также для всех ботов (User-agent: *), то программы Яндекса будут использовать команды, прописанные в блоке с User-agent: Yandex. Остальные боты будут следовать командам из блока с User-agent: *, поскольку директив специально для этих программ в файле нет.

Для раскрытия логики применения User-agent приведём ещё примеры.

Чтобы закрыть сайт от всех ботов, следует прописать строки:

User-agent: *
Disallow: /

Запрещено всем роботам

Чтобы разрешить всем ботам индексировать все страницы:

User-agent: *
Disallow: 

Разрешено для всех роботов

Аналогичный результат получится, если создать пустой файл или не использовать его.

Чтобы запретить одному роботу индексировать сайт:

User-agent:  Yandex
Disallow:  /

Запрещено роботам Яндекса, остальным разрешено

Чтобы разрешить только одному боту индексировать сайт:

User-agent: *
Disallow: / 

User-agent: Yandex
Disallow: 

Разрешено только роботам Яндекса, остальным запрещено

Директива запрета индексации (Disallow)

В значении директивы Disallow указываем URL, который нельзя посещать роботу.

Адрес может быть прописан полностью (URL страницы в относительной форме — без домена и доменного имени) либо частично (любой URL, начинающийся с указанного значения, не будет индексироваться).

Например,

URL указан полностью:

Disallow: /services/seo-prodvizhenie-sajtov/yandex/

Запрет распространяется на страницу https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/

Указан только раздел:

Disallow: /services/

Запрет распространяется на все страницы раздела /services/*, включая основную https://remarketing.bz/services/ и вложенные, такие как https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/

Для безошибочного заполнения значений директивы Disallow важно иметь весь список страниц сайта. Сверяясь по нему, обезопасим себя от случайного закрытия полезного контента.

Например, если бы на сайте присутствовала страница https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/1/, то командой Disallow: /services/seo-prodvizhenie-sajtov/yandex/ мы также закрыли бы её от индексации.

Пример использования Disallow в совокупности с User-agent:

User-agent: *
Disallow: /services/
Disallow: /about/job/

User-agent: Googlebot
Disallow:

User-agent: Yandex
Disallow: /blog/

Указано, что боты Google могут посещать все страницы сайта, а боты Яндекса — все, кроме находящихся в разделе https://remarketing.bz/blog/*

Остальным роботам недоступны адреса, начинающиеся с "/services/" и /about/job/.

Директива, снимающая запрет индексации (Allow)

В значении директивы Allow указываем URL, который разрешается посещать роботу в обход установленных запретов в Disallow.

Например, исключаем из запрета страницу https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/

Disallow: /services/
Allow: /services/seo-prodvizhenie-sajtov/yandex/

Запрет индексации распространяется на страницы раздела /services/*, за исключением https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/

Аналогичный результат будет, если написать:

Allow: *sajtov/yandex/
Disallow: /services/

В данном случае не указываем полный адрес страницы, но обозначаем обрезанный его кусок знаком “*”

При совместном применении Allow и Disallow, необходимо учитывать:

Указанным в директивах значениям роботы подчиняются не в порядке их следования в файле, а в соответствии с длиной префикса (от самого короткого значения к самому длинному). При одинаковой длине префиксов приоритет — директиве Allow.

Таким образом, в приведённом выше примере сначала робот выполнит команду не индексировать (Disallow: /services/), а затем — индексировать (Allow: *sajtov/yandex/). +В итоге страница https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/ осталась доступна для индексации.

Но если бы указали более короткое значение (Allow: *v/yandex), то робот сначала увидел бы команду, разрешающую индексацию страницы, а затем — запрещающую индексацию всего раздела. -В таком случае страница https://remarketing.bz/services/seo-prodvizhenie-sajtov/yandex/ осталась бы закрыта от индексации.

Межсекционные директивы

Межсекционными называют директивы, для которых неважно место расположения в robots.txt. Их строки можно ставить в любом участке файла.

Директива Sitemap

В значении этой директивы прописываем полный путь к xml-карте ресурса.

Пример:

Sitemap: https://remarketing.bz/sitemap.xml

При наличии нескольких карт указываем каждую:

Sitemap: https://remarketing.bz/sitemap.xml
Sitemap: https://remarketing.bz/images_sitemap.xml

Использование директивы Sitemap обусловлено тем, что это способствует наиболее полноценному и своевременному нахождению новых страниц, изображений, видео и других элементов сайта.

Директива Clean-param

Добавлять директиву Clean-param в файл robots следует при наличии на ресурсе страниц с параметрами в URL.

Примеры адресов:

https://site.ru/catalog/ibm?sort=price (get-параметр sort со значением price)

https://site.ru/catalog/search?q=mega (get-параметр q, со значением mega)

https://site.ru/services/?yadclid=9808&yadordid=1744 (get-параметры yadclid и yadordid со значениями 9808 и 1744)

По сути, наличие таких параметров в адресах страниц приводит к большому количеству дублей. А они нагружают ресурсы роботов ПС. Как следствие, скорость и полнота индексации существенно снижаются, что значит: важные изменения дольше не попадут в результаты поиска.

Для исключения подобных страниц из обхода ПС достаточно прописать в значении директивы Clean-param все найденные параметры.

Например, для приведённого выше списка строчка, исправляющая проблему, будет такой:

Clean-param: sort&q&yadclid&yadordid

Следуя значениям, прописанным в директиве, робот сведёт параметрические адреса страниц к основным:

https://site.ru/catalog/ibm

https://site.ru/catalog/search

https://site.ru/services/

Если в других категориях сайта присутствуют аналогичные параметры, то такие адреса тоже будут обезврежены.

Длина правила в Clean-param — 500 символов. В случае превышения указанного объёма следует добавить дополнительную строчку Clean-param.

Если необходимо избавиться от параметрических URL в конкретных категориях, придётся добавить для каждой свою строчку Clean-param:

Clean-param: sort /catalog/
Clean-param: q /catalog/search
Clean-param: yadclid&yadordid /services/

Указываем параметр(ы), пробел, категория

Для настройки правильного robots также важно знать

Рассказывая, как правильно настроить файл, важно упомянуть, что запрещено применение кириллицы. Поэтому для указания имён доменов необходимо задействовать Punycode. А адреса страниц следует указывать в соответствии с типом кодировки сайта.

Примеры файла robots.txt:

Неверно:

User-agent: Yandex
Disallow: /личный-кабинет/
Sitemap: https://сайт.рф/sitemap.xml

Верно:

User-agent: Yandex
Disallow: /%d0%bb%d0%b8%d1%87%d0%bd%d1%8b%d0%b9-%d0%ba%d0%b0%d0%b1%d0%b8%d0%bd%d0%b5%d1%82/
Sitemap: https://xn--80aswg.xn--p1ai/sitemap.xml

Особенности использования и создания robots.txt

Используя robots.txt, необходимо учитывать два важных момента.

  1. Роботы могут игнорировать файл.

В частности, не обратят внимания на команды вредоносные программы, которые сканируют интернет на наличие уязвимостей в системе безопасности, а также сборщики адресов электронной почты, применяемые спамерами.

  1. Файл — общедоступный.

Любой может увидеть, какие разделы и страницы владелец сайта не хочет показывать ботам.

При создании файла необходимо учесть ряд стандартов:

Правильное название — «robots.txt».


На сайте допустимо размещать только один файл этого типа.


Файл нужно поместить в корневой каталог ресурса. Например, на https://site.com/ его следует расположить по адресу https://site.com/robots.txt, а на поддомене https://shop.site.com/ — по адресу https://shop.site.com/robots.txt


Действие robots.txt актуально в пределах протокола, хоста, порта, где размещён файл. Иными словами, регламент по адресу https://site.com/robots.txt распространяется на файлы, относящиеся к домену https://site.com/, но не к поддомену типа https://shop.site.com либо другим протоколам типа http://site.com/ и пр.


Файл должен быть текстовым документом в кодировке UTF-8 (она включает коды символов ASCII). Google может игнорировать символы, не соответствующие UTF-8, и в итоге обработает не все имеющиеся в файле правила.

Как проверить корректность настройки robots.txt

Яндекс.Вебмастер

Инструмент «Анализ robots.txt» из сервиса Яндекс.Вебмастер позволяет:

проверить, нет ли в файле ошибок;


виртуально тестировать желаемые изменения в файле до внесения правок.

Для перехода к инструменту доступна ссылка.

В поле «Проверяемый сайт» следует указать адрес целевого ресурса и нажать значок «Загрузить».

анализ файла robots.txt

Содержимое файла и данные проверки отобразятся ниже (в поле «Результаты анализа robots.txt») — сервис покажет ошибки и предупреждения при наличии таковых.

В окне с содержимым файла можно изменить данные и, нажав кнопку «Проверить», получить обновлённый вариант. Такие исправления не вносятся автоматически в robots.txt на сайте.

После корректировки получившееся содержимое файла следует скопировать и загрузить на ресурс.

Тестирование правок

При составлении файла наиболее полезным может оказаться раздел «Разрешены ли URL». Окно ввода для тестируемых адресов находится сразу после итогов анализа robots.txt.

проверка возможности индексации

После добавления адресов страниц (вставляем список URL) и нажатия кнопки «Проверить» (не путать с кнопкой в поле содержимого robots) открывается информация о том, будет ли доступна страница для индексации с текущими настройками robots.txt либо нет.

После внесения изменений в поле с содержимым robots.txt необходимо фиксировать их нажатием кнопки «Проверить». Только после этого проверка разрешённых URL пройдёт по обновлённым данным.

Ошибки и предупреждения

Приведём примеры ошибок и предупреждений, обнаруживаемых инструментом проверки при анализе файла robots.txt.

ОшибкаПодсказка
Правило начинается не символом / или *Значение правила следует писать только с символа / либо *
Найдены правила вида User-agent: *Недопустимо дублировать значения в директиве User-agent
Превышен рекомендованный размер robots.txtКоличество строк в файле должно быть не более 2 048
Перед правилом нет директивы User-agentСтрочка с User-agent отсутствует или находится ниже других немежсекционных директив
Слишком длинное правилоДлина правила превышает 1 024 символа
Некорректный формат URL для файла SitemapАдрес Sitemap следует указать полностью, включая протокол
Некорректный формат Clean-paramФормат значения Clean-param должен быть следующим: параметр, пробел, категория

Google Search Console

В отличие от Яндекса, инструмент от Google не позволяет проверить корректность robots сайта, не добавленного в сервис Google Search Console. Когда ресурс добавлен в GSC, процедура проверки сводится к следующему:

переходим по адресу https://www.google.com/webmasters/tools/robots-testing-tool;


выбираем сайт;


получаем сервис тестирования и подготовки содержимого robots.txt.

проверка корректности robots.txt

Второе неудобство сервиса от Google — возможность проверки URL только по одному адресу за раз.

Вся соль

Грамотно настроить файл robots.txt поможет инструкция:

  1. Загружаем в таблицу список страниц и ресурсов сайта (любым доступным способом).
  2. Выявляем список всех не закрытых, но нежеланных для индексации страниц.
  3. Среди закрытых от индексации страниц проверяем наличие важных и нужных в индексе.
  4. Переходим по ссылке https://webmaster.yandex.ru/tools/robotstxt/
  5. Указываем сайт.
  6. Редактируем загруженное текущее содержимое robots.txt так, чтобы открыть для индекса все качественные страницы и закрыть все некачественные (перепроверяем в поле «Разрешены ли URL»).
  7. Копируем получившееся содержимое robots и обновляем на сайте.

Правильный файл robots.txt настолько важен, что его создание и настройка становятся задачами для специалистов, а не для владельцев бизнеса. Профессионалы выполнят работу в комплексе с другими мероприятиями по технической оптимизации сайта, не допустив ошибок и учитывая все нюансы.

Пожалуйста, поверните телефон