
Исторически сложилось так, что главным способом указать параметры для индексации сайта с помощью поисковых систем стал обычный текстовый файл robots.txt, размещаемый в корне веб-проекта. Именно на него ориентируются все поисковые боты, формирующие выдачу в Google, Yandex и в других системах. Поскольку этот файл заполняется по определённым правилам, очень важно знать все их «подводные камни». Небрежное отношение к его содержимому может стать причиной отсутствия в поиске или наоборот стать источником утечки конфиденциальной информации.
Зачем нужен robots.txt?
Структура любого сайта напоминает дерево папок на локальном компьютере, в которых хранятся отдельные файлы. Записи в файле robots.txt являются ничем иным, как директивами для поисковых ботов. С помощью специального синтаксиса им можно разрешать или запрещать доступ к отдельным частям вашего веб-проекта.
Поведение поискового бота на сайте
Типичный поисковый бот нацелен на обнаружение нового и уникального контента, который он индексирует, чтобы передать своей системе. Главное правило поискового робота — слушаться команд из robots.txt. Оказываясь на вашем сайте, он первым делом считывает информацию оттуда, а затем заглядывает только в те разделы, доступ к которым не был ограничен.
Рассмотрим ситуацию, когда этот файл отсутствует или является пустым. В этом случае бот начинает исследовать все уголки сайта, включая корневую директорию. Поскольку чаще всего именно там хранятся настройки вашего проекта, то они очень скоро могут стать достоянием всех пользователей интернета. Чтобы этого избежать, нужно проследить за тем, чтобы в файле с директивами содержались правильные записи.
Как создать и куда поместить robots.txt?

Поскольку файл с директивами является самым простым текстовым файлом, то для его создания подойдёт любой редактор. Важно лишь при сохранении дать ему правильное название, то есть «robots.txt». Каждая команда внутри представляет собой отдельную строку.
Готовый файл следует разместить в корневой директории сайта. Только в этом случае есть гарантия того, что он будет замечен и прочитан ботом. Если случайно перенести файл в другую папку, то поисковый механизм его просто не увидит, то есть останется бесконтрольным.
После чтения инструкций послушный бот заглянет только в те разделы, в которые ему разрешили доступ и проигнорирует все остальные.
Структура robots.txt
Файл с директивами состоит из отдельных блоков, о предназначении каждого из которых мы расскажем ниже.
Поскольку у каждого поисковика по сети путешествуют свои боты, иногда хорошей идеей является задать для каждого из них отдельные инструкции. Делается это с помощью директивы User-agent.
Чтобы инструкциям из файла следовали абсолютно все поисковики, достаточно указать строку «User-agent: *». Из-за большого количества ботов сложно создать файл, учитывающий их все. На практике чаще всего раздельные правила индексирования требуется в явном виде разместить лишь для Google и Yandex.
Запрет на посещение определённых разделов сайта устанавливается с помощью команды Disallow. Обратной ей является директива Allow, которая наоборот открытым текстом даёт понять, что соответствующий раздел доступен для индексирования.
Для того, чтобы задать название главного хоста проекта, используйте команду Host.
Размещение карты сайта в формате xlm очень важно для полного и качественного индексирования сайта в поисковых системах. Указать его место положение можно с помощью ключевого слова Sitemap.
Полезно: лучший плагин для защиты от спама
Настраиваем robots.txt правильно

Прежде, чем мы расскажем о правильных настройках robots, необходимо ясно понимать, что главным для поисковых механизмов является полезная информация, которая будет востребована потенциальными посетителями вашего сайта. Если бот будет индексировать служебный контент, то пользы от его работы для вас нет. Даже наоборот — в открытый доступ могут попасть данные для доступа к сайту и его базе данных, чему очень порадуются злоумышленники.
В корне любого сайта на WP располагается внушительное количество папок, содержимое которых лучше всего никому не показывать. Для этого явно запретим к ним доступ. Пример ниже.
Disallow: /wp- # Блокируем доступ к папкам, которые начинаются на wp- и содержат основные файлы для администрирования
Disallow: */trackback
Disallow: /*?* # Эта команда устанавливает запрет на индексирование всех ссылок, то есть защищает от дублирования
Disallow: /?s=*
Disallow: */author # Запрет на доступ к авторской папке
Disallow: /2021
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Allow: *.js # Разрешаем индексировать скрипты
Allow: *.css # Разрешаем индексировать стили
Host: project.ru # Здесь указываем главное зеркало сайта
Sitemap: http://project.ru/sitemap.xml # Указываем местоположение карты сайта
Если структура вашего сайта отличается от стандартной, то вышеприведённая последовательность команд может выглядеть иначе.
Как ещё можно улучшить robots?
Даже использование примера выше не гарантирует полного контроля за действиями поисковых машин. В отдельных случаях ссылки на чувствительные разделы всё равно могут появиться в выдаче, но уже без содержимого. В этом нет угрозы безопасности сайту, однако не помешало бы убрать и эти следы.
Здесь мы подошли к моменту, когда не получится дать универсальной рекомендации, которая подойдёт для всех поисковиков.
В случае с Google достаточно воспользоваться набором фирменных инструментов для администраторов сайтов — Google Webmaster Tools. Чтобы запретить индексацию всех ссылок, оканчивающихся на feed, добавьте необходимые параметры в панели и сохраните настройки. Кстати, в случае с Yandex повторять аналогичные настройки не рекомендуется.

Дополнительным методом оптимизации является запрет на индексацию пагинации. Легче всего этого добиться с помощью популярного плагина All in One SEO. Достаточно в его настройках активировать канонические ссылки, после чего включить запрет на их панагацию. Это позволит поисковым ботам без ошибок определять основное содержимое сайта, не отвлекаясь на дубликаты. Дополнительно здесь рекомендуется включить noindex для всех архивов, страницы поиска, 404-ой страницы, а также для страниц и записей с панагацией. Чтобы завершить настройку, также отметьте флажком использование nofollow для страниц с панагацией.
Если для оформления сайта вы используете тему, то откройте поисковикам доступ к её картинкам. Если этого не сделать, вы рискуете столкнуться с исчезновением нужной информации из поисковой выдачи.
Другими методами улучшения качества индексации является оптимизация меток и рубрик. Дело в том, что рубрикация приводит к двоению контента, что дезориентирует поисковики. Следует обратить внимание, что простой запрет на индексацию в данном случае является лишь одной из стратегий. Альтернативным вариантом будет внесение небольших изменений в код, что позволит рубрикам обрести уникальность. Если всё сделать правильно, то вы получите больше посетителей.
Завершая настройку robots, не забудьте про команду Host. Если явно не указать основное зеркало, то внимание бота будет отвлечено на дублирующие страницы, а вы потеряете часть своих пользователей.
Настройка robots для 2 поисковиков
В случаях, когда требуется указать раздельные инструкции для различных поисковиков, очень важно соблюсти их порядок. Лучшим решением будет сначала прописать инструкции Allow и Disallow для всех поисковиков, а затем отдельный блок посвятить конкретному. Пример структуры роботс для этого случая приведён ниже.
User-agent: *
Disallow: /feed
…
User-agent: Yahoo
Disallow: /feed
…
Host: myproject.ru
Sitemap: http://myproject.ru/sitemap.xml
Заключение
Очевидно, что редактирование файла с инструкциями для ботов поисковых систем не следует откладывать на потом. Сделайте это сразу после того, как будет определена структура сайта. Прежде всего стоит обеспокоиться тем, чтобы скрыть от посторонних глаз важную информацию, влияющую на безопасность ресурса. Далее важно указать ботам на наиболее привлекательные с точки зрения контента части вашего проекта. Это даст ему возможность присутствовать в поисковой выдаче на высоких позициях и получать органический трафик. В случае крупных изменений в структуре сайта, каждый раз заново просматривайте файл. При необходимости вносите в него правки.