Создаем robots.txt для сайта

Содержание:

Новички часто недооценивают истинную функцию файла robots.txt и не интересуются его назначением, за что платятся плохим продвижением своего ресурса.

Информация в Интернете разрозненная, многие новички теряются в море данных.

В статье собрана и структурирована только необходимая информация. Отталкиваясь от нее, вы сможете понять, как грамотно написать файл.

Что такое robots.txt

Он является простым текстовым файлом, служащим рекомендательным документом для поисковых систем.

По нему поисковики узнают информацию о том, какие страницы сайта необходимо индексировать, а какие нет. Они могут проиндексировать страницы и без robots.txt, но тогда поисковик отображает их некорректно и не рекомендует к просмотру.

Поисковые роботы считают страницы, где отсутствует robots.txt, «поисковым мусором». Это же относится к страницам, имеющим robots, но не несущим в себе информационной нагрузки.

В robots.txt разрешается ставить 3 вида команд для индексирующих роботов:

  1. Сканирование запрещено.
  2. Сканирование разрешено.
  3. Сканирование разрешено частично.

Команды прописываются с применением директив.

Важна ли настройка robots.txt

Создаем robots.txt для сайта

Если написать robots.txt без указаний всей необходимой информации, то это не критично. Например, если закрыть изображение или оставить открытым какой-то каталог.

Почему так происходит:

  • поисковики имеют нейронные сети, позволяющие игнорировать подобные упущения и мелкие недочеты;
  • Избегание ошибок во время заполнения файла. Об ошибках будет написано ниже.

Некоторые программисты делают файлы robots, где находится 6–7 строк, которые запрещают индексировать 2 каталога. При этом сайт нормально продвигается в поисковой выдаче Google и Yandex.

В системе WordPress есть такое понятие, как дубли. Они плохо влияют на продвижение. Программисты борются с ними процедурой закрытия дублей. Она делается так:

Создаем robots.txt для сайта

Подобная пропись не дает 100%-й эффективной защиты от дублей, тем не менее хоть как-то помогает в решении проблемы. Некоторые дубли все равно индексируются поисковыми роботами и делают некорректное отображение страницы.

Борьба с индексированными дублями делается с помощью плагинов и редиректов. Они уничтожают дубли. Подобных средств достаточно много, и, введя в поисковике «плагины и редиректы для уничтожения дублей», можно получить сайты с необходимым софтом.

Где находится файл robots.txt

Он находится в главной папке сайта. Найти файл можно через строку ввода URL, в нее вводится адрес сайта и через слеш пишется robots.txt.

Если при вводе браузер не выдает данные по файлу robots.txt, то проверьте правильность ввода. Иногда происходит путаница из-за одной буквы и вместо robots пишут robot, что неверно.

Когда даже после таких манипуляций файл не видно, то нужно удостовериться, точно ли robots.txt находится в главной папке. Вполне возможно, что он находится в другой папке.

Пример успешного ввода необходимых данных в браузерную строку:

Создаем robots.txt для сайта

Метод создания правильного файла robots.txt

В Интернете имеются разные способы создания файлов. Они делятся на 2 вида:

  • самостоятельное создание;
  • создание с помощью специальных программ.

Есть еще категория людей, которые предлагают за определенную сумму создать файл.

Мы будем использовать для создания специальный интернет-сервис. Этот способ актуальный на момент 2020 года и оптимально подходит новичкам.

Создание robots.txt займет не более 30 минут.

Мы рассмотрим этот процесс в сервисе CY-PR.com. Мы сразу увидим страницу генератора robots.txt, как будет показано ниже на картинке:

Создаем robots.txt для сайта

В «основной домен сайта» пишем адрес своего сайта. Указываем, для каких поисковиков задаем поисковые правила, а для каких запрещаем.

Также необходимо указать путь к sitemap.xml. Если вы не знаете, что это, то поищите на сайте в блоге статью об этом. Она была написана ранее.

После указания необходимых данных пишем «создать». Далее сервис все сгенерирует самостоятельно.

Мы не будем рассматривать ручной способ создания. Материалов на эту тему в Сети предостаточно, да и новичку будет тяжело создать карту своими руками. Как примером, лучше пока ограничиться автоматизированным созданием файла.

Распространенные ошибки во время заполнения файла robots.txt

Скорее всего, вы попытаетесь создать файл самостоятельно. Это похвально, но, допуская ошибки, вы не сможете составить нормальный robots.txt.

Мы рассмотрим распространенные ошибки, грозящие некорректной работой robots.txt:

  1. Отсутствие файла в корневой папке ресурса.Часто программисты допускают упущение, когда robots лежит не в корневой папке, а в какой-то другой. Это не дает поисковым роботам быстро индексировать сайт и добавлять его страницы в поисковую выдачу.
  2. Лишние перечисления в одной инструкции.Нельзя перечислять несколько директорий или папок в одной инструкции. То есть нельзя, чтобы инструкция имела такой вид:

Allow: /catalog /uslugi /shop

В подобной ситуации поисковому роботу сложно понять, нужно индексировать. Каждая инструкция начинается с новой строки. Запрет или разрешение индексации также пишутся с новой строки.

  1. Разные регистры.Название файла всегда пишется с маленькой буквы и написано тоже мелкими буквами. В инструкциях пишется точно так же, каждая из них с большой буквы, остальное с маленькой.
  2. Незаполненный User-agent.Указываем поисковики, для которых идет набор правил. Если для всех поисковиков, то пишем *. Ни в коем случае не оставляем User-agent незаполненным.
  3. Ресурс закрыт для индексации. Убираем слеш после Disallow.
  4. Лишние *, пробелы и другие знаки.Убираем лишние знаки.

Это основные ошибки. Исключите их, и файл robots.txt будет работать корректно.

Вопросы – Ответы

Ответим на популярные вопросы программистов.

Обязательно ли должен быть размещен файл robots.txt в корневой папке сайта?

Да. Он должен находиться только в корневой папке.

Метатег robots является заменой robots.txt?

Нет, это разные вещи. Файл robots.txt управляет доступностью страниц, а метатег robots указывает, нужно ли индексировать страницу.

Метатег robots может запрещать сканирование?

Нет. Метатег не может делать подобный запрет.

Заключение

Мы узнали об основных моментах, которые связаны с файлом robots.txt. Еще раз вспомним то, что мы рассмотрели в статье:

  • что такое robots.txt;
  • важна ли настройка файла;
  • где он находится;
  • как создать robots.txt;
  • популярные ошибки во время заполнения robots.txt;
  • ответили на популярные вопросы.

Используйте информацию из статьи и создавайте нормально работающий файл robots.txt.

Если вам интересно не только создать файл robots, но и научиться программировать, то записывайтесь на один из курсов.

Вы научитесь не просто программированию, но и работе с кодом любой сложности.

Занятия ведут опытные преподаватели, которые работают в крупных компаниях. Они научат вас не только академическому программированию, но и разным фишкам, которые помогут сэкономить время на написании программ.

По окончании курса вы получите сертификат. Он котируется в компаниях как диплом. У вас не возникнет проблем с поиском работы.

Записывайтесь на курсы и становитесь профессионалом.

Присоединяйся к DevEducation — стань востребованным специалистом и построй карьеру в IT!