Что такое robots.txt и зачем он нужен вашему бизнесу
Файл robots.txt — это своеобразная «инструкция» для поисковых роботов, которая говорит им, какие страницы вашего сайта можно индексировать, а какие — нет.
Для чего нужен файл robots txt:
- защита конфиденциальности: скрывает личные кабинеты клиентов, админ-панели, внутренние документы;
- улучшение позиций: помогает поисковикам сосредоточиться на важных страницах;
- экономия бюджета сканирования: поисковые роботы тратят время только на нужные страницы;
- предотвращение дублей: исключает из индекса повторяющийся контент.
Основные директивы robots.txt: говорим с роботами на их языке
Чтобы эффективно управлять индексацией сайта, важно понимать, из чего состоит содержимое файла robots txt. Он формируется с помощью специальных директив — команд, которые объясняют поисковым роботам, какие разделы сайта можно сканировать, а какие стоит игнорировать.
User-agent — указываем, кому адресована инструкция
User-agent: Yandex # только для роботов Яндекса
User-agent: Googlebot # только для роботов Google
User-agent: * # для всех поисковых роботов
В файле можно также писать комментарии после символа # — они видны только людям и игнорируются поисковыми роботами.
Disallow — запрещаем доступ
Disallow: /admin/ # закрываем админ-панель
Disallow: /personal/ # закрываем личные кабинеты
Disallow: /*?print=1 # закрываем версии для печати
Disallow: /*.pdf$ # закрываем PDF-файлы
Allow — разрешаем доступ (исключения из запретов)
Disallow: /system/ # закрываем системную папку
Allow: /system/images/ # но разрешаем доступ к картинкам
Sitemap — указываем карту сайта
Sitemap: https://ваш-сайт.ru/sitemap.xml
То есть, в файле robots txt сначала задаются правила для роботов (User-agent), затем прописываются запреты (Disallow) и исключения (Allow). В конце часто указывается карта сайта (Sitemap), чтобы поисковые системы быстрее находили все нужные страницы.
Пошаговая настройка robots.txt в Яндекс Вебмастере
Чтобы настроить индексацию сайта через robots.txt, не обязательно разбираться во всех тонкостях кода. Яндекс Вебмастер предоставляет удобные инструменты для пошаговой настройки.
Подключение сайта к Яндекс Вебмастеру
- Перейдите на webmaster.yandex.ru
- Нажмите «Добавить сайт» и введите адрес вашего ресурса
- Подтвердите права на сайт любым удобным способом
Более подробно этот процесс описан в нашей статье: «Как в Яндекс Вебмастере ускорить индексацию сайта»
Создание и проверка robots.txt
После подключения сайта можно перейти к работе с файлом. В левом меню выберите «Инструменты» → «Анализ robots.txt».
Загрузите существующий документ или создайте новый. Если вы не знаете, с чего начать, посмотрите пример файла robots txt, который мы приведем в статье ниже. После внесения изменений нажмите кнопку «Проверить».
Тестирование настроек
Чтобы убедиться, что все работает правильно, внизу страницы используйте раздел:
- Введите адреса страниц, которые должны индексироваться.
- Проверьте, что ключевые разделы сайта доступны для поиска.
- Убедитесь, что служебные страницы (корзина, админ-панель, личные кабинеты) надежно закрыты.
Если проверка прошла успешно, значит файл настроен корректно и можно переходить к следующему этапу. Такой тест помогает избежать ошибок ещё до того, как они попадут в поисковую выдачу.
Базовый шаблон robots.txt для бизнес-сайта
Вот универсальный шаблон, который подходит большинству коммерческих сайтов:
# Для роботов Яндекса
User-agent: Yandex
Disallow: /admin/
Disallow: /personal/
Disallow: /cart/
Disallow: /order/
Disallow: /*?print=
Disallow: /*utm_
Disallow: /*.pdf$
Allow: /*/css/
Allow: /*/js/
Allow: /*/images/
Clean-param: utm_source&utm_medium&utm_campaign&gclid&yclid # Эта директива говорит Яндексу игнорировать эти параметры в URL
# Для роботов Google
User-agent: Googlebot
Disallow: /admin/
Disallow: /personal/
Disallow: /cart/
Disallow: /order/
Disallow: /*?print=
Allow: /*.css
Allow: /*.js
# Для всех остальных роботов
User-agent: *
Disallow: /admin/
Disallow: /personal/
Disallow: /*utm_
Disallow: /*.pdf$
# Карта сайта
Sitemap: https://ваш-сайт.ru/sitemap.xml
Такой шаблон можно использовать как основу, постепенно адаптируя его под особенности конкретного проекта. Если вы только начинаете и думаете, как создать файл robots txt для сайта, — начните именно с этого примера, а затем добавляйте или убирайте директивы в зависимости от структуры страниц.
Далее разберем, какие разделы обязательно стоит закрыть от индексации, чтобы защитить бизнес и избежать ошибок.
Что обязательно закрыть от индексации
Грамотная индексация страниц и настройка файла robots.txt помогают защитить бизнес и избежать появления в поиске страниц, которые не предназначены для клиентов.
Для защиты бизнеса закройте:
- административные разделы (/admin/, /wp-admin/);
- личные кабинеты клиентов (/personal/, /account/);
- процесс оформления заказов (/cart/, /checkout/);
- служебные файлы и документы (*.pdf, *.doc, *.xls).
Для SEO-оптимизации исключите:
- страницы с GET-параметрами (/*?sort=, /*?filter=);
- UTM-метки (/*utm_, /*gclid=);
- дублированный контент;
- версии для печати (/*?print=).
Такая настройка позволяет поисковикам сосредоточиться на действительно важных разделах сайта, а пользователи будут видеть в выдаче только полезные страницы.
Частые ошибки и как их избежать
Чтобы файл robots.txt действительно помогал, а не мешал сайту, важно знать типичные ошибки. Рассмотрим самые распространенные.
Ошибка №1: полное закрытие сайта
# НЕПРАВИЛЬНО
User-agent: *
Disallow: /
Такая настройка блокирует весь сайт. В результате вы полностью потеряете органический трафик, а клиенты не смогут найти ваши страницы через поиск.
Как правильно:
Закрывайте только служебные разделы, оставляя основные страницы доступными для индексации.
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /personal/
Ошибка №2: закрытие важных ресурсов
Некоторые владельцы по ошибке закрывают от индексации служебные файлы, которые на самом деле нужны для корректной работы сайта. Например, запрет CSS и JS:
# НЕПРАВИЛЬНО
User-agent: *
Disallow: /css/
Disallow: /js/
В итоге поисковики не могут корректно проанализировать внешний вид и функционал сайта.
Как правильно:
Разрешите доступ к стилям и скриптам.
User-agent: *
Allow: /*.css
Allow: /*.js
Ошибка №3: игнорирование мобильной версии
Эта ошибка встречается всё чаще. Владельцы не проверяют, как сайт выглядит для мобильных пользователей. В результате роботы видят страницу «обрезанной» или с ошибками отображения.
Чтобы избежать этого, используйте инструмент Google для мобильных устройств — он покажет, какие файлы необходимо оставить открытыми.
Ошибка №4: опечатки в директивах
Disalow: /admin/ # неправильно (пропущена одна буква «L» в слове «Disallow»)
Disallow: /admin/ # правильно"
Проверка и мониторинг результатов
В Яндекс Вебмастере удобно отслеживать результаты работы с robots.txt:
- «Индексирование» → «Страницы в поиске» — показывает количество проиндексированных страниц;
- «Оптимизация сайта» → «Диагностика сайта» — в списке критичных ошибок можно обнаружить проблемы с доступностью;
- «Инструменты» → «Анализ robots.txt» — помогает проверить правильность файла и найти ошибки.
Если количество страниц в индексе резко сократилось, это сигнал, что в robots.txt могла появиться лишняя директива. В таком случае откройте файл, перепроверьте настройки и снова протестируйте их через Вебмастер.
Ключевые показатели успеха:
- уменьшение дублированных страниц в индексе;
- рост позиций целевых страниц;
- увеличение органического трафика;
- отсутствие служебных страниц в выдаче.
Если вы видите эти результаты в Яндекс Вебмастере и статистике посещаемости, значит файл работает правильно. Важно продолжать мониторинг и при необходимости корректировать настройки, чтобы поддерживать стабильный рост сайта в поиске.
Когда обновлять robots.txt
Файл robots.txt не относится к разовым настройкам — его важно пересматривать каждый раз, когда на сайте происходят изменения.
Обязательно обновляйте файл в следующих случаях:
- Запуск новых разделов сайта. Например, вы добавили каталог «Акции» или «Блог» — убедитесь, что эти страницы разрешены для индексации.
- Изменение структуры URL. Если адреса страниц изменились (например, с /product/ на /catalog/), старые правила могут работать неправильно.
- Добавление UTM-параметров в рекламу. Чтобы избежать дублей страниц в поиске, такие параметры стоит закрыть.
- Появление новых служебных страниц. Допустим, вы добавили форму обратной связи или новый «Личный кабинет» — их нужно скрыть от индексации.
- Смена платформы или CMS. При переезде сайта часто меняется структура папок и адресов — старый robots.txt уже не подходит.
Регулярная проверка и корректировка файла позволит поддерживать сайт в актуальном состоянии и защитить позиции в поиске.
Для владельцев сайтов на платформе Мегагрупп
Если ваш сайт создан на платформе Мегагрупп, процесс настройки robots.txt максимально упрощен:
- Файл robots.txt формируется автоматически — по умолчанию он создается на основе структуры сайта по стандартному шаблону.
- Автоматическое обновление раз в сутки. Система сама проверяет изменения в структуре сайта и обновляет файл на основе разницы с предыдущей версией. Это снижает риск ошибок и экономит время владельца.
Подробная инструкция по управлению файлом доступна по ссылке: help.megagroup.ru/upravlenie-robots.txt
Имея 28 лет опыта в разработке и продвижении сайтов, мы рекомендуем дополнительно использовать проверку robots.txt в Яндекс Вебмастере и Google Search Console для контроля результатов.
Преимущества автоматической настройки:
- экономия времени владельца бизнеса;
- снижение риска технических ошибок;
- автоматическая адаптация под изменения структуры сайта;
- больше времени на развитие бизнеса вместо технической рутины.
Правильно настроенный robots.txt — это инвестиция в долгосрочный успех вашего онлайн-бизнеса. Потратив время на его настройку и мониторинг, вы получите больше целевого трафика и защитите конфиденциальную информацию от попадания в поисковую выдачу.
