Файл robots.txt интернет магазина предназначен для управления поведением поисковиков при сканировании сайта. Как составить файл robots.txt интернет магазина разберем в этой статье.
Вступление
Каждый администратор может и должен управлять индексированием страниц интернет магазина. Помогает в этом специальный файл, к которому обращаются поисковики перед индексированием. Называется это файл robots.txt. Создается этот файл вручную, собственником (администратором) онлайн-магазина. Для написания этого файла есть специальные правила, которые запрещают или разрешают поисковикам не индексировать определенные разделы магазина. Как составить файл robots.txt интернет магазина разберем в этой статье.
Зачем нужен файл robots.txt интернет магазина
Файл robots.txt Интернет магазина предназначен для прямого указания поисковикам, что индексировать на сайте, а что нет. Нужно это, прежде всего, для скрытия конфиденциальной информации и «борьбы» с дублями контента.
Работает robots.txt достаточно просто. Поисковый робот начинает сессию с поиска файла robots.txt. Если робот «не видит» текстовой файл robots.txt, то считает, что может индексировать все документы сайта. Если поисковик видит robots.txt, то читает его и определяет, какие страницы не нужно индексировать.

Правила составления robots.txt
Начинают роботы, чтение файла с поиска директив User-agent:. Эта директива показывает, к какому поисковику обращены следующие за ней правила. Так директива: User-agent:* обращается ко всем поисковикам Интернет. Можно написать отдельные правила для любого робота поисковика. Для рунета актуальна работа поисковика Яндекс. Он начинает чтение robots.txt с поиска директивы: User-agent: Yandex или User-agent: yandex. Если он их не находит или видит обращение ко всем поисковикам в виде: User-agent:*, то считает открытыми все документы сайта для индексации.
- Для закрытия разделов и отдельных страниц интернет магазина предназначена директива: Disallow.
- Для открытия разделов и отдельных страниц интернет магазина предназначена директива: Allow.
Синтаксис директив Disallow и Allow
Синтаксис директивы Disallow очень прост. В отдельной строке пишется директива Disallow с двоеточием. После двоеточия пишется относительный адрес раздела, который нужно закрыть. Например, если нужно закрыть весь магазин запрет выглядит так:
Disallow: /
То есть, мы закрываем для индексации весь корневой каталог магазина.
Disallow: /tag/
Мы закрываем от индексации все страницы с тегами сайта. Если ставим слеш в конце адреса, то мы закрываем все страницы сайта, адреса, которых начинаются с /tag.
Директива Allow антипод, Disallow, она разрешает индексирование отдельных разделов и страниц. Например:
Disallow: / (закрываем весь сайт) Allow: /tag/ (открываем страницы с тегами).
По этим директивам, поисковик будет индексировать, только страницы с тегами сайта.
Как закрыть отдельные группы URL
Чтобы закрыть URL включающие отдельные знаки или слово, например знак вопроса, используется следующая команда:
Disallow: /index.php?* (закрываем все URL начинающие с index.php?) Disallow: /?* (закрываем все URL со знаком вопроса) Disallow: *.aspx (закрываем все URL с расширением .aspx)
Что рекомендовано закрывать для поисковиков в Интернет магазине
Еще раз напомню, вы составляете файл robots.txt самостоятельно. Хотя некоторые CMS могут создавать robots.txt в автоматическом режиме, вам самостоятельно нужно отредактировать его под свои цели. В теории оптимизации рекомендовано закрывать от индексирования следующие разделы и страницы:
- Страницы с результатами поиска (чтобы избежать дубли страниц);
- Страницы меток и тегов;
- Страницы сортировок товаров;
- Страницы фильтров товаров;
- Страницы корзины;
- Страницы оформления заказов;
- Страницы личных кабинетов;
- Страницы входа;
- Страницы регистрации
То есть, закрываем от индексации все, кроме основных страниц с товарами, несущих основную информационную нагрузку. Так же следим за дублями страниц и закрываем от индексации возможные дубли.
К сожалению, в рамках одной статьи нельзя привести все варианты файла robots.txt, для всех платформ интернет магазинов, их слишком много и каждая платформа по-своему формирует URL адреса страниц. Для примера покажу, что рекомендует закрывать платформа Интернет магазина Shop-Script.
Директивы Host и Sitemap
Для поисковика Яндекс рекомендовано добавлять директивы Host и Sitemap. Host показывает поисковику основное зеркало магазина (без WWW или с WWW). Sitemap показывает поисковику адрес, где лежит файл Sitemap магазина. Читаются эти директивы в любом месте файла, но обычно их пишут в конце файла robots, после списка правил для User-agent: или User-agent: Yandex. Например:
User-Agent: Yandex Disallow: Host: <a href="http://www.ваш-домен.ru">www.ваш-домен.ru</a> Sitemap: <a href="http://www.ваш-домен.ru/sitemap.xml">www.ваш-домен.ru/sitemap.xml</a>
Куда загружается файл robots.txt
После составления файла robots, его нужно загрузить в корневую директорию магазина.
Полезные ссылки
Как составить правила для индексации Яндекс, есть подробная инструкция в инструментах для веб – мастера Яндекс: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml.
©Shopiweb.ru
Другие статьи разделов: Оптимизация и раскрутка Интернет магазина
- Самостоятельный SEO аудит Интернет магазина
- Практическая оптимизация Интернет магазина
- Раскрутить Интернет магазин с нуля
- Поиск дублей страниц Интернет магазина
- Анализ основных конкурентов Интернет магазина
- SEO Интернет магазина
- Особенности оптимизации Интернет магазина
- Способы продвижения интернет магазина
- Продвижение интернет магазина в поисковых системах
- Семантическое ядро Интернет магазина
Вот в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress я как раз подробно описал то, что если открыть uploads для всех ботов, то в индексе появляются загруженные PDF и прочие текстовые файлы. А в яндекс вебмастере, в отчете «Исключенные страницы» появляются сообщения об ошибке при индексировании картинок, мол содержимое не поддерживается. Прежде чем писать и давать советы, сообщения GSC и ЯВебмастера пробовали анализировать?