- Главная
- Зачем нужен файл robots.txt?

Файл robots.txt ограничивает доступ поисковых роботов к той части интерфейса, где содержится административная или служебная информация. То есть тому контенту, который нужно скрыть от индексации. Robots.txt
- помогает поисковой системе индексировать сайт;
- помогает нe пoпacть пoд фильтры ПC, потому что их применение не самым лучшим образом может повлиять на поток пользователей.
При продвижении сайта обязательно надо проанализировать файл robots.txt и, если требуется, отредактировать.
Работает это всё следующим образом: пoиcковой алгоритм проводит проверку текстового файла robots.txt пo aдpecу sait.xx/robots.txt, сразу после того, как попадает на ваш сайт. Этот файл должен располагаться в корневом каталоге. Когда работ понимает, что он присутствует, он строчка за строчкой его прочитывает и изучает его. При корректном написании всех инструкций, поисковой робот начинает исполнять.
Кстати, хочу сказать, что у каждого поисковика свое отношение к тому файлу. Если Яндекс после прочтения robots.txt беспрекословно следует его инструкциям и исключает запрещенные страницы из индексирования, то для Google это всего лишь рекомендация.
Надеюсь, удалось помочь!
Комментарии к ответу0

Файл robots.txt нужен для того, чтобы закрывать некоторые каталоги от индексации поисковых систем. Точнее, в этом файле содержатся определенные инструкции для роботов по обходу сайта. Например, полезно закрыть от индексации каталоги, где содержится «плохая» информация, служебные файлы или, что бывает чаще всего, каталоги содержат дубли страниц сайта.
Например, часто закрывают поиск на сайте от индексирования: ведь поиск дублирует уже существующий контент.
Пример:
User-agent: *
Disallow: /
Код выше полностью закрывает сайт от индексации. Такая настройка будет полезна на этапе создания сайта, когда там еще нет контента.
Разумеется, функции файла гораздо обширнее. Так, приведу пример содержимое моего файла robots.txt:
User-Agent: *
Allow: /
Disallow: /searchnews
Disallow: /topic
Disallow: /pastnews
Allow: /pastnews/empty
Host: https://my-site.info
Sitemap: https:// my-site.info/sitemap.xml
Здесь все просто: команда Allow: / открывает весь сайт для индексации любым роботам (User-Agent: *). Некоторые папки закрыты (searchnews – это поиск, pastnews – это архив). При этом разрешен доступ к подпапке pastnews/empty.
Команда Host: https://site.info определяет основное зеркало сайта. Командой Sitemap указывается файл с картой сайта. Впрочем, последние две директивы нужны только для робота «Яндекса», а поисковая машина Google их не учитывает.
Вот тут можно прочесть больше про сайт robots.txt https://seoprofy.ua/blog/optimizaciya-sajtov/content-index.
Надеюсь, теперь вы понимаете, что такое файл robots.txt и для чего он нужен.
Комментарии к ответу0

albinausupova
Ответов: 2

albinausupova
Ответов: 2

albinausupova
Ответов: 2
Ответов: 2
Ответов: 3
Авторитетные ответы от специалистов интернет-рынка
© 2021 voprosmarketing.ru
Илья Жилевич
Robots.txt — это текстовый файл, необходимый для ограничения доступа роботов различных поисковых систем (таких как Yandex, Google и других) к страницам и разделам сайта.
При очередном обходе сайта, робот поисковой системы загружает файл robots.txt. Дальше идет считывание файла. И после робот понимает, какие страницы сайта требуют обхода, а какие нет. Таким образом те страницы, которые будут роботом пройдены - попадут в поисковую выдачу поисковика, а те страницы, которые будут помечены запретом на обход - убраны из поисковой выдачи.
Файл Robots.txt всегда располагается в корневой папке сайта. В этом файле есть своя структура и рекомендации для роботов поисковых систем в виде “команд-рекомендаций” по обходу сайта. Из этого следует, что не всегда можно запретить роботам не анализировать запрещенные страницы. Есть и другие способы запрета обхода сайта поисковыми роботами.
Вот некоторые команды:
Disallow - закрыть интернет-страницу от обхода роботом поисковой системы.
Allow - открывать страницу для обхода роботом и добавлением ее в поисковую выдачу.
Комментарии к ответу0