robots.txt: что может и чего не может файл для краулеров
Директивы Allow/Disallow, лимиты Google, sitemap и частые заблуждения про «закрытие» контента от индекса.
robots.txt — это рекомендации для добросовестных ботов: он не заменяет авторизацию и не шифрует данные. Некоторые агенты могут игнорировать файл; для чувствительных разделов нужны логин, IP-ограничения или noindex на уровне страницы.
Google поддерживает лимит размера файла; при ошибках парсинга может отклонить весь файл — проверяйте синтаксис и кодировку UTF-8.
- How Google interprets robots.txt — Google Search Central — Официальные правила интерпретации.
- Robots.txt introduction — Google Search Central — Введение и связь с индексацией.
Практика
Укажите канонический host в sitemap и не противоречьте себе между поддоменами: отдельные robots для m. и www должны быть согласованы с hreflang и редиректами.
Для AI-краулеров, если политика сайта меняется, обновляйте документ и логируйте обращения — так проще отладить всплеск нагрузки.