Материалы взяты из википедии
robots.txt robots.txt файл ограничения доступа к содержимому роботам на http-серверефайлhttp Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt).сайта При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них
robots.txt
Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.
robots.txt Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому. Sitemaps
robots.txt Примеры Запрет доступа всех роботов ко всему сайту: User-agent: * Disallow: /
robots.txt Примеры Запрет доступа определенного робота к каталогу /private/: User-agent: googlebot Disallow: /private/
robots.txt Нестандартные директивы Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц (в секундах) User-agent: * Crawl-delay: 10
robots.txt Нестандартные директивы Allow: имеет действие, обратное директиве Disallow разрешает доступ к определенной части ресурса. Allow: /album1/photo.html Disallow: /album1/
robots.txt Расширенный стандарт: User-agent: * Disallow: /downloads/ Request-rate: 1/5 # загружать не более одной страницы за пять секунд Visit-time: # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.