Файл /robots.txt предназначен для указания всем
поисковым роботам индексировать информационные сервера так, как
определено в этом файле, т.е. только те директории и файлы сервера,
которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более
записей, которые связаны с тем или иным роботом (что определяется
значением поля agent_id), и указывают для каждого робота или для всех
сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл
/robots.txt, должен указать подстроку Product Token поля User-Agent,
которую каждый робот выдает на HTTP-запрос индексируемого сервера.
Например, нынешний робот Lycos на такой запрос выдает в качестве поля
User-Agent:
Lycos_Spider_(Rex)/1.0 libwww/3.1
Если робот Lycos не нашел своего описания в
/robots.txt - он поступает так, как считает нужным. При создании файла
/robots.txt следует учитывать еще один фактор - размер файла. Поскольку
описывается каждый файл, который не следует индексировать, да еще для
многих типов роботов отдельно, при большом количестве не подлежащих
индексированию файлов размер /robots.txt становится слишком большим. В
этом случае следует применять один или несколько следующих способов
сокращения размера /robots.txt:
указывать директорию, которую не следует индексировать, и,
соответственно, не подлежащие индексированию файлы располагать именно в
ней
создавать структуру сервера с учетом упрощения описания исключений в /robots.txt
указывать один способ индексирования для всех agent_id
Описание параметров, применяемых в записях /robots.txt
[...]+ Квадратные скобки со следующим за ними знаком + означают, что
в качестве параметров должны быть указаны один или несколько терминов.
Например, после "User-Agent:" через пробел могут быть указаны один или
несколько agent_id.
[...]* Квадратные скобки со следующим за ними знаком *
означают, что в качестве параметров могут быть указаны ноль или
несколько терминов. Например, Вы можете писать или не писать
комментарии.
[...]? Квадратные скобки со следующим за ними знаком ?
означают, что в качестве параметров могут быть указаны ноль или один
термин. Например, после "User-Agent: agent_id" может быть написан
комментарий.
..|.. означает или то, что до черты, или то, что после.
WS один из символов - пробел (011) или табуляция (040)
NL один из символов - конец строки (015) , возврат каретки (012) или оба этих символа (Enter)
User-Agent: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются agent_id поисковых роботов.
Disallow: ключевое слово (заглавные и прописные буквы роли не
играют). Параметрами являются полные пути к неиндексируемым файлам или
директориям.
# начало строки комментариев, comment string - собственно тело комментария.
agent_id любое количество символов, не включающих WS и NL,
которые определяют agent_id различных поисковых роботов. Знак *
определяет всех роботов сразу.
path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексации.
Расширенные комментарии формата
Каждая запись начинается со строки User-Agent, в
которой описывается каким или какому поисковому роботу эта запись
предназначается. Следующая строка: Disallow. Здесь описываются не
подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как
минимум эти две строки (lines). Все остальные строки являются опциями.
Запись может содержать любое количество строк комментариев. Каждая
строка комментария должна начинаться с символа # . Строки комментариев
могут быть помещены в конец строк User-Agent и Disallow. Символ # в
конце этих строк иногда добавляется для того, чтобы указать поисковому
роботу, что длинная строка agent_id или path_root закончена. Если в
строке User-Agent указано несколько agent_id, то условие path_root в
строке Disallow будет выполнено для всех одинаково. Ограничений на длину
строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в
файле /robots.txt своего agent_id, то он игнорирует /robots.txt.
Если не учитывать специфику работы каждого поискового робота,
можно указать исключения для всех роботов сразу. Это достигается
заданием строки
User-Agent: *
Если поисковый робот обнаружит в файле /robots.txt несколько записей с
удовлетворяющим его значением agent_id, то робот волен выбирать любую
из них.
Каждый поисковый робот будет определять
абсолютный URL для чтения с сервера с использованием записей
/robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.
В примере 1 файл /robots.txt содержит две записи.
Первая относится ко всем поисковым роботам и запрещает индексировать все
файлы. Вторая относится к поисковому роботу Lycos и при индексировании
им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные -
разрешает. Таким образом сервер будет проиндексирован только системой
Lycos.
Знаете ли Вы, что любой разумный человек скажет, что не может быть улыбки без кота и дыма без огня, что-то там, в космосе, должно быть, теплое, излучающее ЭМ-волны, соответствующее температуре 2.7ºК. Действительно, наблюдаемое космическое микроволновое излучение (CMB) есть тепловое излучение частиц эфира, имеющих температуру 2.7ºK. Еще в начале ХХ века великие химики и физики Д. И. Менделеев и Вальтер Нернст предсказали, что такое излучение (температура) должно обнаруживаться в космосе. В 1933 году проф. Эрих Регенер из Штуттгарта с помощью стратосферных зондов измерил эту температуру. Его измерения дали 2.8ºK - практически точное современное значение. Подробнее читайте в FAQ по эфирной физике.