Файл /robots.txt предназначен для указания всем
поисковым роботам индексировать информационные сервера так, как
определено в этом файле, т.е. только те директории и файлы сервера,
которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более
записей, которые связаны с тем или иным роботом (что определяется
значением поля agent_id), и указывают для каждого робота или для всех
сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл
/robots.txt, должен указать подстроку Product Token поля User-Agent,
которую каждый робот выдает на HTTP-запрос индексируемого сервера.
Например, нынешний робот Lycos на такой запрос выдает в качестве поля
User-Agent:
Lycos_Spider_(Rex)/1.0 libwww/3.1
Если робот Lycos не нашел своего описания в
/robots.txt - он поступает так, как считает нужным. При создании файла
/robots.txt следует учитывать еще один фактор - размер файла. Поскольку
описывается каждый файл, который не следует индексировать, да еще для
многих типов роботов отдельно, при большом количестве не подлежащих
индексированию файлов размер /robots.txt становится слишком большим. В
этом случае следует применять один или несколько следующих способов
сокращения размера /robots.txt:
указывать директорию, которую не следует индексировать, и,
соответственно, не подлежащие индексированию файлы располагать именно в
ней
создавать структуру сервера с учетом упрощения описания исключений в /robots.txt
указывать один способ индексирования для всех agent_id
Описание параметров, применяемых в записях /robots.txt
[...]+ Квадратные скобки со следующим за ними знаком + означают, что
в качестве параметров должны быть указаны один или несколько терминов.
Например, после "User-Agent:" через пробел могут быть указаны один или
несколько agent_id.
[...]* Квадратные скобки со следующим за ними знаком *
означают, что в качестве параметров могут быть указаны ноль или
несколько терминов. Например, Вы можете писать или не писать
комментарии.
[...]? Квадратные скобки со следующим за ними знаком ?
означают, что в качестве параметров могут быть указаны ноль или один
термин. Например, после "User-Agent: agent_id" может быть написан
комментарий.
..|.. означает или то, что до черты, или то, что после.
WS один из символов - пробел (011) или табуляция (040)
NL один из символов - конец строки (015) , возврат каретки (012) или оба этих символа (Enter)
User-Agent: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются agent_id поисковых роботов.
Disallow: ключевое слово (заглавные и прописные буквы роли не
играют). Параметрами являются полные пути к неиндексируемым файлам или
директориям.
# начало строки комментариев, comment string - собственно тело комментария.
agent_id любое количество символов, не включающих WS и NL,
которые определяют agent_id различных поисковых роботов. Знак *
определяет всех роботов сразу.
path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексации.
Расширенные комментарии формата
Каждая запись начинается со строки User-Agent, в
которой описывается каким или какому поисковому роботу эта запись
предназначается. Следующая строка: Disallow. Здесь описываются не
подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как
минимум эти две строки (lines). Все остальные строки являются опциями.
Запись может содержать любое количество строк комментариев. Каждая
строка комментария должна начинаться с символа # . Строки комментариев
могут быть помещены в конец строк User-Agent и Disallow. Символ # в
конце этих строк иногда добавляется для того, чтобы указать поисковому
роботу, что длинная строка agent_id или path_root закончена. Если в
строке User-Agent указано несколько agent_id, то условие path_root в
строке Disallow будет выполнено для всех одинаково. Ограничений на длину
строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в
файле /robots.txt своего agent_id, то он игнорирует /robots.txt.
Если не учитывать специфику работы каждого поискового робота,
можно указать исключения для всех роботов сразу. Это достигается
заданием строки
User-Agent: *
Если поисковый робот обнаружит в файле /robots.txt несколько записей с
удовлетворяющим его значением agent_id, то робот волен выбирать любую
из них.
Каждый поисковый робот будет определять
абсолютный URL для чтения с сервера с использованием записей
/robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.
В примере 1 файл /robots.txt содержит две записи.
Первая относится ко всем поисковым роботам и запрещает индексировать все
файлы. Вторая относится к поисковому роботу Lycos и при индексировании
им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные -
разрешает. Таким образом сервер будет проиндексирован только системой
Lycos.
Знаете ли Вы, что релятивистское объяснение феномену CMB (космическому микроволновому излучению) придумал человек выдающейся фантазии Иосиф Шкловский (помните книжку миллионного тиража "Вселенная, жизнь, разум"?). Он выдвинул совершенно абсурдную идею, заключавшуюся в том, что это есть "реликтовое" излучение, оставшееся после "Большого Взрыва", то есть от момента "рождения" Вселенной. Хотя из простой логики следует, что Вселенная есть всё, а значит, у нее нет ни начала, ни конца... Подробнее читайте в FAQ по эфирной физике.