Кроме пользовательских средств поиска, которыми являются массовые пользовательские интерфейсы поисковых систем, есть служебные средства поиска и структурирования для формирования банков данных самих поисковых систем, иногда
называемые поисковыми механизмами. Cлужебные средства поисковых систем типа
агентов, пауков, кроулеров и роботов используются для сбора информации о
документах, находящихся в Сети Интернет. Это специальные программы,
которые занимаются поиском страниц в Сети, извлекают гипертекстовые
ссылки на этих страницах и автоматически индексируют информацию, которую
они находят для построения базы данных. Каждый поисковый механизм имеет
собственный набор правил, определяющих, как cобирать документы.
Некоторые следуют за каждой ссылкой на каждой найденной странице и
затем, в свою очередь, исследуют каждую ссылку на каждой из новых
страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к
графическим и звуковым файлам, файлам мультипликации; другие игнорируют
cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что
нужно просматривать прежде всего наиболее популярные страницы.
Кроулеры, crowlers
-
"ползуны", простейшие автономные программы поисковых серверов, предназначенные для последовательного обследования сети и записи ее топологии в базу данных посиковика.
Они просматривают заголовки веб-страниц и запоминают только ее первую непройденную ссылку.
Роботы, robots, bots
-
простые автономные программы-разведчики поисковых серверов.
Они могут быть запрограммированы так, чтобы переходить по
различным cсылкам различной глубины вложенности, выполнять индексацию и
даже проверять ссылки в документе. Из-за их природы они могут застревать
в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы
Сети. Однако, имеются методы, предназначенные для того, чтобы запретить
роботам поиск по сайтам, владельцы которых не желают, чтобы они были
проиндексированы.
Пауки, spiders
-
автономные программы, совершающие общий поиск информации
в Интернете. Пауки сообщают о содержании найденного документа,
индексируют его и извлекают итоговую информацию. Также они просматривают
заголовки, некоторые ссылки и посылают проиндексированную информацию
базе данных поискового механизма.
Агенты, agents
-
автономные программы поисковых гипер-серверов,
самые "интеллектуальные" из поисковых средств. Они могут
делать больше, чем просто искать: они могут выполнять даже транзакции от
Вашего имени. Уже сейчас они могут искать cайты специфической тематики и
возвращать списки cайтов, отсортированных по их посещаемости. Агенты
могут обрабатывать содержание документов, находить и индексировать
другие виды ресурсов, не только страницы. Они могут также быть
запрограммированы для извлечения информации из уже существующих баз
данных. В зависимости от поставленной задачи агенты могут искать избирательно
только целевуб информацию, при этом они имеют в своем составе
оптимизаторы поиска, использующие базу поисковой системы и позволяющие
существенно сократить множество обследуемых ресурсов.
Агенты извлекают и индексируют различные виды
информации. Некоторые, например, индексируют каждое отдельное слово во
встречающемся документе, в то время как другие индексируют только
наиболее важных 100 слов в каждом, индексируют размер документа и число
слов в нем, название, заголовки и подзаголовки и так далее. Вид
построенного индекса определяет, какой поиск может быть сделан поисковым
механизмом и как полученная информация будет интерпретирована.
Агенты могут также перемещаться по Интернет и
находить информацию, после чего помещать ее в базу данных поискового
механизма. Администраторы поисковых систем могут определить, какие сайты
или типы сайтов агенты должны посетить и проиндексировать.
Проиндексированная информация отсылается базе данных поискового
механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую
форму для того раздела, в который они хотели бы поместить свою
информацию. Эти данные передаются базе данных.
Когда кто-либо хочет найти информацию, доступную в
Интернет, он посещает страницу поисковой системы и заполняет форму,
детализирующую информацию, которая ему необходима. Здесь могут
использоваться ключевые слова, даты и другие критерии. Критерии в форме
поиска должны соответствовать критериям, используемым агентами при
индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса,
основанный на информации, указанной в заполненной форме, и выводит
соответствующие документы, подготовленные базой данных. Чтобы определить
порядок, в котором список документов будет показан, база данных
применяет алгоритм ранжирования. В идеальном случае, документы, наиболее
релевантные пользовательскому запросу будут помещены первыми в списке.
Различные поисковые системы используют различные алгоритмы ранжирования,
однако основные принципы определения релевантности следующие:
Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
Тэги, в которых эти слова располагаются.
Местоположение искомых слов в документе.
Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
Эти принципы применяются всеми поисковыми системами. А представленные
ниже используются некоторыми, но достаточно известными (вроде
AltaVista, HotBot).
Время - как долго страница находится в базе поискового
сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но,
если задуматься, как много существует в Интернете сайтов, которые живут
максимум месяц! Если же сайт существует довольно долго, это означает,
что владелец весьма опытен в данной теме и пользователю больше подойдет
сайт, который пару лет вещает миру о правилах поведения за столом, чем
тот, который появился неделю назад с этой же темой.
Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
База данных выводит ранжированный подобным образом
список документов с HTML и возвращает его человеку, сделавшему запрос.
Различные поисковые механизмы также выбирают различные способы показа
полученного списка - некоторые показывают только ссылки; другие выводят
cсылки c первыми несколькими предложениями, содержащимися в документе
или заголовок документа вместе с ccылкой.
Когда Вы щелкаете на ссылке к одному из документов, который вас
интересует, этот документ запрашивается у того сервера, на котором он
находится.