Кроме пользовательских средств поиска, которыми являются массовые пользовательские интерфейсы поисковых систем, есть служебные средства поиска и структурирования для формирования банков данных самих поисковых систем, иногда
называемые поисковыми механизмами. Cлужебные средства поисковых систем типа
агентов, пауков, кроулеров и роботов используются для сбора информации о
документах, находящихся в Сети Интернет. Это специальные программы,
которые занимаются поиском страниц в Сети, извлекают гипертекстовые
ссылки на этих страницах и автоматически индексируют информацию, которую
они находят для построения базы данных. Каждый поисковый механизм имеет
собственный набор правил, определяющих, как cобирать документы.
Некоторые следуют за каждой ссылкой на каждой найденной странице и
затем, в свою очередь, исследуют каждую ссылку на каждой из новых
страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к
графическим и звуковым файлам, файлам мультипликации; другие игнорируют
cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что
нужно просматривать прежде всего наиболее популярные страницы.
Кроулеры, crowlers
-
"ползуны", простейшие автономные программы поисковых серверов, предназначенные для последовательного обследования сети и записи ее топологии в базу данных посиковика.
Они просматривают заголовки веб-страниц и запоминают только ее первую непройденную ссылку.
Роботы, robots, bots
-
простые автономные программы-разведчики поисковых серверов.
Они могут быть запрограммированы так, чтобы переходить по
различным cсылкам различной глубины вложенности, выполнять индексацию и
даже проверять ссылки в документе. Из-за их природы они могут застревать
в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы
Сети. Однако, имеются методы, предназначенные для того, чтобы запретить
роботам поиск по сайтам, владельцы которых не желают, чтобы они были
проиндексированы.
Пауки, spiders
-
автономные программы, совершающие общий поиск информации
в Интернете. Пауки сообщают о содержании найденного документа,
индексируют его и извлекают итоговую информацию. Также они просматривают
заголовки, некоторые ссылки и посылают проиндексированную информацию
базе данных поискового механизма.
Агенты, agents
-
автономные программы поисковых гипер-серверов,
самые "интеллектуальные" из поисковых средств. Они могут
делать больше, чем просто искать: они могут выполнять даже транзакции от
Вашего имени. Уже сейчас они могут искать cайты специфической тематики и
возвращать списки cайтов, отсортированных по их посещаемости. Агенты
могут обрабатывать содержание документов, находить и индексировать
другие виды ресурсов, не только страницы. Они могут также быть
запрограммированы для извлечения информации из уже существующих баз
данных. В зависимости от поставленной задачи агенты могут искать избирательно
только целевуб информацию, при этом они имеют в своем составе
оптимизаторы поиска, использующие базу поисковой системы и позволяющие
существенно сократить множество обследуемых ресурсов.
Агенты извлекают и индексируют различные виды
информации. Некоторые, например, индексируют каждое отдельное слово во
встречающемся документе, в то время как другие индексируют только
наиболее важных 100 слов в каждом, индексируют размер документа и число
слов в нем, название, заголовки и подзаголовки и так далее. Вид
построенного индекса определяет, какой поиск может быть сделан поисковым
механизмом и как полученная информация будет интерпретирована.
Агенты могут также перемещаться по Интернет и
находить информацию, после чего помещать ее в базу данных поискового
механизма. Администраторы поисковых систем могут определить, какие сайты
или типы сайтов агенты должны посетить и проиндексировать.
Проиндексированная информация отсылается базе данных поискового
механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую
форму для того раздела, в который они хотели бы поместить свою
информацию. Эти данные передаются базе данных.
Когда кто-либо хочет найти информацию, доступную в
Интернет, он посещает страницу поисковой системы и заполняет форму,
детализирующую информацию, которая ему необходима. Здесь могут
использоваться ключевые слова, даты и другие критерии. Критерии в форме
поиска должны соответствовать критериям, используемым агентами при
индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса,
основанный на информации, указанной в заполненной форме, и выводит
соответствующие документы, подготовленные базой данных. Чтобы определить
порядок, в котором список документов будет показан, база данных
применяет алгоритм ранжирования. В идеальном случае, документы, наиболее
релевантные пользовательскому запросу будут помещены первыми в списке.
Различные поисковые системы используют различные алгоритмы ранжирования,
однако основные принципы определения релевантности следующие:
Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
Тэги, в которых эти слова располагаются.
Местоположение искомых слов в документе.
Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
Эти принципы применяются всеми поисковыми системами. А представленные
ниже используются некоторыми, но достаточно известными (вроде
AltaVista, HotBot).
Время - как долго страница находится в базе поискового
сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но,
если задуматься, как много существует в Интернете сайтов, которые живут
максимум месяц! Если же сайт существует довольно долго, это означает,
что владелец весьма опытен в данной теме и пользователю больше подойдет
сайт, который пару лет вещает миру о правилах поведения за столом, чем
тот, который появился неделю назад с этой же темой.
Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
База данных выводит ранжированный подобным образом
список документов с HTML и возвращает его человеку, сделавшему запрос.
Различные поисковые механизмы также выбирают различные способы показа
полученного списка - некоторые показывают только ссылки; другие выводят
cсылки c первыми несколькими предложениями, содержащимися в документе
или заголовок документа вместе с ccылкой.
Когда Вы щелкаете на ссылке к одному из документов, который вас
интересует, этот документ запрашивается у того сервера, на котором он
находится.
Знаете ли Вы, в чем ложность понятия "физический вакуум"?
Физический вакуум - понятие релятивистской квантовой физики, под ним там понимают низшее (основное) энергетическое состояние квантованного поля, обладающее нулевыми импульсом, моментом импульса и другими квантовыми числами. Физическим вакуумом релятивистские теоретики называют полностью лишённое вещества пространство, заполненное неизмеряемым, а значит, лишь воображаемым полем. Такое состояние по мнению релятивистов не является абсолютной пустотой, но пространством, заполненным некими фантомными (виртуальными) частицами. Релятивистская квантовая теория поля утверждает, что, в согласии с принципом неопределённости Гейзенберга, в физическом вакууме постоянно рождаются и исчезают виртуальные, то есть кажущиеся (кому кажущиеся?), частицы: происходят так называемые нулевые колебания полей. Виртуальные частицы физического вакуума, а следовательно, он сам, по определению не имеют системы отсчета, так как в противном случае нарушался бы принцип относительности Эйнштейна, на котором основывается теория относительности (то есть стала бы возможной абсолютная система измерения с отсчетом от частиц физического вакуума, что в свою очередь однозначно опровергло бы принцип относительности, на котором постороена СТО). Таким образом, физический вакуум и его частицы не есть элементы физического мира, но лишь элементы теории относительности, которые существуют не в реальном мире, но лишь в релятивистских формулах, нарушая при этом принцип причинности (возникают и исчезают беспричинно), принцип объективности (виртуальные частицы можно считать в зависимсоти от желания теоретика либо существующими, либо не существующими), принцип фактической измеримости (не наблюдаемы, не имеют своей ИСО).
Когда тот или иной физик использует понятие "физический вакуум", он либо не понимает абсурдности этого термина, либо лукавит, являясь скрытым или явным приверженцем релятивистской идеологии.
Понять абсурдность этого понятия легче всего обратившись к истокам его возникновения. Рождено оно было Полем Дираком в 1930-х, когда стало ясно, что отрицание эфира в чистом виде, как это делал великий математик, но посредственный физик Анри Пуанкаре, уже нельзя. Слишком много фактов противоречит этому.
Для защиты релятивизма Поль Дирак ввел афизическое и алогичное понятие отрицательной энергии, а затем и существование "моря" двух компенсирующих друг друга энергий в вакууме - положительной и отрицательной, а также "моря" компенсирующих друг друга частиц - виртуальных (то есть кажущихся) электронов и позитронов в вакууме.
Однако такая постановка является внутренне противоречивой (виртуальные частицы ненаблюдаемы и их по произволу можно считать в одном случае отсутствующими, а в другом - присутствующими) и противоречащей релятивизму (то есть отрицанию эфира, так как при наличии таких частиц в вакууме релятивизм уже просто невозможен). Подробнее читайте в FAQ по эфирной физике.