к оглавлению

Зарубежные поисковые машины

Объем доступной для конкретного пользователя информации в Интернете во многом ограничивается возможностями поисковых систем. Поэтому очень важно иметь представление о том, как работают поисковые системы, как много страниц они "видят", и насколько актуальна предоставляемая ими информация.

Каждая поисковая система состоит из двух частей - поискового HTTP-робота и модуля обработки запроса пользователя. HTTP-робот - это программа, которая собирает доступную в виде текста информацию. Вся собранная информация записывается в index-файл. Поиск осуществляется другой программой, которая извлекает запрашиваемую пользователем информацию из index-файла.

Качество работы отдельно взятой поисковой системы сильно зависит от качества работы обоих программных модулей системы.

Для того чтобы оценить работу HTTP-роботов различных поисковых систем, на одном из Рунетовских сайтов с объемом страниц выше среднего, была установлена специальная система, отслеживающая все характерные для индексирующих роботов обращения.

Ниже представлена таблица, составленная на основе показаний нашей системы в период с середины лета 2000 года по конец декабря 2000 года:

Поисковая система HTTP-Робот Глубина индексации Частота индексации
http://www.alltheweb.com FAST-WebCrawler 127,04% раз в месяц
http://www.google.com Googlebot 114,25% раз в три дня
http://www.inktomi.com Slurp 100,9% ежедневно
http://www.yandex.ru Yandex 95,13% раз в два дня
http://www.northernlight.com Gulliver 64,74% раз в 24 дня
http://www.altavista.com Scooter/Mercator 44,92% раз в три дня
http://www.lycos.com Lycos_Spider_(T-Rex) 8,68% раз в неделю
http://www.webtop.com/ MuscatFerret 7,62% раз в месяц
http://www.aport.ru Aport 2,41% раз в неделю
http://www.euroseek.com Arachnoidea 1,82% один раз
http://www.rambler.ru StackRambler 0,27% раз в месяц
http://www.links2go.com/ Links2Go Similarity Engine 0,19% раз в месяц
http://www.excite.com ArchitextSpider 0,11% раз в 17 дней

Глубина индексации определена следующим образом. За 100% взята вся доступная на подопытном сайте текстовая информация по ссылкам от головного файла. Значения выше 100% означают, что данный робот получил доступ к файлам не доступным по ссылкам с домашней страницы сайта или же закачал не текстовые, а мультимедийные или бинарные файлы, как это делает "FAST-WebCrawler".

Частота индексации показывает, как часто HTTP-робот возвращается, чтобы отследить и зафиксировать изменения или обновления произошедшие на отдельном сайте. Чаще всего HTTP-роботы запрашивают заглавный файл отдельного сайта. Исключением является робот системы NorthernLight - "Gulliver", который чаще обращался к файлам находящимся ниже заглавного документа.

Многолетние наблюдения за индексирующими роботами выявили характерные особенности в их "поведении". Наиболее стабильным себя показал робот системы Lycos - "Lycos_Spider_(T-Rex)". Однако поисковая система Lycos дает весьма поверхностный охват Интернета, несмотря на грозное название своего HTTP-робота.

Относительно новые поисковые системы Google и AllTheWeb действительно дают нам возможность искать в Интернете, а не в какой-то его части. Робот системы AllTheWeb - "FAST-WebCrawler" замечен нами относительно недавно, однако по многим показателям он превосходит своих конкурентов. HTTP-робот системы Google - "Googlebot" замечен много раньше, да и сложно было бы его не заметить поскольку это один из самых активных роботов.

Очень хорошо зарекомендовала себя система NorthernLight. Один из самых больших индекс-файлов Интернета, подкреплен отличным поисковым модулем с расширенным синтаксисом запросов.

Робот корпорации Inktomi - "Slurp" используется несколькими поисковыми системами. Самая заметная из них http://www.hotbot.com/. "Slurp" - самый активный робот в Интернете.

AltaVista судя по всему обладает самым грамотным программным обеспечением, однако уступает в мощности, например, системе Google. К сожалению, компания AltaVista закрыла свой, на наш взгляд, наиболее удачный поисковый проект http://www.raging.com.

Поисковая система Яндекс по многим показателям зарекомендовала себя, как система мирового уровня. Яндекс действительно обладает конкурентоспособным программным обеспечением. Однако система "заточена" под кириллицу и индексирует преимущественно сайты в зоне RU. Поэтому мы относим Яндекс к системе третьего(локального) класса.

Возможности поискового робота системы Rambler, значительно уступают возможностям HTTP-робота системы Яндекс. Однако Rambler активно использует информацию, введенную пользователями вручную через формы регистрации. За счет этого Rambler нередко выдает более актуальную информацию, чем Яндекс.

Наша профессиональная оценка "ценности" поисковых систем приведена в следующей таблице:

Система Синтаксис Интерфейс Корректность робота Актуальность информации Класс
http://www.altavista.com * * * * * * * * * * 1
http://www.northernlight.com * * * * * * * * * * 1
http://www.alltheweb.com * * * * * * * * * * * 1
http://www.hotbot.com * * * * * * * * * * 1
http://www.google.com * * * * * * * * * * * 1
http://www.lycos.com * * * * * * * * * 2
http://www.webtop.com/ * * * * * * * * 2
http://www.excite.com * * * * * * * * * * 2
http://www.links2go.com/ * * * * * * * * * * 2
http://www.yandex.ru * * * * * * * * * 3
http://www.euroseek.com * * * * * * * * * 3
http://www.aport.ru * * * * * * * * * * * 4
http://www.rambler.ru * * * * * * * * * * 4

В этой таблице мы представили результаты сравнения компонентов одной поисковой системы с компонентами другой. Три звездочки - высшая оценка, указывают на то, что в данном компоненте система ни в чем не уступает конкурентам. Две звездочки соответственно указывают, на относительное отставание системы в конкретном компоненте.

Синтаксисом системы мы называем возможности языка запросов поискового модуля системы. Оценивая этот важнейший компонент, мы учитывали также качество реализации заявленного системой синтаксиса запросов.

Корректность робота - параметр, указывающий на то, с какой интенсивностью HTTP-робот запрашивает документы отдельного сайта. Оценку в две звездочки мы поставили HTTP-роботам, которые могут вызывать загрузку сервера из-за слишком интенсивного обращения. Замечено, что роботы Rambler'а и Яндекс'а могут вызывать загрузку серверов. Справедливости ради стоит заметить, что тесты проводились на российских серверах, поэтому большая интенсивность обращений HTTP-роботов ведущих российских систем вполне оправдана.

Поисковые системы мы разделили на пять классов. К первому классу причислены системы с наибольшим объемом индекс файла, обеспечивающим наиболее обширный охват Интернета. Ко второму классу причислены системы индексирующие Интернет выборочно, т.е. прежде всего основные документы отдельно взятого сайта. К третьему классу причислены локальные системы, т.е. системы осуществляющие поиск в заданных рамках. Например, Яндекс - ограничивается Рунетом, а EuroSeek изначально ориентирован на индексирование европейской части Интернета. К четвертому классу мы причислили локальные системы, со схемой выборочной индексации, похожей на схему индексации систем второго класса. И, наконец, к пятому классу мы причислили тематические поисковые системы. Типичный пример системы пятого класса поисковая система Referat.cc.

Из зафиксированных, но не вошедших в таблицы поисковых роботов также отметим - DirectHit, http://tela.dux.ru/ (HTTP-робот MOMSpider) и http://www.fireball.de/ (HTTP-робот "KIT-Fireball").

Помимо упомянутых HTTP-роботов, в просторах Интернета замечено еще несколько десятков индексирующих и не индексирующих роботов. Хороший пример нетрадиционного использования собранной таким образом информации - http://www.findsame.com/ (HTTP-робот "DIIbot") - система, предназначенная для поиска сходных документов.

Подавляющее большинство не вошедших в наш обзор поисковых систем либо не имеют своего индексирующего робота, либо являются системами 2-го, 3-го, 4-го или 5-го класса.

Системы, не имеющие своего HTTP-робота, как правило, используют возможности других поисковых систем. Такие системы либо используют HTTP-роботы, описанные выше, либо являются мета-поисковыми системами.

Классическим вариантом мета-поисковой системы, является система MetaBot.Ru. Эта система одновременно опрашивает несколько ведущих поисковых систем и выдает пользователю компактный, предварительно отсортированный и тщательно проанализированный список результатов.

На данный момент, наиболее распространены поисковые системы, использующие технологии трех компаний - "Fast Search & Transfer" (AllTheWeb), "Inktomi" и "Google".

Наблюдается также интеграция технологий между разными поисковыми системами.

HotBot использует симбиоз технологий Inktomi и DirectHit. DirectHit - технология, отслеживающая выбор пользователя для каждого конкретного запроса. Собранная таким образом информация влияет на позиции ссылок в результатах поиска.

Lycos, помимо своих собственных технологий, частично использует технологии "Fast Search & Transfer".

Подводя итог, особо отметим системы AltaVista, Google, Яндекс и MetaBot.Ru.

По оценкам наших специалистов AltaVista на голову превосходит всех конкурентов по некоторым важнейшим показателям. Google, пожалуй, самая дружелюбная и понятная пользователю поисковая система. Недаром популярный каталог Yahoo использует технологию Google. Мы рекомендуем пользоваться также поисковой системой по серверам новостей - Google Groups. В группах новостей можно найти ответ практически на любой вопрос. Яндекс, по мнению как специалистов так и пользователей, наиболее мощная и грамотная российская поисковая система.

Мета-поисковая система MetaBot.Ru, была создана нами по итогам масштабных исследований и призвана объединить лучшие качества лучших поисковых систем в единый поисковый проект с общим интерфейсом и общим синтаксисом запросов. Мы постарались минимизировать недостатки мета-поисковой технологии и максимально использовали ее преимущества.

Автор статьи Константин Айги.

 Altavista Excite HotBot InfoSeek Lycos OpenText WebCrawler
ТипПолнотекстовая ПолнотекстоваяПолнотекстовая ПолнотекстоваяАбстрактная ПолнотекстоваяПолнотекстовая
Размер30 миллионов 55 миллионов54 миллиона 20-50 миллионов20-25 миллионов 5 миллионов2 миллиона
Период обновления от 1 дня до 3 месяцев 1 - 3 неделине позднее 3 недель от минут до месяца ещемесячное обновление 1 - 4 неделиеженедельное обновление
Дата индексирования документа ДаНет ДаНет НетНет Нет
Указанные (submitted) страницы 1 день1 неделя 3 недели1 месяц 1 месяц2 - 4 недели 2 - 4 недели
Неуказанные (non-submitted) страницы 1 - 3 месяца3 недели 3 недели1 месяц 1 месяц2 4 недели 2 4 недели
Глубина индексированияНе ограниченаНе ограничена Не ограниченаНе ограничена Не ограничена
-
Ограничена популярностью того или иного сервера
Поддержка фреймовНетДа НетДа ДаНет Нет
Поддержка ImageMapДаНет НетДа ДаНет Да
Защищенные паролями директории и сервераНетДа НетДа ДаНет Нет
Частота появления ссылокНетНет ДаНет ДаНет Да
"Обучаемость"ДаНет ДаДа НетНет Нет
Контроль индексацииrobots.txt robots.txt (в будущем и метаданные) И то, и другоеrobots.txt robots.txt robots.txt И то, и другое
Перенаправление (redirect)ПоддерживаетПоддерживает
-
-
-
-
Поддерживает
Стоп-словаДа ДаДа НетДа НетНет
Влияние на алгоритм определения релевантностиНет
-
Ключевые слова в метаданных НетНет НетЧастота появления ссылок
Spam-штрафыДаДа ДаДа ДаДа Да
Поддержка META-таговДаНет ДаДа ДаНет Только NOINDEX таг
TitleЗаголовок страницы или No Title Заголовок страницы или Untitled Заголовок страницы или URL Заголовок страницы или первая строка документа Заголовок страницы или первая строка документа Первые 100 символов из документа Заголовок страницы или URL
DescriptionМетатаг или первые несколько строк из документа Формируется из наиболее релевантных к запросу фраз документа Метатаг или первые несколько строк документа Метатаг или первые 200 символов после тага <body> Метатаг или экстакт из содержимого страницы Первые 100 символов документа Создается из содержания; обещается поддержка метатагов в будущем
Проверка статуса URLДаНет НетНет ДаНет Да
Удаление старых данныхУдалить содержимое и указать новый адрес Удалить содержимое или переписать robots.txt Переписать robots.txt Удалить содержимое и указать новый адрес или переписать robots.txt
-
-
-
Имя поискового робота (Spider User Agent)Scooter Architext Spider Slurp the Web Hound Side winder T-rex
-
Spider

ЯНДЕКС ТИЦ сайтов

yandex.ru        290000 (мнение о себе, любимом, завышено раз в 7)
google.com        98000
google.ru         51000
yahoo.com         18000
altavista.com      4000
infoseek.com       4000
lycos.com          2600
alexa.com          1300
google.kz           800 сервер корпорации Google, 
...
bourabai.kz         160 К. Хайдаров (Боровское исследовательское учреждение)
kaz.kz              150 Витя Покусов, Кокшетау ("крутой Казахстанский поисковик")
dku.kz              100 DKU (Казахстанско-немецкий университет)
zerde.gov.kz         40 АО Национальный инфокоммуникационный холдинг "Зерде"
egov.kz               0 Электронное правительство Казахстана
к оглавлению

Знаете ли Вы, что такое "Большой Взрыв"?
Согласно рупору релятивистской идеологии Википедии "Большой взрыв (англ. Big Bang) - это космологическая модель, описывающая раннее развитие Вселенной, а именно - начало расширения Вселенной, перед которым Вселенная находилась в сингулярном состоянии. Обычно сейчас автоматически сочетают теорию Большого взрыва и модель горячей Вселенной, но эти концепции независимы и исторически существовало также представление о холодной начальной Вселенной вблизи Большого взрыва. Именно сочетание теории Большого взрыва с теорией горячей Вселенной, подкрепляемое существованием реликтового излучения..."
В этой тираде количество нонсенсов (бессмыслиц) больше, чем количество предложений, иначе просто трудно запутать сознание обывателя до такой степени, чтобы он поверил в эту ахинею.
На самом деле взорваться что-либо может только в уже имеющемся пространстве.
Без этого никакого взрыва в принципе быть не может, так как "взрыв" - понятие, применимое только внутри уже имеющегося пространства. А раз так, то есть, если пространство вселенной уже было до БВ, то БВ не может быть началом Вселенной в принципе. Это во-первых.
Во-вторых, Вселенная - это не обычный конечный объект с границами, это сама бесконечность во времени и пространстве. У нее нет начала и конца, а также пространственных границ уже по ее определению: она есть всё (потому и называется Вселенной).
В третьих, фраза "представление о холодной начальной Вселенной вблизи Большого взрыва" тоже есть сплошной нонсенс.
Что могло быть "вблизи Большого взрыва", если самой Вселенной там еще не было? Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМАФорум Рыцари теории эфира
Рыцари теории эфира
 26.02.2020 - 06:25: ЭКОНОМИКА И ФИНАНСЫ - Economy and Finances -> КОЛЛАПС МИРОВОЙ ФИНАНСОВОЙ СИСТЕМЫ - Карим_Хайдаров.
23.02.2020 - 19:17: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
23.02.2020 - 19:14: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
23.02.2020 - 19:10: ЭКОНОМИКА И ФИНАНСЫ - Economy and Finances -> ПРОБЛЕМА КРИМИНАЛИЗАЦИИ ЭКОНОМИКИ - Карим_Хайдаров.
22.02.2020 - 07:52: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Ю.Ю. Болдырева - Карим_Хайдаров.
19.02.2020 - 18:24: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Андрея Фурсова - Карим_Хайдаров.
17.02.2020 - 19:50: ЭКСПЕРИМЕНТАЛЬНАЯ ФИЗИКА - Experimental Physics -> Эксперименты Сёрла и его последователей с магнитами - Карим_Хайдаров.
17.02.2020 - 19:49: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Андрея Тиртхи - Карим_Хайдаров.
17.02.2020 - 19:09: ЭКСПЕРИМЕНТАЛЬНАЯ ФИЗИКА - Experimental Physics -> Вихревые эффекты и вихревые теплогенераторы - Карим_Хайдаров.
17.02.2020 - 19:06: ЭКСПЕРИМЕНТАЛЬНАЯ ФИЗИКА - Experimental Physics -> Эксперименты Андрея Петровича Хрищановича - Карим_Хайдаров.
17.02.2020 - 18:48: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> КОМПЬЮТЕРНО-СЕТЕВАЯ БЕЗОПАСНОСТЬ ДЛЯ ВСЕХ - Карим_Хайдаров.
17.02.2020 - 18:47: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ЗА НАМИ БЛЮДЯТ - Карим_Хайдаров.
Bourabai Research Institution home page

Bourabai Research - Технологии XXI века Bourabai Research Institution