к библиотеке   3GL   4GL   Глобальные компьютерные сети   к экономической информатике   к алгоритмизации

Глобальные компьютерные сети

Поиск информации в Интернете

Количество информации, размещенной в Интернете, постоянно увеличивается. В связи с этим возникает проблема поиска данных.
В Интернете существует два типа поисковых систем - классификаторы и поисковые машины. В зависимости от информации, которую необходимо найти, удобнее воспользоваться поисковой системой того или иного типа.

Рис. 11.4. Домашняя страница одного из самых первых классификаторов Yahoo!

Классификаторы хранят упорядоченные списки ссылок на Web-узлы. Обычно каждой ссылке сопутствует краткое описание. Списки упорядочены по тематическим разделам на поисковом сервере. Эти списки образуют иерархическую древовидную структуру. Спускаясь по дереву каталогов, можно последовательно ограничить область поиска и, в конечном итоге, получить список ссылок на Web-узлы, связанные с той темой, которая интересна пользователю.
Использовать классификаторы удобно в том случае, когда тема для поиска достаточно общая. Например, "Вузы Санкт-Петербурга" или "Авиационная промышленность". В первом случае искомый ресурс, скорее всего, будет размещен в разделе "Образование: Вузы: Вузы Санкт-Петербурга", а во втором - в разделе Промышленность: Машиностроение: Авиационная промышленность. При использовании для поиска информации классификаторов необходимо достаточно четко представлять, к какой категории эта информация относится. Кроме того, классификация ресурсов проводится людьми, поэтому часто бывает достаточно субъективна.

Рис. 11.5. Популярный российский классификатор List.ru

Этими недостатками не обладает другой тип поисковых систем - поисковые машины. Поисковые машины просматривают страницы, размещенные в Интернете, и составляют индексы используемых слов. Пользователь вводит искомое слово, набор слов или логическое выражение, и по его запросу поисковая машина выдает список ссылок на страницы, в которых это слово используется.
Одним из основных элементов поисковых машин является индексатор (иногда используется термин "паук") - программный модуль, периодически сканирующий Интернет для сбора данных о состоянии информационных ресурсов.
Эти данные используются для формирования и обновления индекса - массива данных поисковой машины, служащего для поиска адреса информационного ресурса. Основные составляющие индекса - это прямой и инвертированный списки, устанавливающие соответствие между поисковыми терминами и содержащими их документами.
Третий элемент поисковой машины - аппарат поиска, непосредственно обеспечивающий работу пользователя с индексом. Под этим термином подразумевают информационно-поисковый язык системы, пользовательский интерфейс и механизмы осуществления запросов в индексной базе.

Рис. 11.6. Поисковая система AltaVista

Для того чтобы не увеличивать размеры словарей и индексов, введено такое понятие, как вес термина. Он определяется в процессе индексирования и зависит от метода индексирования, который используется данной поисковой машиной.
Методы индексирования делятся на статистические, теоретико-информационные и вероятностные.
В статистических методах документы рассматриваются как точки в информационном пространстве. Чем ближе группы терминов, составляющих документы, тем ближе находятся отображающие их точки. В качестве терминов индексации выбираются понижающие плотность пространства документов.
Теоретико-информационные методы основаны на предположении о том, что наибольшую информационную ценность имеют наименее часто встречающиеся слова. Для оценки полезности термина применяются концепции теории информации.
Вероятностные методы предполагают наличие обучающего множества документов для оценки релевантности результатов обработки запроса. Обучающее множество применяется для вычисления весовых коэффициентов, получаемых путем
оценки условной вероятности вхождения термина в данный документ в случае его релевантности (или нерелевантности). На основе этих коэффициентов определяется вес термина.

Рис. 11.7, Форма для запроса на российском поисковом сервере Rambler

При построении индекса реальные документы заменяются поисковыми образами документов. При индексирования нетекстовой информации в поисковые образы входят главным образом универсальные адреса ресурсов, в случае новостей и почтовых списков - поля Subject и Keywords. Из составляющих HTML-документы слов в поисковые образы обычно входят имеющие наибольший вес.
Формальную релевантность вычисляет система, на основании чего ранжируется выборка найденных документов. Реальная релевантность - это оценка самим пользователем ценности найденных документов.
Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, насколько актуальным является ресурс, ссылку на который выдает поисковая машина. Часто поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. Не включают их ради экономии места на носителях.

Рис. 11.8. Форма для запроса на российском поисковом сервере Яndex

В последнее время Web-серверы, предназначенные для поиска информации в Интернете, сочетают в себе возможности классификаторов и поисковых машин.

к библиотеке   3GL   4GL   Глобальные компьютерные сети   к экономической информатике   к алгоритмизации

Знаете ли Вы, что любой разумный человек скажет, что не может быть улыбки без кота и дыма без огня, что-то там, в космосе, должно быть, теплое, излучающее ЭМ-волны, соответствующее температуре 2.7ºК. Действительно, наблюдаемое космическое микроволновое излучение (CMB) есть тепловое излучение частиц эфира, имеющих температуру 2.7ºK. Еще в начале ХХ века великие химики и физики Д. И. Менделеев и Вальтер Нернст предсказали, что такое излучение (температура) должно обнаруживаться в космосе. В 1933 году проф. Эрих Регенер из Штуттгарта с помощью стратосферных зондов измерил эту температуру. Его измерения дали 2.8ºK - практически точное современное значение. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМАФорум Рыцари теории эфира
Рыцари теории эфира
 16.07.2019 - 10:00: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
16.07.2019 - 09:58: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от О.Н. Четвериковой - Карим_Хайдаров.
12.07.2019 - 17:46: ФИЗИКА ЭФИРА - Aether Physics -> Понятие времени и эфир - Владимир_Афонин.
11.07.2019 - 07:14: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
11.07.2019 - 07:13: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
11.07.2019 - 06:57: СОВЕСТЬ - Conscience -> РУССКИЙ МИР - Карим_Хайдаров.
07.07.2019 - 09:52: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> ПРОБЛЕМА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА - Карим_Хайдаров.
03.07.2019 - 05:38: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вячеслава Осиевского - Карим_Хайдаров.
27.06.2019 - 10:01: СЕЙСМОЛОГИЯ - Seismology -> Запасы воды под Землёй - Карим_Хайдаров.
27.06.2019 - 10:00: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМА ПРЕСНОЙ ВОДЫ - Карим_Хайдаров.
27.06.2019 - 09:57: ЭКОНОМИКА И ФИНАНСЫ - Economy and Finances -> ПРОБЛЕМА КРИМИНАЛИЗАЦИИ ЭКОНОМИКИ - Карим_Хайдаров.
27.06.2019 - 09:56: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
Bourabai Research Institution home page

Bourabai Research - Технологии XXI века Bourabai Research Institution