к Интернет банкам данных   к оглавлению   эволюция WEB  

Информационный поиск

Доступ пользователей к современным информационным сетям, эффективное удовлетворение их информационных потребностей возможно только с помощью развитых средств навигации в этих сетях. Основным инструментом при этом выступают информационно-поисковые системы, обеспечивающие поиск в гигантских объемах текстовой информации.

Первые реально функционирующие полнотекстовые информационно-поисковые системы (Retrieval Systems, ИПС) появились в начале компьютерной эры. Назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких как статьи, нормативные акты, рефераты, брошюры, диссертации, монографии.

Основными функциями информационно-поисковых систем изначально были:

- хранение больших объемов информации;

- быстрый поиск необходимой информации;

- добавление, удаление и изменение хранимой информации;

- вывод информации в удобном для пользователя виде.

В 1966 году 16-ю американскими библиотеками для установления стандартного формата для электронных каталогов была начата реализация проекта MARC (см. http://www.loc.gov/marc/), обеспечившего переход к унифицированному обмену электронными данными, что способствовало эффективной организации электронных каталогов. Внедрение стандартного библиографического формата позволило библиотекам объединить усилия. В 1972 году получил международное признание стандарт MARC-2 [67, 32], на основе которого были созданы многие национальные стандарты.

В начале 1970-х годов коммерческие компьютерные службы уже предоставляли возможность интерактивного поиска в тематических базах данных Национальной медицинской библиотеки и Министерства образования США. При этом некоторые из этих служб существуют и сегодня: основанная еще в 1965 году система Dialog (http://www.dialog.com/), входящая в настоящее время в корпорацию Thomson, сегодня обеспечивает своим клиентам доступ к сотням базам данных.

В начале 1990-х годов для унификации информационных систем был разработан международный стандарт Z39.50 - информационно-поисковый протокол для библиографических систем. В 1994 университет Джорджии запустил пилотный проект "Галилей" (http://www.usg.edu/galileo/) с использованием Site-Search - пакета программ Огайского центра, соответствующий стандарту Z39.50. Стандарт Z39.50 также был положен в основу исторически первой службы поиска распределенной информации в Интернет - WAIS (Wide Area Information Service) [127], в настоящее время уже утратившей свою актуальность.

В настоящее время информационные ресурсы только веб-пространства составляют свыше двадцати миллиардов документов, к которым возможен свободный доступ любого пользователя. Естественно, для того, чтобы найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе данных необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом. Сегодня миллионам пользователей Интернет известны такие информационно-поисковые системы, как Google, Yahoo, AltaVista, AllTheWeb, MSN, Яndex, Rambler, которые охватывают миллиарды веб-документов. В основу работы всех подобных систем положены специальные алгоритмы, являющиеся модификациями основных подходов - моделей поиска [68].

В основу традиционных методов положены три главных подхода, первый из которых базируется на теории множеств (булева модель), второй - на векторной алгебре (векторно-пространственная модель), а третий - на теории вероятностей (вероятностная модель). Эти подходы могут применяться на практике и в каноническом виде, однако у них есть общий недостаток, обусловленный предположением, что содержание документа определяется множеством слов и устойчивых словосочетаний – термов (англ. - Terms), которые входят в него без учета взаимосвязей, как “мешок со словами” (от англ. Bag of Words), и, более того, считаются независимыми. Конечно же, такое предположение ведет к потере содержательных оттенков, тем не менее оно позволяет реализовать поиск и группирование документов по формальным признакам. Известны такие основные недостатки традиционных моделей:

- Булева модель - невысокая эффективность поиска, отсутствие контекстных операторов, невозможность ранжирования результатов поиска.

- Векторно-пространственная модель связана с расчетом массивов высокой размерности и в каноническом виде малопригодна для обработки больших массивов данных.

- Вероятностная модель характеризуется низкой вычислительной масштабируемостью (т.е. резким снижением эффективности при росте объемов данных) , необходимостью постоянного обучения системы.

Системы, построеные на “рафинированных” поисковых моделях, недостаточно оперативны и обладают слабо развитыми поисковыми возможностями и средствами обобщения данных.

Кроме представленных ниже, существуют и другие модели поиска, например, семантические, в рамках которых делаются попытки организации смыслового поиска за счет анализа грамматики текста, использования баз знаний, тезаурусов, онтологий, которые реализуют семантические связи между отдельными словами и их группами. Вместе с тем, эффективноть систем, базирующихся на таких подходах пока, остается невысокой.

к Интернет банкам данных   к оглавлению   эволюция WEB  

Знаете ли Вы, что в 1965 году два американца Пензиас (эмигрант из Германии) и Вильсон заявили, что они открыли излучение космоса. Через несколько лет им дали Нобелевскую премию, как-будто никто не знал работ Э. Регенера, измерившего температуру космического пространства с помощью запуска болометра в стратосферу в 1933 г.? Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМА

Форум Рыцари теории эфира


Рыцари теории эфира
 10.11.2021 - 12:37: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
10.11.2021 - 12:36: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
10.11.2021 - 12:36: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от д.м.н. Александра Алексеевича Редько - Карим_Хайдаров.
10.11.2021 - 12:35: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
10.11.2021 - 12:34: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вадима Глогера, США - Карим_Хайдаров.
10.11.2021 - 09:18: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> Волновая генетика Петра Гаряева, 5G-контроль и управление - Карим_Хайдаров.
10.11.2021 - 09:18: ЭКОЛОГИЯ - Ecology -> ЭКОЛОГИЯ ДЛЯ ВСЕХ - Карим_Хайдаров.
10.11.2021 - 09:16: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМЫ МЕДИЦИНЫ - Карим_Хайдаров.
10.11.2021 - 09:15: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Екатерины Коваленко - Карим_Хайдаров.
10.11.2021 - 09:13: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вильгельма Варкентина - Карим_Хайдаров.
Bourabai Research - Технологии XXI века Bourabai Research Institution