Обзор технологий поиска новой информации

Введение

За последние несколько лет интенсивно развивались и достигли высокого уровня механизмы поиска информации в Интернет. Появилось большое количество мощных поисковых систем. Однако найти нужную информацию становится все труднее. Это связано с тем, что объем информации в Интернете растет лавинообразно и доля информационного "шума" постоянно возрастает.

В сложившейся ситуации важное значение приобретает умение человека правильно использовать мощный механизм поисковых систем. Нужно не только уметь правильно составить поисковый запрос, но и грамотно подбирать ключевые слова по заданной теме. Также важно учитывать особенности языка и специфику документального поиска.

Методы поиска информации в Интернете

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен несколькими методами, значительно различающимися как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.
       Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
       - Непосредственный поиск с использованием гипертекстовых ссылок
       - Использование поисковых машин
       - Поиск с применением специальных средств
       - Анализ новых ресурсов

Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей сотни миллионов узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

Использование поисковых машин

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Сети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки. Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен. Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

Анализ новых ресурсов

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике. Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

Технология поиска с использованием поисковых машин

Рассмотрим основные этапы, которые так или иначе присутствуют при поиске информации с использованием поисковых машин.

Определение географических регионов поиска

Поскольку проведение информационного поиска преследует практические цели - маркетинговые, производственные, сугубо утилитарные и тому подобные, - практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника.

Составление тезауруса

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Использование законов Зипфа

       Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность (правильно - частость) обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:
       С = (частота вхождения слов X ранг частоты) / число слов
       Это значит, что график зависимости ранга от частоты - равносторонняя гипербола. Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка.
       Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.

Составление списка ключевых слов

       Правильный набор ключевых слов имеет определяющее значение для оптимального поиска информации. К примеру, задав поисковой машине в качестве ключевого слова "МАРП", мы получим список документов, в которых встречается эта аббревиатура (Московское Агентство по Развитию Предпринимательства). Но если нас интересуют документы по более широкой теме, например: развитие предпринимательства, и мы сформируем простой запрос из этих двух слов, то поисковая машина выдаст нам список из сотен тысяч наименований, ориентироваться в котором будет весьма непросто.
       Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:
       - Удаление из текста стоп-слов.
       - Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.
       - Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.
       - Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
       Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.
       Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины. Всего известно около 500 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Формирование запросов

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.
Языки запроса различных машин поиска в основном являются сочетанием следующих функций:

Операторы булевой алгебры AND, OR, NOT:
AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором;
OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором;
NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.
Операторы расстояния - ограничивают порядок следования и расстояния между словами, например:
NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;
FOLLOWED BY - термины следуют в заданном порядке;
ADJ - термины, соединенные оператором, являются смежными.
Возможность усечения терминов - использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).
Учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.
Возможность поиска по словосочетанию, фразе.
Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).
Ограничения по дате опубликования документа.
Ограничения на количество совпадений терминов.
Возможность поиска графических изображений.
Чувствительность к строчным и прописным буквам.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Проблемы, возникающие в процессе поиска

Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
       - увеличение охвата с целью извлечения максимального количества значимой информации;
       - уменьшение охвата с целью минимизации шумовой информации.
       Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
       Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.
       Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.
       Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной.

Владение пользовательскими инструментами и техникой

Не забывайте о команде Find браузера
       Если ваш браузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем браузере и введите искомое ключевое слово.
       Фиксируйте результаты ссылками и закладками
       1. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в "Избранное". Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения.
       2. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные.
       3. Некоторые машины поиска, например AltaVista, позволяют отмечать закладкой успешный результат поиска. Благодаря этому позднее можно вернуться к данной подборке документов и просмотреть ее.
       4. Существуют специализированные программные средства - интегрируемые модули расширения для стандартных браузеров, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.
       Сохраняйте копии важных документов
       Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл – Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы:
       1) изменчивости и недолговечности WWW (когда со своих адресов со временем исчезают страницы и целые сайты),
       2) концентрации внимания исключительно на целях определенного этапа поиска (например отбор адресов или предварительный просмотр найденной информации),
       3) экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.
       Отключайте вывод изображений
       Если вы не желаете видеть многочисленные рекламные заставки и для вас важен не дизайн сайтов, а их содержательная информация, измените заданный режим просмотра в браузере на режим вывода только текста (исключив возможности мультимедиа). Это значительно увеличит скорость поиска. При этом, если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню Показать рисунок, кликнув для его вызова правой кнопкой мыши в место невыведенного рисунка.
       Не теряйте самоконтроль
       Интерактивная среда WWW увлекает, и зачастую после нескольких десятков минут Web-серфинга мы забываем: как попали на данный сайт, что хотели найти и по какому адресу расположена только что просмотренная уникальная информация… И в этом случае не пренебрегайте функциями вашего браузера Назад и Вперед, которые помогают упорядочить навигацию. Чтобы не терять информацию и время, приучите себя всегда явно определять цель предстоящего on-line сеанса и при работе стараться не отступать от нее, оставляя прочие возникающие идеи и желания на потом. Планирование поисковой работы по этапам также даст результат: поиск станет более осознанным и систематичным, а результат – более полным и точным.

Учет особенностей языка и специфики документального поиска

Используйте комбинированный поиск фраз
       Фразы позволяют выполнять поиск слова с учетом контекста. Обычно машина ищет точное совпадение с текстовой строкой, заключенной в кавычки. Скомбинировав несколько фраз искомого документа с помощью оператора языка запроса AND, вы существенно увеличите точность запроса.
       Применяйте редкие слова
       Если вы хотите найти документ по одному или нескольким словам, выберите наиболее необычные. Тем самым вы избежите напрасной траты времени на перебор бесполезных для вас сайтов.
       Не употребляйте очень распространенных терминов
       Слова типа компьютер, провайдер, Web и Windows приводят к высокой выборке нерелевантных узлов, то есть к большому количеству шумовой информации. Некоторыми машинами поиска подобные термины вообще не учитываются (так называемые стоп-слова).
       Избегайте игнорируемых ключевых слов
       Игнорируемыми (стоп-словами) называют слова, которые разработчики механизмов поиска автоматически исключают из запроса. Так, если вы попробуете в запросе AltaVista указать компьютер, то получите в ответ Документы, удовлетворяющие данному запросу, не найдены. Большинство машин поиска игнорируют также одно, двух- и трехбуквенные слова. Иногда не выполняется также поиск слов, начинающихся с цифры. Разработчики некоторых новейших средств поиска утверждают, что не используют игнорируемых слов, но такие случаи редки.
       И последнее - не забывайте традиционные источники!
       Книги и друзья, телевидение и пресса дают нам советы, консультации, знания и справочную информацию, в том числе о необъятном мире сети Интернет.

к.ф.-м.н. Владимир А.Рыжов, к.т.н. Алексей В.Корниенко, МГУ им.М.В.Ломоносова

Контрольные вопросы и задания для самостоятельной работы:

По каким критериям следует выбирать поисковый сервер?
Почему не следует выбирать в качестве ключевых слов очень распространенные термины?
Какие проблемы могут возникать в процессе поиска?
Какие операторы булевой алгебры используются для составления поисковых запросов?
Почему необходимо сохранять копии документов найденных в Интернете?

Обязательная литература: 3-7, 19, 23

к оглавлению

Знаете ли Вы, что "гравитационное линзирование" якобы наблюдаемое вблизи далеких галактик (но не в масштабе звезд, где оно должно быть по формулам ОТО!), на самом деле является термическим линзированием, связанным с изменениями плотности эфира от нагрева мириадами звезд. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМА

Рыцари теории эфира