Анализ структурированной информации, хранящейся в базах данных, требует
предварительной обработки: проектирования БД, ввод информации по определённым
правилам, размещение её в специальных структурах (например, в реляционных
таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и
получения из неё новых знаний необходимо затратить дополнительные усилия. При
этом они не всегда связаны с анализом и не обязательно приводят к желаемому
результату. КПД анализа структурированной информации снижается. Кроме того, не
все виды данных можно структурировать без потери полезной информации. Например,
текстовые документы практически невозможно преобразовать в табличное
представление без потери семантики текста и отношений между сущностями. По этой
причине такие документы хранятся в БД без преобразования, как текстовые поля
(BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её
неструктурированность не позволяет использовать алгоритмы Data Mining. Решением
этой проблемы занимаются методы анализа неструктурированного текста. Термин
Information Retrieval (IR) можно трактовать достаточно широко. В качестве
русского перевода термина будем использовать словосочетание "информационный
поиск". К задаче информационного поиска относится чтение названий улиц на
дорожных указателях, отыскание в тексте имени некого персонажа или названия.
Список примеров можно продолжить. В общем виде
Information Retrieval
-
это отыскание информации слабо структурированного типа, отвечающей информационной потребности, среди большого объёма информации. Информации в данном случае присуще то, что она обычно представлена в виде текстовых документов и хранится в электронном виде.
Иформационная потребность
-
это некий набор данных, необходимый пользователю для того, чтобы больше узнать об интересующей его предметной области.
Неструктурированная информация не имеет чёткой
определённой семантики, её сложнее хранить и обрабатывать. Противоположностью
неструктурированной информации является организация информации в виде базы
данных. Базы данных проектируются таким образом, чтобы исключить дублирование
информации, облегчить поиск и доступ к её элементам. Представление информации в
виде текста хоть и далеко от представления в виде БД, но ей также присуща
определённая структура. Так для многих текстов характерны заголовки, абзацы и
другие виды форматирования (отступы и пр.). Примерами документов могут быть:
web-страницы, электронная почта, нормативные документы и т.п. В общем случае
такие документы могут быть сложными и большими и включать в себя не только
текст, но и графическую информацию. Остановимся на некоторых характерных
чертах информационного поиска. При поиске ответа на запрос нас иногда устроят
частичные совпадения с запросом и выборка наилучших документов из
найденных. Сам запрос составляется на естественном языке, хотя и допускает
включение дополнительных служебных конструкций специального языка
запросов.
Среди задач по обработке текстов выделяют классификацию и
кластеризацию текстовой информации. В задаче кластеризации требуется
произвести группировку текстовых документов по их содержимому. По аналогии с
расстановкой книг по темам на полке. В задаче классификации задаётся набор
тем, категорий (например даты, или исторические периоды) и задача заключается в
нахождении правил, по которым можно отнести тот или иной документ к определённой
категории. Зачастую на начальном этапе прибегают к ручной классификации, которая
хоть и точнее, но заведомо медленна. Полученный набор правил затем можно
использовать, чтобы классифицировать новые документы
автоматически.
Информационный поиск также различается по назначению и
объёму данным, с которым нужно работать.
web-поиск - поиск по сотням миллионов документов, расположенных на
миллионах компьютерах.
Существенные усилия затрачиваются на сбор и
предварительную обработку документов (индексирование), чтобы обеспечить
высокую скорость ответа на поисковый запрос, а также обслуживать тысячи и
десятки тысяч пользовательских запросов одновременно. Также важно выявлять и
не учитывать сайты, подменяющие контент в целях поднятия своего рейтинга в
поисковых системах;
персональный информационный поиск - это возможности по поиску и обработке
информации, заложенные производителями ПО в настольные приложения, такие как
почтовый клиент и другие.
Среди прочих, возможности почтовых клиентов по
отделению спама от полезной корреспонденции, фильтрация почты по папкам.
Отличительная черта таких решений в том, что все данные расположены на одном
пользовательском компьютере и имеют сравнительно небольшой объём. Таким
образом, эти средства могут работать параллельно с другими пользовательскими
программами и не привлекать к себе внимание (не тратить большое число ресурсов
системы);
решения для поиска информации в интранет-сетях таких как: сети
университетов, корпоративные сети.
В этом случае данные зачастую содержатся в
централизованном хранилище с множественным доступом. Объём данных уже
значительно превышает предыдущий случай, но тем не менее меньше чем в случае
поисковых систем.
Знаете ли Вы, что только в 1990-х доплеровские измерения радиотелескопами показали скорость Маринова для CMB (космического микроволнового излучения), которую он открыл в 1974. Естественно, о Маринове никто не хотел вспоминать. Подробнее читайте в FAQ по эфирной физике.