к библиотеке   к оглавлению   к дискретной математике   технологии программирования

Информационный поиск в текстах
Введение в Information Retrieval и Text Mining

  1. Концепция Text Mining
  2. Контент-анализ
  3. Элементы Text Mining
  4. Извлечение понятий

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определённым правилам, размещение её в специальных структурах (например, в реляционных таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и получения из неё новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразования, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста.
Термин Information Retrieval (IR) можно трактовать достаточно широко.
В качестве русского перевода термина будем использовать словосочетание "информационный поиск". К задаче информационного поиска относится чтение названий улиц на дорожных указателях, отыскание в тексте имени некого персонажа или названия. Список примеров можно продолжить.
В общем виде

Information Retrieval - это отыскание информации слабо структурированного типа, отвечающей информационной потребности, среди большого объёма информации. Информации в данном случае присуще то, что она обычно представлена в виде текстовых документов и хранится в электронном виде.
Иформационная потребность - это некий набор данных, необходимый пользователю для того, чтобы больше узнать об интересующей его предметной области.

Неструктурированная информация не имеет чёткой определённой семантики, её сложнее хранить и обрабатывать. Противоположностью неструктурированной информации является организация информации в виде базы данных. Базы данных проектируются таким образом, чтобы исключить дублирование информации, облегчить поиск и доступ к её элементам. Представление информации в виде текста хоть и далеко от представления в виде БД, но ей также присуща определённая структура. Так для многих текстов характерны заголовки, абзацы и другие виды форматирования (отступы и пр.). Примерами документов могут быть: web-страницы, электронная почта, нормативные документы и т.п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию.
Остановимся на некоторых характерных чертах информационного поиска.
При поиске ответа на запрос нас иногда устроят частичные совпадения с запросом и выборка наилучших документов из найденных.
Сам запрос составляется на естественном языке, хотя и допускает включение дополнительных служебных конструкций специального языка запросов.

Среди задач по обработке текстов выделяют классификацию и кластеризацию текстовой информации.
В задаче кластеризации требуется произвести группировку текстовых документов по их содержимому. По аналогии с расстановкой книг по темам на полке.
В задаче классификации задаётся набор тем, категорий (например даты, или исторические периоды) и задача заключается в нахождении правил, по которым можно отнести тот или иной документ к определённой категории. Зачастую на начальном этапе прибегают к ручной классификации, которая хоть и точнее, но заведомо медленна. Полученный набор правил затем можно использовать, чтобы классифицировать новые документы автоматически.

Информационный поиск также различается по назначению и объёму данным, с которым нужно работать.

к библиотеке   к оглавлению   к дискретной математике   технологии программирования

Знаете ли Вы, что любой разумный человек скажет, что не может быть улыбки без кота и дыма без огня, что-то там, в космосе, должно быть, теплое, излучающее ЭМ-волны, соответствующее температуре 2.7ºК. Действительно, наблюдаемое космическое микроволновое излучение (CMB) есть тепловое излучение частиц эфира, имеющих температуру 2.7ºK. Еще в начале ХХ века великие химики и физики Д. И. Менделеев и Вальтер Нернст предсказали, что такое излучение (температура) должно обнаруживаться в космосе. В 1933 году проф. Эрих Регенер из Штуттгарта с помощью стратосферных зондов измерил эту температуру. Его измерения дали 2.8ºK - практически точное современное значение. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМАФорум Рыцари теории эфира
Рыцари теории эфира
 21.07.2019 - 09:45: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> ПРОБЛЕМА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА - Карим_Хайдаров.
21.07.2019 - 09:44: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ЗА НАМИ БЛЮДЯТ - Карим_Хайдаров.
21.07.2019 - 09:43: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Галины Царёвой - Карим_Хайдаров.
20.07.2019 - 05:34: ЭКОНОМИКА И ФИНАНСЫ - Economy and Finances -> КОЛЛАПС МИРОВОЙ ФИНАНСОВОЙ СИСТЕМЫ - Карим_Хайдаров.
20.07.2019 - 05:30: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
16.07.2019 - 10:00: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
16.07.2019 - 09:58: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от О.Н. Четвериковой - Карим_Хайдаров.
12.07.2019 - 17:46: ФИЗИКА ЭФИРА - Aether Physics -> Понятие времени и эфир - Владимир_Афонин.
11.07.2019 - 07:14: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
11.07.2019 - 06:57: СОВЕСТЬ - Conscience -> РУССКИЙ МИР - Карим_Хайдаров.
03.07.2019 - 05:38: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вячеслава Осиевского - Карим_Хайдаров.
27.06.2019 - 10:01: СЕЙСМОЛОГИЯ - Seismology -> Запасы воды под Землёй - Карим_Хайдаров.
Bourabai Research Institution home page

Bourabai Research - Технологии XXI века Bourabai Research Institution