к библиотеке   к оглавлению   к дискретной математике   технологии программирования

Информационный поиск в текстах
Введение в Information Retrieval и Text Mining

  1. Концепция Text Mining
  2. Контент-анализ
  3. Элементы Text Mining
  4. Извлечение понятий

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определённым правилам, размещение её в специальных структурах (например, в реляционных таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и получения из неё новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразования, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста.
Термин Information Retrieval (IR) можно трактовать достаточно широко.
В качестве русского перевода термина будем использовать словосочетание "информационный поиск". К задаче информационного поиска относится чтение названий улиц на дорожных указателях, отыскание в тексте имени некого персонажа или названия. Список примеров можно продолжить.
В общем виде

Information Retrieval - это отыскание информации слабо структурированного типа, отвечающей информационной потребности, среди большого объёма информации. Информации в данном случае присуще то, что она обычно представлена в виде текстовых документов и хранится в электронном виде.
Иформационная потребность - это некий набор данных, необходимый пользователю для того, чтобы больше узнать об интересующей его предметной области.

Неструктурированная информация не имеет чёткой определённой семантики, её сложнее хранить и обрабатывать. Противоположностью неструктурированной информации является организация информации в виде базы данных. Базы данных проектируются таким образом, чтобы исключить дублирование информации, облегчить поиск и доступ к её элементам. Представление информации в виде текста хоть и далеко от представления в виде БД, но ей также присуща определённая структура. Так для многих текстов характерны заголовки, абзацы и другие виды форматирования (отступы и пр.). Примерами документов могут быть: web-страницы, электронная почта, нормативные документы и т.п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию.
Остановимся на некоторых характерных чертах информационного поиска.
При поиске ответа на запрос нас иногда устроят частичные совпадения с запросом и выборка наилучших документов из найденных.
Сам запрос составляется на естественном языке, хотя и допускает включение дополнительных служебных конструкций специального языка запросов.

Среди задач по обработке текстов выделяют классификацию и кластеризацию текстовой информации.
В задаче кластеризации требуется произвести группировку текстовых документов по их содержимому. По аналогии с расстановкой книг по темам на полке.
В задаче классификации задаётся набор тем, категорий (например даты, или исторические периоды) и задача заключается в нахождении правил, по которым можно отнести тот или иной документ к определённой категории. Зачастую на начальном этапе прибегают к ручной классификации, которая хоть и точнее, но заведомо медленна. Полученный набор правил затем можно использовать, чтобы классифицировать новые документы автоматически.

Информационный поиск также различается по назначению и объёму данным, с которым нужно работать.

к библиотеке   к оглавлению   к дискретной математике   технологии программирования
Знаете ли Вы, что "тёмная материя" - такая же фикция, как черная кошка в темной комнате. Это не физическая реальность, но фокус, подмена.
Реально идет речь о том, что релятивистские формулы не соответствуют астрономическим наблюдениям, давая на порядок и более меньшую массу и меньшую энергию. Отсюда сделан фокуснический вывод, что есть "темная материя" и "темная энергия", но не вывод, что релятивистские формулы не соответствуют реалиям. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМАФорум Рыцари теории эфира
Рыцари теории эфира
 15.01.2017 - 21:42: СОВЕСТЬ - Conscience -> РУССКИЙ МИР - Карим_Хайдаров.
15.01.2017 - 09:02: СОВЕСТЬ - Conscience -> КОЛЛАПС МИРОВОЙ ФИНАНСОВОЙ СИСТЕМЫ - Карим_Хайдаров.
14.01.2017 - 08:41: Беседка - Chatter -> С Новым годом. - Карим_Хайдаров.
13.01.2017 - 00:44: АСТРОФИЗИКА - Astrophysics -> Комета 67Р/Чурюмова-Герасименко и проблема ее происхождения - Евгений_Дмитриев.
12.01.2017 - 16:12: СОВЕСТЬ - Conscience -> Проблема государственного терроризма - Карим_Хайдаров.
12.01.2017 - 07:34: СОВЕСТЬ - Conscience -> Просвещение от академика С.Ю. Глазьева - Карим_Хайдаров.
11.01.2017 - 18:50: Беседка - Chatter -> ФУТУРОЛОГИЯ - прогнозы на будущее - Карим_Хайдаров.
11.01.2017 - 09:58: ЦИТАТЫ ЧУЖИХ ФОРУМОВ - Outside Quotings -> ЗА НАМИ БЛЮДЯТ - гость Владимир_Федотьев.
11.01.2017 - 04:57: СОВЕСТЬ - Conscience -> ПРОБЛЕМА КРИМИНАЛИЗАЦИИ ЭКОНОМИКИ - Карим_Хайдаров.
06.01.2017 - 10:23: СОВЕСТЬ - Conscience -> Просвещение от Андрея Фурсова - Карим_Хайдаров.
10.12.2016 - 06:55: СОВЕСТЬ - Conscience -> Инфоварщина от Сергея Быковского - Карим_Хайдаров.
07.12.2016 - 06:43: СОВЕСТЬ - Conscience -> Просвещение от В.В. Пякина - Карим_Хайдаров.
Bourabai Research Institution home page

Bourabai Research - Технологии XXI века Bourabai Research Institution