к библиотеке   к оглавлению   к дискретной математике   технологии программирования

Информационный поиск в текстах
Введение в Information Retrieval и Text Mining

  1. Концепция Text Mining
  2. Контент-анализ
  3. Элементы Text Mining
  4. Извлечение понятий

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определённым правилам, размещение её в специальных структурах (например, в реляционных таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и получения из неё новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразования, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста.
Термин Information Retrieval (IR) можно трактовать достаточно широко.
В качестве русского перевода термина будем использовать словосочетание "информационный поиск". К задаче информационного поиска относится чтение названий улиц на дорожных указателях, отыскание в тексте имени некого персонажа или названия. Список примеров можно продолжить.
В общем виде

Information Retrieval - это отыскание информации слабо структурированного типа, отвечающей информационной потребности, среди большого объёма информации. Информации в данном случае присуще то, что она обычно представлена в виде текстовых документов и хранится в электронном виде.
Иформационная потребность - это некий набор данных, необходимый пользователю для того, чтобы больше узнать об интересующей его предметной области.

Неструктурированная информация не имеет чёткой определённой семантики, её сложнее хранить и обрабатывать. Противоположностью неструктурированной информации является организация информации в виде базы данных. Базы данных проектируются таким образом, чтобы исключить дублирование информации, облегчить поиск и доступ к её элементам. Представление информации в виде текста хоть и далеко от представления в виде БД, но ей также присуща определённая структура. Так для многих текстов характерны заголовки, абзацы и другие виды форматирования (отступы и пр.). Примерами документов могут быть: web-страницы, электронная почта, нормативные документы и т.п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию.
Остановимся на некоторых характерных чертах информационного поиска.
При поиске ответа на запрос нас иногда устроят частичные совпадения с запросом и выборка наилучших документов из найденных.
Сам запрос составляется на естественном языке, хотя и допускает включение дополнительных служебных конструкций специального языка запросов.

Среди задач по обработке текстов выделяют классификацию и кластеризацию текстовой информации.
В задаче кластеризации требуется произвести группировку текстовых документов по их содержимому. По аналогии с расстановкой книг по темам на полке.
В задаче классификации задаётся набор тем, категорий (например даты, или исторические периоды) и задача заключается в нахождении правил, по которым можно отнести тот или иной документ к определённой категории. Зачастую на начальном этапе прибегают к ручной классификации, которая хоть и точнее, но заведомо медленна. Полученный набор правил затем можно использовать, чтобы классифицировать новые документы автоматически.

Информационный поиск также различается по назначению и объёму данным, с которым нужно работать.

к библиотеке   к оглавлению   к дискретной математике   технологии программирования
Знаете ли Вы, как разрешается парадокс Ольберса?
(Фотометрический парадокс, парадокс Ольберса - это один из парадоксов космологии, заключающийся в том, что во Вселенной, равномерно заполненной звёздами, яркость неба (в том числе ночного) должна быть примерно равна яркости солнечного диска. Это должно иметь место потому, что по любому направлению неба луч зрения рано или поздно упрется в поверхность звезды.
Иными словами парадос Ольберса заключается в том, что если Вселенная бесконечна, то черного неба мы не увидим, так как излучение дальних звезд будет суммироваться с излучением ближних, и небо должно иметь среднюю температуру фотосфер звезд. При поглощении света межзвездным веществом, оно будет разогреваться до температуры звездных фотосфер и излучать также ярко, как звезды. Однако в дело вступает явление "усталости света", открытое Эдвином Хабблом, который показал, что чем дальше от нас расположена галактика, тем больше становится красным свет ее излучения, то есть фотоны как бы "устают", отдают свою энергию межзвездной среде. На очень больших расстояниях галактики видны только в радиодиапазоне, так как их свет вовсе потерял энергию идя через бескрайние просторы Вселенной. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМАФорум Рыцари теории эфира
Рыцари теории эфира
 01.03.2017 - 18:33: СОВЕСТЬ - Conscience -> Проблема государственного терроризма - Карим_Хайдаров.
01.03.2017 - 05:58: СОВЕСТЬ - Conscience -> Просвещение от академика С.Ю. Глазьева - Карим_Хайдаров.
28.02.2017 - 17:38: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
28.02.2017 - 17:13: ЭКОЛОГИЯ - Ecology -> Проблема ГМО - Карим_Хайдаров.
28.02.2017 - 16:30: ФИЗИКА ЭФИРА - Aether Physics -> О механической сущности физических взаимодействий. - ВладиславЧерепенни...
28.02.2017 - 13:19: СОВЕСТЬ - Conscience -> Просвещение от В.В. Пякина - Карим_Хайдаров.
27.02.2017 - 06:06: ЭКСПЕРИМЕНТАЛЬНАЯ ФИЗИКА - Experimental Physics -> Эксперименты с трансформатором Тесла - Карим_Хайдаров.
27.02.2017 - 03:52: АСТРОФИЗИКА - Astrophysics -> Комета 67Р/Чурюмова-Герасименко и проблема ее происхождения - Карим_Хайдаров.
26.02.2017 - 13:52: СОВЕСТЬ - Conscience -> РУССКИЙ МИР - Карим_Хайдаров.
26.02.2017 - 08:28: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМА ПРЕСНОЙ ВОДЫ - Карим_Хайдаров.
24.02.2017 - 16:47: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
22.02.2017 - 16:11: СЕЙСМОЛОГИЯ - Seismology -> КРАТКОСРОЧНЫЙ ПРОГНОЗ ЗЕМЛЕТРЯСЕНИЙ - Карим_Хайдаров.
Bourabai Research Institution home page

Bourabai Research - Технологии XXI века Bourabai Research Institution