к библиотеке   к оглавлению   к дискретной математике   технологии программирования

Информационный поиск в текстах
Введение в Information Retrieval и Text Mining

  1. Концепция Text Mining
  2. Контент-анализ
  3. Элементы Text Mining
  4. Извлечение понятий

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определённым правилам, размещение её в специальных структурах (например, в реляционных таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и получения из неё новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразования, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста.
Термин Information Retrieval (IR) можно трактовать достаточно широко.
В качестве русского перевода термина будем использовать словосочетание "информационный поиск". К задаче информационного поиска относится чтение названий улиц на дорожных указателях, отыскание в тексте имени некого персонажа или названия. Список примеров можно продолжить.
В общем виде

Information Retrieval - это отыскание информации слабо структурированного типа, отвечающей информационной потребности, среди большого объёма информации. Информации в данном случае присуще то, что она обычно представлена в виде текстовых документов и хранится в электронном виде.
Иформационная потребность - это некий набор данных, необходимый пользователю для того, чтобы больше узнать об интересующей его предметной области.

Неструктурированная информация не имеет чёткой определённой семантики, её сложнее хранить и обрабатывать. Противоположностью неструктурированной информации является организация информации в виде базы данных. Базы данных проектируются таким образом, чтобы исключить дублирование информации, облегчить поиск и доступ к её элементам. Представление информации в виде текста хоть и далеко от представления в виде БД, но ей также присуща определённая структура. Так для многих текстов характерны заголовки, абзацы и другие виды форматирования (отступы и пр.). Примерами документов могут быть: web-страницы, электронная почта, нормативные документы и т.п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию.
Остановимся на некоторых характерных чертах информационного поиска.
При поиске ответа на запрос нас иногда устроят частичные совпадения с запросом и выборка наилучших документов из найденных.
Сам запрос составляется на естественном языке, хотя и допускает включение дополнительных служебных конструкций специального языка запросов.

Среди задач по обработке текстов выделяют классификацию и кластеризацию текстовой информации.
В задаче кластеризации требуется произвести группировку текстовых документов по их содержимому. По аналогии с расстановкой книг по темам на полке.
В задаче классификации задаётся набор тем, категорий (например даты, или исторические периоды) и задача заключается в нахождении правил, по которым можно отнести тот или иной документ к определённой категории. Зачастую на начальном этапе прибегают к ручной классификации, которая хоть и точнее, но заведомо медленна. Полученный набор правил затем можно использовать, чтобы классифицировать новые документы автоматически.

Информационный поиск также различается по назначению и объёму данным, с которым нужно работать.

к библиотеке   к оглавлению   к дискретной математике   технологии программирования

Сайт ПДСНПСР. Если ты патриот России - жми сюда!

Грудинин: 18 МАРТА - НАШ СТАЛИНГРАД!

Грудинин: СДЕЛАТЬ ТАКОЙ ЖЕ ВСЮ СТРАНУ!

Народное голосование за президента России 18, 28 января и 8 февраля 2018

Кандидат

Партия

18 янв. 2018
17062 чел.

28 янв. 2018
126552 чел.

8 фев. 2018
175433 чел.

18 фев. 2018
204643 чел.

  Павел Грудинин

  КПРФ и национальные силы

   49,84%

   58,39%

   60,89%

   61,79%

  Владимир Путин

  При поддержке партии власти

   24,72%

   29,29%

   29,27%

   28,37%

  Алексей Навальный

  Партия Прогресса

   12,56%

снят с выборов

  Владимир Жириновский  

  Либеральные демократы

    8,25%

    5,64%

    5,03%

    4,84%

  Ксения Собчак

  Гражданская инициатива ДОМ-2

    2,55%

    3,02%

    3,14%

    3,16%

  Григорий Явлинский

  Партия «Яблоко»

   0,82%

   1,00%

   1,05%

   1,08%

  Борис Титов

   Партия Роста

   0,11%

   0,27%

   0,39%

   0,46%

  Сергей Бабурин

  Российский общенародный союз

   0,10%

   0,14%

   0,20%

   0,31%

  Максим Сурайкин

  Партия «Коммунисты России»

   0,26%

   0,20%

   0,24%

   0,27%

  Вячеслав Мальцев

  Самовыдвиженец

   0,33%

снят с выборов

  Андрей Богданов

  Политтехнолог

   0,15%

снят с выборов

  Сергей Полонский

  Самовыдвиженец

   0,14%

снят с выборов

  Андрей Бажутин

  Лидер дальнобойщиков

   0,13%

снят с выборов

  Антон Баков

  Монархическая партия

   0,08%

   0,07%

снят с выборов

  Борис Якеменко

  Самовыдвиженец

   0,02%

снят с выборов

На всякого подлеца довольно простоты

Знаете ли Вы, как разрешается парадокс Ольберса?
(Фотометрический парадокс, парадокс Ольберса - это один из парадоксов космологии, заключающийся в том, что во Вселенной, равномерно заполненной звёздами, яркость неба (в том числе ночного) должна быть примерно равна яркости солнечного диска. Это должно иметь место потому, что по любому направлению неба луч зрения рано или поздно упрется в поверхность звезды.
Иными словами парадос Ольберса заключается в том, что если Вселенная бесконечна, то черного неба мы не увидим, так как излучение дальних звезд будет суммироваться с излучением ближних, и небо должно иметь среднюю температуру фотосфер звезд. При поглощении света межзвездным веществом, оно будет разогреваться до температуры звездных фотосфер и излучать также ярко, как звезды. Однако в дело вступает явление "усталости света", открытое Эдвином Хабблом, который показал, что чем дальше от нас расположена галактика, тем больше становится красным свет ее излучения, то есть фотоны как бы "устают", отдают свою энергию межзвездной среде. На очень больших расстояниях галактики видны только в радиодиапазоне, так как их свет вовсе потерял энергию идя через бескрайние просторы Вселенной. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМАФорум Рыцари теории эфира
Рыцари теории эфира
  16.02.2018 - 14:17: СОВЕСТЬ - Conscience -> РУССКИЙ МИР - Карим_Хайдаров.
05.10.2017 - 11:03: СОВЕСТЬ - Conscience -> Проблема государственного терроризма - Карим_Хайдаров.
19.10.2017 - 04:24: Беседка - Chatter -> ЭПИСТОЛЯРНАЯ ФИЗИКА - Карим_Хайдаров.
11.10.2017 - 05:10: ЭКСПЕРИМЕНТАЛЬНАЯ ФИЗИКА - Experimental Physics -> Эксперименты с трансформатором Тесла - Карим_Хайдаров.
04.10.2017 - 15:26: ЭКОНОМИКА И ФИНАНСЫ - Economy and Finances -> ПРОБЛЕМА КРИМИНАЛИЗАЦИИ ЭКОНОМИКИ - Карим_Хайдаров.
04.10.2017 - 05:02: Беседка - Chatter -> "Зенит"ы с "Протон"ами будут падать - Карим_Хайдаров.
03.10.2017 - 18:16: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от О.Н. Четвериковой - Карим_Хайдаров.
03.10.2017 - 07:42: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вазгена Авагяна - Карим_Хайдаров.
03.10.2017 - 07:24: ЦИТАТЫ ЧУЖИХ ФОРУМОВ - Outside Quotings -> ЗА НАМИ БЛЮДЯТ - Карим_Хайдаров.
03.10.2017 - 05:48: Беседка - Chatter -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
02.10.2017 - 19:04: АСТРОФИЗИКА - Astrophysics -> Апериодическая комета C/2014 Q2 Lovejoy - Карим_Хайдаров.
02.10.2017 - 14:57: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
Bourabai Research Institution home page

Bourabai Research - Технологии XXI века Bourabai Research Institution