Извлечение
понятий (Feature Extraction) из текста представляет собой технологию,
обеспечивающую получение информации в структурированном виде. В качестве
структур могут запрашиваться как относительно простые понятия (ключевые
слова, персоны, организации, географические названия), так и более
сложные, например, имя персоны, ее должность в конкретной организации
и т.п.
Данная
технология включает три
основных метода:
а)
Entity Extraction - извлечение слов или словосочетаний, важных для
описания содержания текста. Это могут быть списки терминов предметной
области, персон, организаций,
географических названий, и др.;
б)
Feature Association Extraction - прослеживание связей между извлеченными
понятиями;
в) Event
and Fact Extraction - извлечение сущностей, распознавание
фактов и событий.
Технология
извлечения понятий основана на применении специальных
семантико-лингвистических методов, которые дают возможность получать
приемлемую точность и полноту.
Следует
отметить, что подходы к извлечению различных типов понятий из текстов
существенно разняться как по контексту их представления, так и по
структурным признакам. Так, для выявления принадлежности документа к
тематической рубрике могут использоваться специальным образом составленные
запросы на информационно-поисковых языках, включающих логические и
контекстные операторы, скобки и т.д. Выявление географических названий
предполагает использование таблиц, в которых кроме шаблонов написания этих
названий используются коды и названия стран, регионов и отдельных
населенных пунктов.
В
качестве одного из примеров рассмотрим алгоритм выявления названий фирм в
текстах документов (рис. 10). На вход системы поступает документ, который
анализируется в процессе последовательного считывания (блок «Чтение
документа»). Текст документа сравнивается с шаблонами, соответствующими
названиям известных фирм, и если такие присутствуют, то они помещаются в
специальную таблицу «документ-фирма». Также система извлечения понятий
предполагает выявление неизвестных изначально названий фирм на основании
как шаблонов, так и результатов структурных исследований текста. При этом,
в частности, используется таблица префиксов названий фирм, содержащая
такие элементы, как «ООО», «ЗАО», «АО», «Компания» и др.
Выявленные
понятия могут служить основой для построения многопрофильных
информационных портретов или интерактивных ситуационных графов (сетей, узлами которой являются понятия, а ребрами – информационные связи между
ними), соответствующих запросам пользователей. Непосредственно по данным,
представленным на ситуационной карте, отражающей наиболее актуальные
понятия (термины, тематические рубрики, географические названия, фамилии
персон, названия компаний) возможно выявление взаимосвязей, т.е. сами
ситуационные карты могут служить исходными данными для построения сетей
взаимосвязей понятий.