Реализации систем с элементами Text Mining

В настоящее время существует множество систем глубинного анализа текстов, как встроенных в другие, более комплексные системы, так и автономных. В частности, корпорация IBM (www.ibm.com) создала систему Intelligent Miner for Text, представляющую собой набор утилит, реализующих функции Text Mining:

- Language Identification Tool - утилита определения языка, на котором составлен документ.

- Categorisation Tool - утилита классификации - автоматического отнесения текста к некоторой категории.

- Clusterisation Tool - утилита кластеризации - разбиения большого множества документов на группы по близости стиля, формы, различных частотных характеристик ключевых слов.

- Feature Extraction Tool - утилита определения нового - выявление в документе новых термов, таких как собственные имена, названия, сокращения, на основе анализа заданного заранее словаря.

- Annotation Tool - утилита "выявления содержания" текстов и составления рефератов - аннотаций.

Другая известная система PolyAnalyst компании Мегапьютер Интеллидженс (www.megaputer.com) может применяться для автоматизированного анализа числовых и текстовых баз данных с целью выявления прежде неизвестных, нетривиальных, полезных и доступных пониманию закономерностей. В состав PolyAnalyst входит система TextAnalyst, которая позволяет решать такие задачи Text Mining: построение семантической сети для больших текстов, подготовка резюме текста, поиск по тексту, автоматическая классификация и кластеризация текстов.

Система компании SAS (www.sas.com) содержит компонент SAS Text Miner, который позволяет работать с текстовыми документами в различных форматах из баз данных, файловых систем и веб, а также агрегировать текстовую информацию со структурированными данными.

Средства Text Mining сегодня являются неотъемлемой частью продуктов компании Oracle (www.oracle.com). Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию. Oracle Text обеспечивает проведение тематического анализа текстов на английском языке. В ходе обработки текст каждого документа подвергается процедурам лингвистического и статистического анализа, в результате чего определяются его ключевые темы и строятся тематическое, а также общее резюме - реферат.

Знаете ли Вы, как разрешается парадокс Ольберса?
(Фотометрический парадокс, парадокс Ольберса - это один из парадоксов космологии, заключающийся в том, что во Вселенной, равномерно заполненной звёздами, яркость неба (в том числе ночного) должна быть примерно равна яркости солнечного диска. Это должно иметь место потому, что по любому направлению неба луч зрения рано или поздно упрется в поверхность звезды.
Иными словами парадос Ольберса заключается в том, что если Вселенная бесконечна, то черного неба мы не увидим, так как излучение дальних звезд будет суммироваться с излучением ближних, и небо должно иметь среднюю температуру фотосфер звезд. При поглощении света межзвездным веществом, оно будет разогреваться до температуры звездных фотосфер и излучать также ярко, как звезды. Однако в дело вступает явление "усталости света", открытое Эдвином Хабблом, который показал, что чем дальше от нас расположена галактика, тем больше становится красным свет ее излучения, то есть фотоны как бы "устают", отдают свою энергию межзвездной среде. На очень больших расстояниях галактики видны только в радиодиапазоне, так как их свет вовсе потерял энергию идя через бескрайние просторы Вселенной. Подробнее читайте в FAQ по эфирной физике.