В настоящее время существует множество систем глубинного анализа текстов, как встроенных в другие, более комплексные системы, так и автономных. В частности, корпорация IBM (www.ibm.com) создала систему Intelligent Miner for Text, представляющую собой набор утилит, реализующих функции Text Mining:
- Language Identification Tool - утилита определения языка, на котором составлен документ.
- Categorisation Tool - утилита классификации - автоматического отнесения текста к некоторой категории.
- Clusterisation Tool - утилита кластеризации - разбиения большого множества документов на группы по близости стиля, формы, различных частотных характеристик ключевых слов.
- Feature Extraction Tool - утилита определения нового - выявление в документе новых термов, таких как собственные имена, названия, сокращения, на основе анализа заданного заранее словаря.
- Annotation Tool - утилита "выявления содержания" текстов и составления рефератов - аннотаций.
Другая известная система PolyAnalyst компании Мегапьютер Интеллидженс (www.megaputer.com) может применяться для автоматизированного анализа числовых и текстовых баз данных с целью выявления прежде неизвестных, нетривиальных, полезных и доступных пониманию закономерностей. В состав PolyAnalyst входит система TextAnalyst, которая позволяет решать такие задачи Text Mining: построение семантической сети для больших текстов, подготовка резюме текста, поиск по тексту, автоматическая классификация и кластеризация текстов.
Система компании SAS (www.sas.com) содержит компонент SAS Text Miner, который позволяет работать с текстовыми документами в различных форматах из баз данных, файловых систем и веб, а также агрегировать текстовую информацию со структурированными данными.
Средства Text Mining сегодня являются неотъемлемой частью продуктов компании Oracle (www.oracle.com). Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию. Oracle Text обеспечивает проведение тематического анализа текстов на английском языке. В ходе обработки текст каждого документа подвергается процедурам лингвистического и статистического анализа, в результате чего определяются его ключевые темы и строятся тематическое, а также общее резюме - реферат.