В соответствии с уже сложившейся методологией, к основным элементам Text
Mining относятся: классификация (classification, categorization), кластеризация (clustering), извлечение фактов, понятий (feature extraction),
реферирование (summarization), ответ на запросы
(question answering),
тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching).
При классификации текстов, методы которой детально рассматриваются в четвертой главе, используются статистические корреляции для размещения документов в определенные категории. Задача классификации - это классическая задача распознавания, где по некоторой контрольной выборке система относит новый объект к той или иной категории. Особенность классификации в рамках концепции Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большим, поэтому должны быть предусмотрены механизмы оптимизации этого процесса.
В отличие от классификации, при кластеризации заранее не фиксируются
определенные категории. Результатом кластеризации является автоматическое
группирование информации, в результате которой создаются классификационные
схемы, обеспечивающие эффективный охват больших объемов данных.
Кластеризация в Text Mining рассматривается как
процесс выделения компактных подгрупп объектов с близкими свойствами. При
кластеризации система должна самостоятельно найти признаки и разделить
объекты по группам. Кластеризация, как правило, предшествует
классификации, поскольку позволяет определять группы объектов.
Text Mining предусматривает также построение семантических сетей, анализ связей, которые определяются появлением дескрипторов (например, ключевых слов) в текстах.
Кроме того, существует еще несколько задач технологии Text Mining, например, прогнозирование, которое заключается в том, чтобы предсказать по значениям одних признаков текста значения остальных. Еще одна задача - нахождение исключений, то есть поиск документов, которые своими характеристиками выделяются из общей массы [3]. Для этого сначала выясняются средние параметры документов, а затем исследуются те документы, параметры которых наиболее сильно отличаются от средних значений. Обычно поиск исключений зачастую проводится после классификации или кластеризации для того чтобы выяснить, насколько последние были точны.
Несколько отдельно от задачи кластеризации стоит задача поиска связанных признаков (ключевых слов, понятий) отдельных документов. От прогноза эта задача отличается тем, что заранее не известно, по каким именно признакам реализуется взаимосвязь - цель именно в том и состоит, чтобы найти связи признаков. Эта задача сходна с кластеризацией, но не по множеству документов, а по множеству признаков.