Один из источников концепции Text Mining - контент-анализ. Понятие контент-анализа, корни которого уходят в психологию и
социологию, не имеет однозначного определения:
-
Контент-анализ -
это методика объективного качественного и систематического изучения
содержания средств коммуникации - Д. Джери (J.J.
Jerry), Дж. Джери (J.
Jerry).
-
Контент-анализ -
это систематическая числовая обработка, оценка и интерпретация формы и
содержания информационного источника -Д. Мангейм (D. Mangeim), Р.
Рич (R.
Rich).
-
Контент-анализ -
это качественно-количественный метод изучения документов, который
характеризуется объективностью выводов и строгостью процедуры и
заключается в квантифицированной обработке
текста с дальнейшей интерпретацией результатов (В. Иванов).
-
Контент-анализ
состоит в нахождении в тексте определенных содержательных понятий (единиц
анализа), выявлении частоты их появления и соотношения с содержанием всего
документа (Б. Краснов).
Большинство
из приведенных определений конструктивны, но из-за различных начальных
посылок они порождают различные, а порой и противоречащие друг другу
алгоритмы.
Принято
разделять методологии контент-анализа на две
области: качественную и количественную. Основа количественного контент-анализа - частота появления в документах
определенных характеристик содержания (понятий, феноменов). Качественный
контент-анализ основан на самом факте
присутствия или отсутствия в тексте одной или нескольких характеристик
содержания.