Пусть - множество документов, - множество категорий, - целевая функция, которая по паре определяет, относится ли документ к категории (1 или True) или нет (0 или False). Задача классификации состоит в построении функции, максимально близкой к оптимально разделяющей пространство признаков на непересекающиеся области классов.
Коллекция заранее классифицированных экспертами документов, т.е. таких, для которых уже точно известно значение целевой функции, разбивается на две части:
1. Учебная выборка. Классификатор строится на основе характеристик этих документов.
2. Тестовая выборка. На ней проверяется качество классификации. Эти документы не должны использоваться в процессе построения классификатора.
Рассматриваемая классификация называется четкой бинарной, то есть подразумевается, что существуют только две категории, которые не пересекаются. К такой классификации сводится много задач, например, классификация по множеству категорий разбивается на бинарных классификаций по множествам.
Часто используется ранжирование, при котором множество значений целевой функции - это отрезок [0, 1]. Документ при ранжировании может относиться не только к одной, а сразу к нескольким категориям с разной степенью принадлежности, т.е. категории могут пересекаться между собой.
Знаете ли Вы, что релятивистское объяснение феномену CMB (космическому микроволновому излучению) придумал человек выдающейся фантазии Иосиф Шкловский (помните книжку миллионного тиража "Вселенная, жизнь, разум"?). Он выдвинул совершенно абсурдную идею, заключавшуюся в том, что это есть "реликтовое" излучение, оставшееся после "Большого Взрыва", то есть от момента "рождения" Вселенной. Хотя из простой логики следует, что Вселенная есть всё, а значит, у нее нет ни начала, ни конца... Подробнее читайте в FAQ по эфирной физике.