Пусть - множество документов, - множество категорий, - целевая функция, которая по паре определяет, относится ли документ к категории (1 или True) или нет (0 или False). Задача классификации состоит в построении функции, максимально близкой к оптимально разделяющей пространство признаков на непересекающиеся области классов.
Коллекция заранее классифицированных экспертами документов, т.е. таких, для которых уже точно известно значение целевой функции, разбивается на две части:
1. Учебная выборка. Классификатор строится на основе характеристик этих документов.
2. Тестовая выборка. На ней проверяется качество классификации. Эти документы не должны использоваться в процессе построения классификатора.
Рассматриваемая классификация называется четкой бинарной, то есть подразумевается, что существуют только две категории, которые не пересекаются. К такой классификации сводится много задач, например, классификация по множеству категорий разбивается на бинарных классификаций по множествам.
Часто используется ранжирование, при котором множество значений целевой функции - это отрезок [0, 1]. Документ при ранжировании может относиться не только к одной, а сразу к нескольким категориям с разной степенью принадлежности, т.е. категории могут пересекаться между собой.
Знаете ли Вы, что, как и всякая идолопоклонническая религия, релятивизм представляет собой инструмент идеологического подчинения одних людей другим с помощью абсолютно бессовестной манипуляции их психикой для достижения интересов определенных групп людей, стоящих у руля этой воровской машины? Подробнее читайте в FAQ по эфирной физике.