Предположим, что для каждой категории построена функция (статус классификации), отображающая множество документов D на отрезок [0; 1], которая задает степень принадлежности документа категории. Рассмотрим задачу, заключающуюся в том, чтобы от функции ранжирования перейти к точной классификации. Наиболее простой способ - для каждой категории выбрать предельное значение (порог). Если то документ соответствует категории . Возможен и другой подход - для каждого документа выбирать ближайших категорий, т.е. категорий, на которых принимают наибольшие значения.
Выбор порогового значения возможен, например таким способом. Учебная коллекция разбивается на две части. Для каждой категории на одной части учебной коллекции вычисляется, какая часть документов ей принадлежит. Пороговые значения выбирается так, чтобы на другой части учебной коллекции количество документов, отнесенных, было таким же.
Знаете ли Вы, что в 1965 году два американца Пензиас (эмигрант из Германии) и Вильсон заявили, что они открыли излучение космоса. Через несколько лет им дали Нобелевскую премию, как-будто никто не знал работ Э. Регенера, измерившего температуру космического пространства с помощью запуска болометра в стратосферу в 1933 г.? Подробнее читайте в FAQ по эфирной физике.