Как правило, задача выявления новых событий из потока сообщений предполагает, что на вход соответствующего программно-технологического комплекса последовательно поступают новые документы. Они могут поступать как непосредственно от средств сканирования, так и будут отобраны по тематическому запросу. При этом зачастую остается открытым прогнозный вопрос, какое событие в данный момент освещено пока мало, но в дальнейшем получит большой резонанс. Этот вопрос связан с общей задачей нахождения исключений или аномалий, т.е. объектов, которые своими характеристиками значительно выделяются из общей массы (хотя в дальнейшем могут породить множество себе подобных). Для решения этой проблемы было предложено несколько путей.
Подход Г. Солтона в определении повых событий заключается в использовании векторно-пространственного представления документов и традиционных методов кластеризации. При этом малый вес приписывается высокочастотным словам из массива документов, что вполне укладывается в модель TF IDF. Документы при этом подходе обрабатываются последовательно в соответствии с таким алгоритмом:
1. Первому рассматриваемому документу ставится в соответствие первый кластер. Каждый кластер представляется вектором термов (ключевых слов), входящих в документы этого кластера. Нормированный каким-то образом вектор термов принято называть центроидом. Иногда центроидом называют документ, самый близкий по некоторому критерию к вектору термов данного кластера, что не меняет сути данного алгоритма.
2. Каждый следующий документ сравнивается с центроидами существующих кластеров (для этого вводится некоторая мера близости).
3. Если документ достаточно близок к некоторому кластеру, то он приписывается этому кластеру, после чего происходит пересчет соответствующего центроида.
4. Если документ не близок к существующим кластерам, то происходит формирование нового кластера, которому приписывается данный документ.
5. Временной диапазон рассматриваемых документов принято называть “окном наблюдения”. Кластеры, все документы которых выходят за пределы окна наблюдения, выносятся за рамки рассмотрения.
В результате работы алгоритма каждому новому возникающему кластеру соответствует новое событие, отражаемое в документах данного кластера.
В сответствии с подходом, предлагаемым Р. Папка [120], новые события выявляются из документов, не удовлетворяющих запросам пользователей, построенным с учетом уже известных событий. Алгоритм выявления новых событий заключается в следующем:
1. Формируются запросы по известным темам (при этом используются технологии Text Mining – выявления и выбора понятий из текстов сообщений).
2. Новый поступающий документ сравнивается с существующими запросами.
3. Если документ не соответствует запросам, то он ассоциируется с новым событием.
4. В систему включается новый запрос, соответствующий данному документу.
В реально работающих системах интеграции новостей, как правило, применяются многопараметрические подходы, учитывающие, не только информацию из текста новостей, но и время их публикации, уровень источника, соответствие тематикам пользователей [94]. Один из таких подходов к выявлению новых событий [31] базируется на таких предположениях, относящихся к публикации соответствующих информационных сообщений:
а) минимальное время, прошедшее с момента публикации;
б) минимизация веса термов, входящих в документ, по частотному словарю, сформированному на основании анализа большого массива опубликованных документов (это условие, аналогичное максимизации параметра IDF в векторно-пространственной модели);
в) максимизация суммарного веса термов, входящих в документ, по плюс-словарю (содержащему важные для содержания новостей слова типа “теракт”, “конфликт”, “сенсация” и т.п.);
г) учет ранга “авторитетности” источника (как правило, определяемый экспертами).
Когда тот или иной физик использует понятие "физический вакуум", он либо не понимает абсурдности этого термина, либо лукавит, являясь скрытым или явным приверженцем релятивистской идеологии.
Понять абсурдность этого понятия легче всего обратившись к истокам его возникновения. Рождено оно было Полем Дираком в 1930-х, когда стало ясно, что отрицание эфира в чистом виде, как это делал великий математик, но посредственный физик Анри Пуанкаре, уже нельзя. Слишком много фактов противоречит этому.
Для защиты релятивизма Поль Дирак ввел афизическое и алогичное понятие отрицательной энергии, а затем и существование "моря" двух компенсирующих друг друга энергий в вакууме - положительной и отрицательной, а также "моря" компенсирующих друг друга частиц - виртуальных (то есть кажущихся) электронов и позитронов в вакууме.
Однако такая постановка является внутренне противоречивой (виртуальные частицы ненаблюдаемы и их по произволу можно считать в одном случае отсутствующими, а в другом - присутствующими) и противоречащей релятивизму (то есть отрицанию эфира, так как при наличии таких частиц в вакууме релятивизм уже просто невозможен). Подробнее читайте в FAQ по эфирной физике.