Метод SSA (Singular Spectrum Analysis)

Описывается базовый алгоритм анализа одномерных временных рядов, реализуемый методом "Гусеница" (Singular Spectrum Analysis), проанализированы его этапы. Обсуждается выбор параметров ппри применении метода: выбор длины гусеницы, отбор главных компонент. Даются полезные рекомендации относительно этого метода.

Описание базового алгоритма

Рассмотрим временной ряд {x_i}^N_i₌₁, образованный последовательностью N равноотстоящих значений некоторой (возможно, случайной) функции f(t):

Отметим, что существует несколько вариантов базового алгоритма, здесь мы опишем лишь минимальный.

Базовый алгоритм метода "Гусеница" можно разбить на четыре этапа.

Этап 1. ( Развертка одномерного ряда в многомерный )

Выберем некоторое число M<N , называемое длиной гусеницы, и представим первые M значений последовательности f в качестве первой строки матрицы X . В качестве второй строки матрицы берем значения последовательности с x₂ по x_M₊₁. Последней строкой с номером k = N – M + 1 будут последние M элементов последовательности. Эту матрицу, элементы которой равны x_ij = x_i+j-₁, можно рассматривать как M – мерную выборку объема k или M – мерный временной ряд, которому соответствует M – мерная траектория (ломаная в M – мерном пространстве из k-1 звена. Отметим, что матрица X (будем называть ее матрицей ряда) представлена в традиционном для прикладной статистики виде "строка – индивид, столбец – признак". При изложении теоретических аспектов естественным является сопоставление индивиду столбца.

Далее по обычной схеме (за исключением стандартизации признаков) проводится анализ главных компонент (АГК).

Этап 2. ( Анализ главных компонент: сингулярное разложение выборочной ковариационной матрицы )

Сначала вычисляется матрица V = (1/k)X^TX. Несмотря на то, что ее элементы не центрированы, мы будем называть ее ковариационной матрицей, иногда добавляя слово "нецентральная".

Следующий шаг, как обычно в АГК, состоит в вычислении собственных чисел и собственных векторов матрицы V , т.е. разложение ее V = PLP^T, где L – диагональная матрица, на диагонали которой стоят упорядоченные по убыванию собственные числа, а P – ортогональная матрица собственных векторов матрицы V.

Матрицы L и P совместно имеют множество интерпретаций, основанных на АГК. В частности, матрицу P можно рассматривать как матрицу перехода к главным компонентам XP = Y = (y₁,y₂,...,y_M).

Если изучается выборка из случайной совокупности, то собственные числа матрицы V являются выборочными дисперсиями соответствующих главных компонент, а квадратные корни из них – выборочными стандартами. Графическое представление собственных чисел и некоторых функций от них в АГК традиционно используется для выявления структуры исследуемой совокупности и отбора и интерпретации главных компонент.

Заметим также, что при выборе длины гусеницы, равной N-M+1 , собственные вектора и главные компоненты (с точностью до нормировки) просто меняются местами.

В силу свойств матрицы P мы можем представить матрицу ряда X как X = Y P^T. Таким образом, мы получаем разложение матрицы ряда по ортогональным составляющим (главным компонентам).

В то же время преобразование y_j = X p_j является линейным преобразованием исходного процесса с помощью дискретного оператора свертки, т.е.

Таким образом, процедура "Гусеница" порождает набор линейных фильтров, настроенных на составляющие исходного процесса. При этом собственные векторы матрицы V выступают в роли переходных функций соответствующих фильтров.

Визуальное и аналитическое изучение как собственных векторов, так и главных компонент, полученных в результате линейной фильтрации, может дать много интересной информации о структуре изучаемого процесса и свойствах составляющих его слагаемых.

В частности, среди главных компонент можно выделить

Для нахождения периодических составляющих чрезвычайно большую визуальную информацию дает изучение двумерных графиков, аналогичных фигурам Лиссажу, когда по осям x и y откладываются различные пары собственных векторов или главных компонент. Известно, что, если по осям откладывать значения синусоиды одной и той же той же частоты, но с разными фазами, то на плоскости получается эллипс. Из ортогональности собственных векторов и главных компонент следует, что сдвиг фаз между такими парами обязательно будет равен ±p/2 и эллипс переходит в окружность.

Этап 4 . ( Восстановление одномерного ряда )

Следующим ключевым элементом метода "Гусеница" является процедура восстановления. Эта процедура основана на разложении X = Y P^T. Будем говорить, что восстановление проводится по данному набору главным компонентам, если при применении формулы восстановления X = Y^* P^T матрица Y^* получена из матрицы Y обнулением всех не входящих в набор главных компонент. Таким образом, мы можем получить интересующее нас приближение матрицы ряда или интерпретируемую часть этой матрицы.

Переход к исходному ряду формально может быть осуществлен усреднением матрицы ряда по побочным диагоналям и может привести к некоторому искажению полученной структуры.

Отметим сразу одну очень важную особенность описанного метода – его интерактивность, то есть использование диалога исследователя и ЭВМ в процессе применения метода. Причем эта интерактивность не должна рассматриваться как следствие общей тенденции развития современного программного обеспечения персональных ЭВМ. Скорее, наоборот, эффективная реализация алгоритма стала возможной только благодаря возможностям современных ПК. Его интерактивность связана с типично статистическим свойством алгоритма – необходимостью интерпретации промежуточных результатов и управлением работой алгоритма в процессе многоэтапной процедуры обработки. Опыт многолетнего использования различных реализаций алгоритма на ЭВМ разных поколений показал, что чем больше промежуточных результатов удается "увидеть", тем более полным оказывается решение поставленной задачи.

Заметим, что при программной реализации этапы приведенного выше алгоритма не воспроизводятся непосредственно. Например, этап построения матрицы X отсутствует, а формулы преобразованы к виду удобному для проведения ускоренных вычислений.

Выбор параметров при применении метода "Гусеница"

Как видно из описания метода, основным управляющим параметром метода является M – длина гусеницы.

При геометрической интерпретации этот параметр является размерностью пространства, в котором исследуется траектория многомерной ломаной линии, в которую переводится исходный временной ряд процедурой гусеница. Естественным условием является M<N/2 , так как размерность множества k точек (вершин ломаной) в M -мерном пространстве не превосходит min(M,k-1). Этот подход тесно связан с аналитической интерпретацией метода гусеница как аппроксимацией решения уравнения в конечных разностях с l коэффициентами. Можно сказать, что l – это число степеней свободы функции f(t), а следовательно, и соответствующего ей временного ряда. В процедуре "Гусеница" это выразится в том, что при M>l у ковариационной матрицы окажется только l ненулевых собственных чисел (учитывая ограниченную точность вычислений, остальные M-l будут почти нулевые). Однако, в реальных исследованиях эта ситуация достаточно редкая.

В общем случае выбор длины гусеницы существенно зависит от задачи, решаемой этим методом. Рассмотрим три наиболее типичных и исследованных разработчиками случая.

Напомним, однако, что метод чрезвычайно устойчив относительно изменения длины гусеницы, и, поэтому, когда речь идет о выборе M , то следует понимать, что проявляется резонансный эффект относительно длины гусеницы не столько в количественном, сколько в качественном смысле.

Следующим элементом методики проведения анализа методом "Гусеница", который не может быть выполнен априори, является отбор главных компонент, информативных в том или ином смысле.

Для этих двух представлений имеется 4 набора интерпретируемых объектов:

Еще раз отметим два крайних случая, где логика отбора несколько отличается:

Знаете ли Вы, что такое "усталость света"?
Усталость света, анг. tired light - это явление потери энергии квантом электромагнитного излучения при прохождении космических расстояний, то же самое, что эффект красного смещения спектра далеких галактик, обнаруженный Эдвином Хабблом в 1926 г.
На самом деле кванты света, проходя миллиарды световых лет, отдают свою энергию эфиру, "пустому пространству", так как он является реальной физической средой - носителем электромагнитных колебаний с ненулевой вязкостью или трением, и, следовательно, колебания в этой среде должны затухать с расходом энергии на трение. Трение это чрезвычайно мало, а потому эффект "старения света" или "красное смещение Хаббла" обнаруживается лишь на межгалактических расстояниях.
Таким образом, свет далеких звезд не суммируется со светом ближних. Далекие звезды становятся красными, а совсем далекие уходят в радиодиапазон и перестают быть видимыми вообще. Это реально наблюдаемое явление астрономии глубокого космоса. Подробнее читайте в FAQ по эфирной физике.

Метод SSA (Singular Spectrum Analysis)

(Метод SSA - "Гусеница": базовый алгоритм)

Описание базового алгоритма

Выбор параметров при применении метода "Гусеница"