5.3. Методы выделения систематических составляющих ряда

Процедура выделения неслучайной систематической составляющей называется сглаживанием временного ряда.

Условно методы сглаживания можно разделить на два класса: аналитические методы и алгоритмические - методы сглаживания типа скользящего среднего.

Аналитические методы основаны на приближении регулярной составляющей ряда некоторой известной с точностью до параметров функцией, для оценки которой используются методы регрессионного анализа. При этом в качестве зависимой переменной выступает значение yt, а независимой переменной является время t.

Алгоритмические методы основаны на простой идее усреднения наблюдаемых соседних значений ряда.

Отметим, что как аналитические, так и алгоритмические методы позволяют сделать выводы о систематической составляющей на основании только наблюдаемых значений анализируемого ряда без привлечения какой - либо дополнительной информации о влиянии факторов, под действием которых она возникает.

5.3.1. Полиномиальные тренды

Часто на практике, если теория не дает явного выражения для функции f(t) в модели (5.1), ее можно аппроксимировать полиномом от времени t. В простейшем случае, если ряд имеет тенденцию равномерного возрастания или убывания его значений, тренд достаточно хорошо можно описать полиномом первой степени, то есть с помощью линейной функции. С помощью полинома второй степени (параболы) можно описать тенденцию возрастания и последующего убывания значений ряда (или наоборот). С помощью полиномов более высоких степеней можно выделить систематическую циклическую составляющую (циклический тренд).

В более сложных случаях, подбирая полином соответствующей степени, мы в принципе можем получить описание любого конечного ряда с желаемой (необходимой) точностью. Отметим, что аппроксимирующий полином служит лишь заменой некоторой объективно существующей, но неизвестной функции времени и чаще всего его коэффициентам нельзя дать какой - либо разумной содержательной интерпретации.

Итак, будем предполагать, что тренд является полиномом степени p

(5.2)

Полином (5.2) определяет кривую регрессии yt по переменным t, t2,...,tp. Для оценки его коэффициентов можно использовать обычный метод наименьших квадратов или его обобщения, если это необходимо (при коррелированных либо гетероскедастичных случайных составляющих модели). При независимых (некоррелированных) гомоскедастичных ошибках получим

где - вектор-столбец оценок параметров, вектор-столбец наблюдений зависимой переменной (значений ряда), X - матрица наблюдений независимых переменных, которая имеет вид

Замечание

Полиномы имеют наиболее простую структуру и удобны с точки зрения получения формально-математических результатов, однако ограничиваться только ими не следует. Так же как в регрессионных моделях, рассмотренных в предыдущих разделах, уместно выбирать любую функцию времени, которая наиболее адекватно описывает тренд. Виды различных нелинейных регрессионных зависимостей, которые могут использоваться и для описания тренда, приведены в п. 4.9. Для их оценки может потребоваться применение нелинейного метода наименьших квадратов.

Пример 5.4. Сглаживание временного ряда для индекса Доу - Джонса

Рассмотрим временной ряд для индекса Доу - Джонса, представленный на рис. 5.1 (данные примера 5.1). Проведем сглаживание этого ряда полиномами различных степеней. Уравнения полиномов, оцененных по методу наименьших квадратов и соответствующие коэффициенты детерминации имеют вид

(5.3)



(5.4)



(5.5)



(5.6)



(5.7)



На рис. 5.4 - 5.8 даны графики линий полиномиальных трендов (5.3) - (5.7).


Рис. 5.4
Индекс Доу - Джонса, линейный тренд




Рис. 5.5
Индекс Доу - Джонса, квадратичный тренд




Рис. 5.6
Индекс Доу - Джонса, кубический тренд




Рис. 5.7
Индекс Доу - Джонса, сглаживание полиномом четвертой степени




Рис. 5.8
Индекс Доу - Джонса, сглаживание полиномом шестой степени



Из графиков, представленных на рис. 5.4 - 5.8 можно видеть, что лучшее сглаживание ряда получается полиномами четвертой и шестой степени, причем увеличение степени полинома с 4 до 6 практически не увеличивает точность аппроксимации. Для более обоснованного выбора степени полинома необходимо провести сравнительный анализ адекватности различных моделей, используя показатели качества регрессионных моделей. Сравнивая коэффициенты детерминации различных моделей, приходим к тому же выводу.

Пример 5.6. Объем торгов на Российской фондовой бирже

Уравнения сглаживающих полиномов различной степени для временного ряда данных примера 5.2 по объему торгов на Российской фондовой бирже имеют вид:

(5.8)



(5.9)



(5.10)



(5.11)



(5.12)



На рис. 5.9 - 5.13 представлены графики сглаживающих кривых (5.8) - (5.12).


Рис. 5.9
Объем торгов, линейный тренд




Рис. 5.10
Объем торгов, квадратичный тренд




Рис. 5.11
Объем торгов, полином степени 4




Рис. 5.12
Объем торгов, полином степени 5




Рис. 5.13
Объем торгов, полином степени 6



Пример 5.7. Объем экспорта в Китай

Уравнения сглаживающих полиномов различной степени для временного ряда данных по экспорту оборудования в Китай (данные примера 5.3) имеют вид

(5.13)



(5.14)



(5.15)



На рис. 5.14 - 5.16 представлены графики аппроксимирующих кривых (5.13) - (5.15).


Рис. 5.14
Объем экспорта, кубический полином




Рис. 5.15
Объем экспорта, полином степени 4




Рис. 5.16
Объем экспорта, полином степени 6



Из графиков рис. 5.14 - 5.16 видно, что в данном примере временной ряд в целом лучше всего сглаживается полиномом шестой степени.

Из анализа приведенных выше примеров сглаживания временных рядов, несмотря на их различную природу и характер, можно сделать следующие общие выводы.

1) Увеличение степени сглаживающего полинома не всегда приводит к существенному увеличению точности аппроксимации (сравните рис. 5.7 и рис. 5.8, рис. 5.15 и рис. 5.16).

2) Отдельные отрезки рядов лучше сглаживаются полиномами различной степени.

3) Для рядов, имеющих сложную структуру, например ряда, представленного на рис. 5.3, 5.14 - 5.16, трудно построить один полином для удовлетворительного сглаживания всего ряда в целом.

Таким образом, с помощью метода наименьших квадратов мы в принципе можем решить задачу сглаживания членов ряда полиномом подходящей степени. Однако во многих практических задачах для удовлетворительного приближения тренда может возникнуть необходимость построения полинома довольно высокого порядка (или сложной аппроксимирующей функции, отличной от полинома), что приводит к вычислительным проблемам. Если с течением времени меняется характер тренда (пример 5.7), то сложно провести сглаживание всего наблюдаемого ряда одним полиномом. В данных и подобных им ситуациях нецелесообразно строить один полином высокой степени для всего ряда в целом. Вместо этого, основываясь на идее полиномиального сглаживания, можно строить различные полиномы невысокой степени для сглаживания различных частей ряда.

5.3.2. Метод скользящих средних (процедура простых скользящих средних)

Данный метод основан на идее последовательного сглаживания членов ряда полиномами, построенными для отдельных частей ряда, и состоит в следующем. Сначала строят полином степени p по первым N членам ряда, причем должно быть , а N может быть любым, и вычисляют значение полинома в средней точке из области его определения. Затем берут N значений ряда со сдвигом на единицу вправо, строят новый полином и вычисляют его значение в средней точке данного отрезка ряда, и так далее. Таким образом, при переходе к очередному шагу происходит как бы скольжение "окном" шириной N по всем значениям ряда. Значение N удобнее выбирать нечетным, поскольку в этом случае середина скользящего интервала (точка, в которой вычисляется значение полинома) всегда будет совпадать с очередным моментом, в котором измерено значение ряда. Ряд вычисленных значений полиномов, построенных по отрезкам ряда из скользящих окон, дает сглаженные оценки значений анализируемого ряда.

Итак, пусть окно содержит нечетное число членов ряда N = 2m + 1. Для удобства и без ограничения общности будем нумеровать их целыми числами (присваивать индексы) t = -m, -(m-1),…,-1, 0, 1,…,m-1, m. Очевидно, при этом средняя точка окна соответствует t = 0. Применяя метод наименьших квадратов для оценки коэффициентов полинома, мы можем получить следующую систему уравнений:

(5.16)

Система (5.16) в нормальной форме имеет вид

(5.17)

Решая (5.17) относительно коэффициента a0, получим равенство вида

(5.18)

Поскольку суммы вида зависят только от m, в уравнении (5.18) все коэффициенты cj, j=1,2,…,2m+1, зависят только от m и p и не зависят от наблюдений yt. Сглаженное значение ряда в точке t = 0 очевидно, равно . Следовательно, сглаженное значение ряда в точке t = 0 равно взвешенному среднему (с весами cj) его наблюдаемых значений в 2m+1 точках.

Таким образом, для оценки тренда методом скользящего среднего, необходимо определить постоянные cj, которые зависят только от выбора m и p, и затем вычислить a0 по формуле (5.18).

Рассмотрим применение данной процедуры на нескольких примерах.

Пример 5.8. Построение скользящей средней с помощью полинома первого порядка

Будем аппроксимировать тренд линейной функцией (p = 1)

(5.19)

Критерий наименьших квадратов для оценки коэффициентов полинома (5.19) имеет вид

(5.20)

Дифференцируя правую часть (5.20) по параметрам a0 и a1 и приравнивая результат к нулю, получим следующую систему уравнений для оценок

(5.21)

(5.22)

Учитывая, что , из первого уравнения системы (5.21), (5.22) получим

(5.23)

Заметим, что в выражении (5.23) индекс означает порядковый номер наблюдения внутри окна, индексы t и связаны между собой соотношением , так что f(0)=f(m + 1). Формула скользящей средней первого порядка (5.23) не зависит от местоположения окна. Обобщая, для любого произвольного значения t, расположенного на расстоянии не менее, чем на m точек от левого и m точек от правого концов анализируемого ряда, мы можем записать

(5.24)

Отсюда следует простое правило выделения неслучайной составляющей ряда с помощью процедуры скользящих средних первого порядка: в качестве сглаженного значения ряда в некоторой точке t следует брать выборочное среднее его значений в точках (t - m), (t - m + 1),…,t,…,(t + m - 1), (t + m). Заметим, что сумма весов в формуле (5.24) равна единице.

Пример 5.9. Построение скользящей средней с помощью полинома второго порядка

Будем аппроксимировать тренд с помощью полиномов второго порядка в скользящем окне, состоящем из пяти точек, то есть в данном примере порядок полинома p = 2, m = 2, N = 2m + 1 = 5. Таким образом,

где t = -2, -1, 0, 1, 2. Критерий наименьших квадратов в этом случае имеет вид

(5.25)

Дифференцируя критерий (5.25) по неизвестным параметрам и приравнивая результат к нулю, получаем систему линейных уравнений

Заметим, далее, что при нечетных k . Учитывая это при решении системы, получаем, что

Таким образом, сглаженное значение ряда равно

(5.26)

В формуле (5.26) сумма весовых коэффициентов, очевидно, снова равна единице. Кроме того, нетрудно заметить, что значения коэффициентов симметричны относительно средней точки скользящего окна.

Задание

Выпишите формулы для вычисления остальных коэффициентов полинома. Хотя их значения не требуются для сглаживания ряда, такое упражнение весьма полезно для лучшего понимания и усвоения материала.

Пример 5.10. Построение скользящей средней с помощью кубического полинома

Пусть p = 3, количество точек в скользящем окне N = 2m + 1 = 7, m = 3, полином имеет вид

(5.27)

где t = -3, -2, -1, 0, 1, 2, 3. Система уравнений (5.17) при данных значениях m и p примет вид

(5.28)

(5.29)

(5.30)

(5.31)

Решая данную систему, получим

или

Из полученного соотношения мы снова видим, что веса при наблюдениях имеют симметричные значения относительно средней точки и их сумма равна единице.

Решая примеры, мы вычислили веса для некоторых конкретных значений p и m. При этом мы установили, что сумма весов равна единице и они имеют симметричные значения относительно средней точки окна. Аналогичные вычисления можно провести и для других значений p и m. При этом окажется, что свойства весов сохраняются при любых значениях p и m.

Таким образом, при применении метода скользящего среднего для сглаживания временных рядов нет необходимости каждый раз решать задачу оценивания параметров соответствующего полинома. Достаточно использовать заранее вычисленные значения весовых коэффициентов. В книге М. Кендалла и А. Стьюарта [19] соответствующие веса приведены вплоть до значений степени полинома p = 5.

Пример 5.11. Сглаживание временного ряда примера 5.3

Наиболее наглядно эффект от применения метода скользящей средней проявляется при сглаживании временного ряда примера 5.3 - объема экспорта оборудования в Китай. На рис. 5.17 изображен график аппроксимирующей кривой, полученной простым усреднением в скользящем окне из двух соседних точек. Сравнивая рис. 5.17 с рис. 5.14 - 5.16, видим, что применение простейшего варианта метода скользящей средней дает намного лучший результат, чем сглаживание данного ряда полиномами высокого порядка. На рис. 5.18 дан график сглаживающей кривой, полученной усреднением по трем точкам в скользящем окне. Сравнивая рис. 5.17 и 5.18 видим, что увеличение количества точек в скользящем окне приводит к ухудшению аппроксимации ряда.


Рис. 5.17
Скользящее среднее, 2 точки




Рис. 5.18
Скользящее среднее, 3 точки



Сглаживание ряда в краевых точках

Для определения сглаженных значений ряда в m первых и m последних точках можно использовать слаживающие полиномы, построенные соответственно по первым 2m + 1 и последним 2m + 1 точкам временного ряда. При этом необходимо вычислять МНК - оценки всех коэффициентов полинома.

Пример 5.12. Построение кубического полинома в краевых точках

Решая уравнения (5.28) - (5.31), можно найти коэффициенты полинома

здесь суммирование проводится по индексу t = -3, -2, -1, 0, 1, 2, 3. Сглаженные значения ряда в точках t = 1, 2, 3 (эти точки мы рассматриваем как последние точки анализируемого временного ряда) получаются, если вычисленные значения коэффициентов подставить в полином (5.27). Тогда получим

Как видим, веса в этих формулах тоже не зависят от наблюдений и их можно вычислить заранее.

Задание

Проведите сглаживание в краевых точках с помощью полинома второго порядка.

Влияние применения процедуры выделения тренда методом скользящей средней на случайную составляющую

Предположим, что реальный процесс порождается полиномиальным трендом и случайной составляющей, и мы точно знаем порядок полинома. Тогда, казалось бы, выделяя тренд с помощью процедуры скользящего усреднения и вычитая его из наблюдаемого ряда, мы должны получить только случайные составляющие. Однако на самом деле этого не получиться, поскольку при вычислении скользящих средних по наблюдениям временного ряда мы одновременно усредняли и случайные составляющие, как бы выделяя тренд и среди них. Чтобы убедиться в этом, рассмотрим влияние процедуры усреднения с равными весами на остаточный случайный член, который мы будем полагать гомоскедастичным с дисперсией, равной . Процедура усреднения приводит к следующему выражению для средних случайной составляющей

Хотя случайные величины ut некоррелированы, после усреднения величины становятся коррелироваными, поскольку члены и сглаженного ряда зависят от одних и тех же величин u первоначального ряда. Дисперсия ряда, получающегося после применения процедуры усреднения меньше, чем дисперсия исходного ряда, поскольку , но в нем могут появиться периодические колебания. Этот эффект известен как эффект Слуцкого - Юла, по имени изучавших его статистиков. Он обусловлен тем, что в процедуре скользящего усреднения выбор весов приводит к положительной корреляции (автокорреляции) членов нового ряда.

5.3.3. Метод экспоненциального сглаживания

Как мы отмечали ранее, одной из основных задач анализа временных рядов является прогноз (оценка будущих значений) или экстраполяция ряда в будущее. При этом часто необходимо учитывать устаревание данных, а именно, тот факт, что для прогноза большую ценность имеют последние наблюдения ряда, нежели прошлые отдаленные наблюдения (в рассмотренном методе скользящего среднего все наблюдаемые данные были равноценны).

Метод экспоненциального сглаживания ( экспоненциального скользящего среднего, экспоненциально - взвешенного скользящего среднего) придает больший вес последним, "новым" данным по сравнению с прошлыми, "старыми" наблюдениями.

Идея метода заключается в следующем. Сглаженное значение ряда в некоторой точке t определяется из условия минимума следующего критерия

(5.32)

где - некоторое число, причем . Критерий (5.32) имеет смысл взвешенной суммы квадратов остатков, причем веса экспоненциально уменьшаются с ростом k по мере устаревания наблюдений. Приравнивая производную к нулю и решая получившееся уравнение относительно f, получим

(5.33)

Из формулы (5.33) видно, что в отличие от процедуры простого сглаживания в методе экспоненциального сглаживания происходит усреднение наблюдаемых данных с соответствующими весами в скользящем интервале [y1, yt] с переменным правым концом, причем усреднение производится на правом конце интервала.

После выделения тренда методом экспоненциального сглаживания случайные составляющие сглаженного ряда будут коррелированными между собой случайными величинами с нулевыми средними и дисперсиями

При достаточно малых и больших t дисперсия случайных составляющих нового ряда будет существенно меньше дисперсии исходного ряда.

При достаточно длинных прошлых отрезках ряда для вычисления экспоненциальной скользящей средней можно использовать следующую приближенную рекуррентную формулу

Пример 5.13. Экспоненциальное сглаживание ряда примера 5.3

На рис. 5.19, 5.20 изображены графики сглаживающих кривых, построенных при различных значениях параметра , иллюстрирующие применение метода экспоненциального сглаживания к данным примера 5.3 (ср. с рис. 5.17, 5.18).


Рис. 5.19
Экспоненциальное сглаживание, альфа 0.1




Рис. 5.20
Экспоненциальное сглаживание, альфа 0.01



Пример 5.14. Экспоненциальное сглаживание ряда примера 5.2

Рис. 5.21, где изображен график сглаживающей кривой, построенной при значении , иллюстрирует применеие метода экспоненциального сглаживания к данным примера 5.2.


Рис. 5.21
Экспоненциальное сглаживание, альфа 0.1



5.3.4. Метод последовательных (переменных) разностей

До сих пор открытым оставался вопрос о выборе порядка аппроксимирующего полинома в рассмотренных в предыдущих пунктах методах сглаживания временных рядов. Для этого можно использовать метод, который основан на вычислении последовательных разностей членов наблюдаемого ряда. Идея этого метода достаточно проста. Оказывается, что если ряд в качестве неслучайной составляющей содержит постоянный член, то ряд, полученный путем вычисления разностей первого порядка , не будет содержать эту неслучайную константу. Для того, чтобы исключить тренд, описываемый полиномом первого порядка, необходимо вычислить последовательные разности второго порядка (читается дельта два игрек t). Ряд, составленный из разностей второго порядка, содержит только случайную составляющую. В общем случае, если ряд содержит неслучайную составляющую, описываемую полиномом порядка p, то ряд, составленный из последовательных разностей порядка p + 1, которые определяются по формуле , будет содержать только случайную составляющую. Действительно, пусть

Нетрудно видеть, что

то есть ряд, составленный из последовательных разностей второго порядка, содержит только случайные составляющие вида

Аналогично, после простых вычислений для ряда вида

получим

В общем случае, когда

можно показать, что разность порядка p + 1 записывается в виде

(5.34)

где - число сочетаний из k элементов по j, t=p+2, p+3,…,n. Заметим, что при взятии очередной последовательной разности исходный ряд укорачивается на единицу, так что ряд, составленный из разностей p + 1 порядка короче исходного ряда на p + 1 член. Кроме того, коэффициенты в записи (5.34) не зависят от наблюдений и легко вычисляются. Математическое ожидание и дисперсия ряда, составленного из разностей вида (5.34), равны

(5.35)

Выражение (5.35) служит основой для получения выборочной оценки дисперсии случайного члена наблюдаемого исходного ряда

(5.36)

Заметим, что формула (5.35), а следовательно, и (5.36) верна, если ряд из последовательных разностей действительно не содержит неслучайной компоненты, то есть если порядок разностей на единицу больше, чем порядок полинома.

Метод последовательных (переменных) разностей основан на использовании выражения (5.36) и состоит в следующем. Вычисляем последовательные разности первого порядка и определяем по формуле (5.36) величину s2 . Затем вычисляем разности второго порядка и для них также определяем s2 . Если величины s2 уменьшаются, то повторяем вычисления, увеличив порядок разности на единицу. Продолжая вычисления, на некотором шаге мы обнаружим, что при дальнейшем увеличении порядка разностей очередные значения s2 практически не отличаются друг от друга (в пределах ошибок вычисления выборочных оценок). Это указывает на то, что систематическая компонента из анализируемого ряда исключена, а степень полинома на единицу меньше порядка разностей на шаге процедуры, начиная с которого s2 остается постоянной. Значение s2, полученное на последнем шаге будет оценкой выборочной дисперсии случайной составляющей первоначального ряда.