Регрессионные статистические модели временных рядов (AR-, ARI-, ARX-, ARMAX-, ARMA-, ARIMA-, ARIMAX- модели процессов)
Все большее распространение в настоящее время находят математические прогнозирующие модели, являющиеся комбинацией статистических и детерминированных моделей. Именно эти модели позволяют обеспечить наилучшую точность прогнозирования, адаптивность к изменяющемуся процессу [1, 3, 4].
Они, например в электроэнергетике, базируются на концепции стандартизованного моделирования процесса нагрузки в энергопотреблении [4], которая состоит в моделировании фактической нагрузки , как совокупности стандартизованного графика (базовой составляющей, детерминированного тренда) и остаточной составляющей .
Данная декомпозиция на составляющие наиболее часто носит аддитивный характер [1]
,
но иногда используется и мультипликативная декомпозиция [4]
.
В используемых же обозначениях графиков нагрузки , , малая буква d обозначает тип (номер) прогнозируемых суток.
В других работах [4] используется также модель, объединяющая свойства аддитивной и мультипликативной моделей:
,
где , – детерминированные составляющие и – остаточная случайная составляющая.
Наиболее широкое применение в радиоэлектронике имеет аддитивная модель, остальные модели имеют ограниченное применение.
Процесс в первом приближении считают стационарным или почти стационарным, что упрощает его моделирование с использованием статистических моделей, которые будут рассмотрены ниже.
Кроме того, при моделировании стандартной составляющей также осуществляют ее декомпозицию на отдельные составляющие [4].
Следует отметить, что более детальное рассмотрение детерминированных и комбинированных прогнозных математических моделей процессов, протекающих в медицинских, технических и других диагностических системах, планируется рассмотреть в последующих методических пособиях.
Приведем краткую классификацию и описание регрессионных моделей временных рядов, используемых для моделирования стационарных и нестационарных процессов: остаточной составляющей , детерминированной составляющей либо графика в целом [1, 3, 4, 6, 8, 13, 14, 15, 22]:
- AR(ARI)-модель или авторегрессионная модель (с интегрированием или разностным оператором);
- ARX-модель или авторегрессионная с учетом влияния внешних факторов (включает X-составляющую);
- ARMA-модель или авторегрессионная модель со скользящей средней;
- ARIMA-модель или авторегрессионная интегрированная со скользящей средней модель (АРИСС), иногда ее называют моделью Бокса-Дженкинса [14,16];
- ARMAX-модель или обобщенная линейная полиномиальная модель типа «черный ящик» (black box model);
- ARIMAX-модель или обобщенная линейная полиномиальная модель типа «черный ящик» с интегрированием.
Авторегрессионная модель AR используется для моделирования стационарных случайных процессов, а для моделирования нестационарных процессов используется совместно с интегральной составляющей (ARI, где I – интегральная составляющая). Введение интегральной составляющей требует взятия от моделируемого процесса конечных разностей того или иного порядка d, что, по мнению некоторых авторов [14, 16, 18], позволяет нестационарный процесс свести к стационарному.
Общий вид AR(ARI)-модели (структурная схема на рис. 3.1, a) в виде разностного уравнения записывают так [15]:
,
где – оператор авторегрессии порядка na; – оператор задержки сигнала на один такт; или – конечная разность d порядка или моделируемый процесс, в частности, остаточная составляющая графика нагрузки; e(t) – ошибка модели или стационарный, случайный процесс с нулевым математическим ожиданием и дисперсией (“белый шум”).
В развернутом виде AR-модель можно записать [15, 16, 17] как:
;
.
Рис. 3.1
ARMA-модель (структурная схема на рис.3.1, б) включает помимо авторегрессионной составляющей и составляющую скользящей средней (MA) от ошибки [14, 15, 16]:
,
где – оператор скользящего среднего порядка nс.
Введение скользящей средней в модель позволяет в ряде случаев уменьшить погрешность прогноза, а также авторегрессионную модель высокого порядка свести к модели скользящей средней более низкого порядка и наоборот. Используется модель при прогнозировании остаточной составляющей графика нагрузки.
ARX-модель (структурная схема на рис.3.1, г) помимо авторегрессионной составляющей включает составляющие, зависящие от внешних входных влияющих сигналов [14, 15]:
где – оператор, определяющий влияние внешнего сигнала u(t); u(t–nk) – отсчет внешнего влияющего фактора (сигнала), задержанный на nk тактов.
В развернутом виде ARX-модель имеет вид:
ARX-модель компактно записывают в преобразованном виде:
где G(q) и H(q) – обобщенные операторы регрессии внешнего сигнала и скользящего среднего.
В случае нескольких входных влияющих сигналов ARX-модель запишется в виде [15, 16]:
В общем виде ARIMA-модель или АРИСС-модель остаточной нестационарной случайной составляющей РD(t) процесса или процесса в целом может быть представлена следующим образом (структурная схема на рис.3.1, в) [16]:
(3.1)
где - оператор разности порядка d:
(3.2)
В преобразованном виде формулу (3.1) можно записать так:
В форме, удобной для прогнозирования, ARIMA-модель примет вид:
где – оператор, обратный разности порядка d (3.2) или оператор суммирования (интегрирования) порядка d:
(3.3)
Именно поэтому взятие конечных разностей от моделируемого процесса в регрессионных моделях интерпретируют, как введение интегрирующей составляющей или оператора суммирования (3.3) порядка d. Однако, как известно из теории моделирования, появление дополнительной интегральной составляющей в модели делает ее менее устойчивой [3], что отмечается и при моделировании процесса [3, 22].
Зачастую порядок ARIMA-модели записывают в следующем виде: (na, d, nc).
ARMAX-модель является наиболее общей моделью среди всех выше перечисленных (общая модель типа “черный ящик”) [15]:
В развернутом виде и в форме разностного уравнения ARMAX-модель запишется как:
В случае нескольких входных влияющих сигналов ARMAX-модель примет вид
В случае введения интегральной составляющей порядка d ARMAX-модель преобразуется в ARIMAX-модель [15, 16]:
(3.4)
Случайная величина e(t) в перечисленных регрессионных моделях является разностью прогнозного (на один шаг вперед) значения и действительного значения временного ряда моделируемого процесса:
.
Любую из перечисленных регрессионных моделей можно записать в обобщенном виде [15]:
.
Данный вид моделей связан с дискретным представлением в пространстве состояний:
(3.5)
,
,
где Enx , Eny – единичные матрицы размеров nx и ny; KK – матрица коэффициентов усиления Калмана.
Определение коэффициентов ; ; , а также значений na, nb, nc, определяющих порядок перечисленных моделей, в том числе и (3.5) при идентификации осуществляют в большинстве случаев из условия минимизации ошибки прогноза [15,16]:
Модели, не включающие интегральных составляющих, имеют теоретическое обоснование применения, устойчивости, точности для случая стационарных моделируемых процессов [14, 15, 16]. Нестационарный временной ряд моделируемого процесса приводят к стационарному последовательным взятием разностей d-го порядка: . Далее для ряда строят стационарную модель, например, авторегрессии скользящего среднего (АРИСС-и ARIMA-модель). При этом порядок разностей d подбирается так, чтобы автокорреляционная функция (АКФ) ряда быстро затухала.
Но, как показано в [3, 16, 17, 23], в ряде случаев для d ≥ 2 модели типа (3.1), (3.4) с интегрированием могут быть неустойчивыми из-за влияния различных случайных факторов и поэтому рекомендуется использовать модели с d < 2.
Как показал анализ, например, трехминутных графиков электрической нагрузки текстильного промышленного предприятия в АСУЭ [3, 20, 23] процесс является существенно нестационарным и для приведения его к стационарному процессу необходимо принимать d ≥ 2. В то же время процесс
приводится к стационарному виду при d = 1 – 2, если в качестве базовой составляющей (тренда) используется декомпозиционная алгебраическая многомерная регрессионная модель [3, 23].
Необходимо отметить также, что при таком трендовом подходе остается постоянным порядок na и nс, например, АРИСС-модели, т.е. не нужна ее структурная адаптация для различных типов реализаций случайных процессов. Для большинства исследованных графиков нагрузки предприятий и энергосистем [3, 4, 23] в случае трендового подхода остаточная составляющая адекватно моделируется АРИСС-моделью порядка (1,1,0). При этом порядок модели не зависит от типа суток.
Однако в некоторых случаях процесс может содержать периодические составляющие, обусловленные технологией производства [3, 4]. Для учета подобных периодичностей в процессах возможно использование АРИСС-модель с периодической составляющей [16]:
(3.6)
где , – операторы авторегрессии и скользящей средней периодической составляющей порядков naS и ncS ; qS – оператор периодического сдвига назад [16-18]; – оператор периодической разности порядка ds:
;
.
Порядок модели (3.6) в соответствии с [16 – 18] записывается в следующем виде: (na, d, nc) × (naS, ds, ncS).
В частности, при исследовании графиков нагрузки текстильного предприятия в остаточной составляющей оптимальной является модель (3.6) с периодической компонентой порядка (1, 1, 0)×(0, 0, 1)11 [3, 4, 23].
Выбор параметров модели (3.6) осуществляется согласно [16], уточнение же производится при получении каждого нового значения прогнозируемого ряда с целью минимизации ошибки прогноза (среднеквадратического отклонения) с использованием, например, нелинейного метода наименьших квадратов (алгоритм Маркварда).
Правильность выбора порядка модели (3.6), как и остальных перечисленных регрессионных, проверяется с использованием совокупного критерия согласия по АКФ остатков e(t) модели [3,16,18].
Проверка показала, что увеличение порядка моделей выше подобранной по критерию согласия (как периодической, так и непериодической частей) не ведет к увеличению точности моделирования, но значительно усложняет алгоритмы идентификации.
Все перечисленные регрессионные модели временных рядов (AR, ARI, ARMA и т.п.) при построении используют понятия теории вероятности и математической статистики, такие как АКФ, частная автоковариационная функция (ЧАКФ), автокорреляционная и ковариационная матрицы, стационарность случайного процесса и другие. Поэтому при их использовании к моделируемому процессу предъявляются требования выполнения статистических критериев, в частности критерий стационарности и случайности временного ряда (критерий серий) [11, 24]; критерий значимости ковариационных и корреляционных матриц [12, 25, 26] и т.п. Все перечисленное усложняет применение перечисленных методов к различным типам процессов электропотребления. Кроме того, следует отметить, что применение этих методов адекватно ситуации, если моделируемый процесс практически стационарный или приводится к стационарному взятием однократных разностей. В иных случаях нестационарных процессов электропотребления со значимым детерминированным трендом использование этих моделей часто дает неудовлетворительный по точности результат.