Особенности применение регрессионных моделей в прогнозных расчетах
Одним из основных предназначений регрессионных моделей являются прогнозные расчеты. Есть несколько аспектов проведения этих расчетов. Можно рассматривать ситуацию, когда, несмотря на то, что данные, по которым строилась модель, не имеют временной структуры, получаемые расчетные значения имеет прогнозный характер. Именно такой характер носят оценки зависимой переменной, вычисляемые для того набора значений независимых переменных, которого не было в исходной выборочной совокупности.
Кроме того, различают точечные и интервальные прогнозы. В первом случае прогнозная оценка является конкретным числовым значением, во втором – интервал, в котором истинное значение находится с заданным уровнем доверия.
Рассматривают также безусловное и условное прогнозирование. Под безусловным прогнозированием понимают такие расчеты, которые осуществляются при точно известных значениях объясняющих переменных. К условному прогнозированию прибегают в тех случаях, когда объясняющие переменные известны приближенно.
Формально задача прогнозных расчетов с помощью регрессионной модели выглядит следующим образом. Пусть известно, что зависимая переменная связана с независимыми переменными линейной зависимостью
. (3.46)
Сама зависимость и ее случайная составляющая удовлетворяют трем условиям классической регрессии в п. 3.3 данной главы.
Далее известно, что есть дополнительный набор значений независимых переменных , для которого отсутствует соответствующее значение зависимой переменной , но есть основание считать, что это неизвестное значение удовлетворяет модели (3.46), т.е.
, (3.47)
где , , и случайная величина не коррелированна с . Требуется по оценить .
Несмотря на кажущуюся простоту поставленной задачи, есть несколько вариантов ее решения. Самый простой вариант расчетов используется, когда и , и известны. В этом случае в качестве оценки величины можно взять . Среднеквадратическая ошибка такого прогноза равна . Если, кроме того, известно, что нормально распределено, то можно построить доверительный интервал , в котором находится с вероятностью , а есть двусторонняя -квантиль стандартного нормального распределения.
На практике параметры и редко бывают известны, поэтому в расчетах используются оценки и , рассчитываемые по формулам (3.12) и (3.17), соответственно. Тогда за оценку принимается величина
. (3.48)
Полученная прогнозная оценка является несмещенной в том смысле, что ее математическое ожидание равно математическому ожиданию , т.е. . Это непосредственно следует из несмещенности оценок метода наименьших квадратов. Кроме того, можно показать, что в классе линейных (по ) несмещенных оценок прогнозная оценка (3.48) обладает наименьшей среднеквадратической ошибкой, т.е.
,
где является другой прогнозной оценкой ( ), получаемой с помощью некоторого вектора .
Сама среднеквадратическая ошибка зависит от содержания, которое вкладывается в прогнозную оценку. Если полученная оценка принимается за среднее значение генеральной совокупности , то ее дисперсия равна
. (3.49)
Заменив неизвестную дисперсию на ее оценку (3.17), получаем стандартную ошибку прогноза среднего в виде
. (3.50)
Используя полученную стандартную ошибку, можно проверить гипотезу о равенстве прогноза среднего значения заданной величине:
.
Для проверки этой гипотезы вычисляется t-статистика
, (3.51)
которая сравнивается с табличным значением . Если , то нулевая гипотеза отбрасывается, в противном случае – принимается за рабочую.
Квантиль и стандартная ошибка (3.50) позволяет определить предельную ошибку прогноза среднего
2 , (3.52)
с помощью которой можно получить интервальный прогноз среднего
. (3.53)
Если же полученная несмещенная оценка принимается за прогноз отдельного значения, то для вычисления ее стандартной ошибки сначала определяется отклонение от фактического значения
. (3.54)
Тогда дисперсия отдельного прогнозного значения равна
. (3.55)
Второе слагаемое полученного выражения равно , третье – 0 в силу того, что вектор случайной составляющей не содержит ( )-й компоненты, а с остальными компонентами не коррелирует, т.е.
. (3.56)
Таким образом, дисперсия отдельного прогнозного значения равна
. (3.57)
Окончательно, заменяя неизвестную дисперсию на оценку (3.17), можно записать стандартную ошибку отдельного прогнозного значения в следующем виде:
. (3.58)
Иногда при записи этой стандартной ошибки используется ковариационная матрица ошибок оценок коэффициентов регрессии (3.18)
. (3.59)
По аналогии с прогнозной оценкой среднего можно вычислить предельную ошибку
, (3.60)
с помощью которой легко определяется величина интервального прогноза
. (3.61)
Несмотря на то, что принято различать точечный и интервальный прогноз, в реальных расчетах целесообразно точечные оценки дополнять интервальными, которые фактически характеризуют надежность точечных.
Теперь рассмотрим условные прогнозы. Примером, когда возникает необходимость в условном прогнозировании, может служить ситуация, в которой в силу различных обстоятельств приходится прогнозировать значения независимых переменных, что неизбежно приводит к отклонениям от истинных значений. Будем считать по-прежнему, что модель имеет вид (3.46) и оцениваемое значение, сгенерированное в соответствии с (3.47), но вектор независимых переменных наблюдается с ошибкой, т.е.
, (3.62)
где – случайный вектор, не зависящий от и с нулевым математическим ожиданием и ковариационной матрицей . В этой ситуации прогноз (3.48) заменяется на
. (3.63)
Пусть – ошибка прогнозирования. Тогда ее математическое ожидание равно
. (3.64)
Полученное равенство свидетельствует о несмещенности прогнозной оценки (3.63). Таким образом, условный прогноз, как и безусловный, является несмещенным. Дисперсия ошибки условной прогнозной оценки превосходит дисперсию ошибки безусловного прогноза. Формула для ее расчета
(3.65)
включает два дополнительных слагаемых, пропорциональных дисперсии .
К сожалению, в случае условного прогнозирования нельзя также просто, как при безусловном прогнозировании, построить доверительный интервал для . Это объясняется тем, что при нормально распределенных ошибках ( ) прогнозная оценка представляет собой скалярное произведение двух независимых нормальных векторов. Правда, существуют численные процедуры, позволяющие строить его приближенно.