Построение прогнозов на основе модели множественной линейной регрессии

Одной из важнейших целей построения эконометрической модели является прогнозирование поведения исследуемого процесса или объекта. Если в модели присутствует фактор времени, то прогнозирование подразумевает предсказание состояния системы в будущем. Если фактор времени в модели отсутствует, то прогнозирование величины исследуемой переменной (вычисление yпрогн) производится при некотором наборе (наборах) значений факторных переменных. Эти значения факторов (xпрогн1, xпрогн2, … , xпрогн m) должны быть заданы исследователем или вычислены с помощью других моделей.

Как и в случае парной регрессии вычисляются точечное и интервальное прогнозные значения исследуемой переменной.

Точечный прогноз осуществляется подстановкой прогнозного набора факторных переменных в уравнение регрессии:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . (3.14)

Если прогноз осуществляется не для одного набора факторных переменных, а для некоторого ряда наборов, то ряд точечных прогнозов исследуемой переменной можно представить в виде вектора, и вычислять его удобнее с использованием операций с матрицами:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , (3.15)

где

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru (3.16)

Интервальный прогноз в рамках модели множественной регрессии строится с использованием соотношений, являющихся обобщением формул (2.22), (2.23), позволяющих строить прогноз на основе парной регрессионной модели.

Для нахождения размаха доверительного интервала необходимо вычислить матрицу V:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . (3.17)

В выражении (3.17) участвуют матрица Xв, составленная из значений факторных переменных, имевших место в рядах наблюдений по правилу (3.5), и матрица Xпрогн, составленная из прогнозируемых значений факторных переменных по правилу (3.16). Размерность матрицы V равна Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , то есть зависит от числа прогнозируемых наборов факторных переменных. Если мы хотим рассчитать прогноз для одного набора факторных переменных, то получим матрицу V размером Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , то есть число. Размах прогнозного интервала для i-го набора факторных переменных равен:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . (3.18)

Величины Построение прогнозов на основе модели множественной линейной регрессии - student2.ru вычисляются тем же образом, что и в (2.22), а Построение прогнозов на основе модели множественной линейной регрессии - student2.ru является диагональным элементом матрицы (3.17). Тогда фактические значения исследуемой величины y для i-го набора значений факторных переменных с вероятностью (1-α) попадают в интервал:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . (3.19)

Несмотря на то, что в ходе исследования качества построенной нами модели (3.8) мы сделали вывод о нецелесообразности её использования для анализа и прогнозирования, рассчитаем прогноз для прогнозного значения температуры x1прогн = 28 и величины торговой наценки x2прогн = 25, то есть матрица Xпрогн примет у нас вид вектора:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

Точечный прогноз будет тогда равен:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

Вычислим матрицу V по правилу (3.17), имея в виду, что матрицу Построение прогнозов на основе модели множественной линейной регрессии - student2.ru мы уже вычислили в п.3.2, получим число (поскольку один прогнозируемый набор факторов): V=0,32. Далее, с учётом приведённых в п.3.3 стандартной ошибки Построение прогнозов на основе модели множественной линейной регрессии - student2.ru и значения Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , получим по формуле (3.18) размах интервала: L = 15,33. В итоге получим прогнозный интервал для фактического значения объёма продаж:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

Если мы сравним прогноз, полученный по двухфакторной линейной модели, с прогнозом, который мы сделали в п.2.8. на основе парной показательной модели, то увидим, что прогнозный интервал у двухфакторной модели больше, чем у однофакторной, то есть качество прогнозирования, несмотря на введение нового фактора, ухудшилось. Рекомендации о нецелесообразности использования, сделанные нами при исследовании качества линейной двухфакторной модели, оправдались.

Этот результат обусловлен, в первую очередь явно нелинейным характером связи между исследуемым объёмом продаж и основным фактором – температурой воздуха. Для улучшения парной показательной модели достаточно логично было бы ввести в модель дополнительную факторную переменную, не меняя показательной связи между объёмом продаж y и температурой воздуха x1. Это оказывается возможным с использованием техники вычислений, применявшейся нами при построении множественной линейной модели регрессии.

Построим по данным Примера 1 нелинейную модель вида:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . (3.20)

Применив операцию логарифмирования к уравнению (3.20) и сделав замены переменных, получим уравнение линейной модели множественной регрессии:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , (3.21)

где Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . Соответственно, для нахождения коэффициентов линейной модели (3.21) Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , исследования свойств полученной модели и прогнозирования, будем использовать данные наблюдений из Таблицы 6, при этом каждое из значений в первом и третьем столбцах (данные для y и x2) необходимо предварительно прологарифмировать.

Применив процедуру МНК, получим модель:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru Построение прогнозов на основе модели множественной линейной регрессии - student2.ru . (3.22)

В соответствии с уравнением (3.22), в отличие от уравнения линейной модели (3.8), при увеличении торговой наценки объём продаж будет уменьшаться, что соответствует реальному процессу.

Произведя все операции для построения прогнозного интервала на основе линейной модели множественной регрессии, аналогично тому, как это описано выше, получим:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

Тогда с учётом соотношений Построение прогнозов на основе модели множественной линейной регрессии - student2.ru прогнозный интервал для исходной исследуемой переменной с уровнем значимости α = 0,1:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

С помощью построения нелинейной двухфакторной модели нам удалось уменьшить длину прогнозного интервала, полученного с помощью однофакторной показательной модели. Однако, интервал остаётся достаточно большим.

Если выбрать уровень значимости α = 0,3, то прогнозный интервал значительно уменьшится:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

При этом, однако, вероятность выполнения прогноза уменьшится с 90% до 70%.

В итоге наилучшей из построенных нами по данным Примера 1 моделей оказалась нелинейная двухфакторная модель вида:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

Здесь использовано обратное преобразование коэффициентов: Построение прогнозов на основе модели множественной линейной регрессии - student2.ru

3.7. Применение обработки РЕГРЕССИЯ для определения параметров модели множественной линейной регрессии и её исследования

Построение и исследование модели множественной линейной регрессии является достаточно трудоёмкой процедурой. Трудоёмкость вычислений можно существенно снизить с помощью применения в MS Excel обработки Сервис/Анализ данных/РЕГРЕССИЯ.

Рассмотрим возможности использования обработки РЕГРЕССИЯ на данных примера из п.3.2. Данные для факторной переменной x3 мы использовать не будем, поскольку x3 была удалена из рассмотрения в результате проверки факторных переменных на мультиколлениарность. После вызова обработки РЕГРЕССИЯ зададим в соответствующих окнах диапазон ячеек, в которых находятся данные для Y вместе с заголовком столбца, диапазон ячеек, в которых находятся данные для факторных переменных x1, x2 также с заголовками столбцов, поставим флажок Метки (указывает, что в первой строке диапазонов стоят названия столбцов), зададим начальную ячейку для выходного интервала, поставим флажок Остатки. После выполнения обработки в ячейках, расположенных ниже и правее ячейки, указанной нами как начальная ячейка выходного интервала будут расположены результаты. Результаты обработки группируются в 4 таблицы. Если при вызове обработки мы дополнительно поставим флажок График остатков, то будут выданы графики остатков, по горизонтальной оси которых будут отложены значения одной из факторных переменных, а по вертикальной – значения ряда остатков εi. Число графиков будет совпадать с числом факторных переменных. Рассмотрим полученные результаты.

ВЫВОД ИТОГОВ            
Регрессионная статистика          
Множественный R 0,9540          
R-квадрат 0,9102          
Нормированный R-квадрат 0,8653          
Стандартная ошибка 6,2635          
Наблюдения          
             
Дисперсионный анализ          
df SS MS F Значимость F  
Регрессия 1590,289 795,144 20,268 0,008  
Остаток 156,926 39,231      
Итого 1747,214        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение -14,042 6,284 -2,235 0,089 -31,489 3,404
X1 1,359 0,327 4,155 0,014 0,451 2,267
X2 0,197 0,316 0,624 0,566 -0,680 1,075
             
ВЫВОД ОСТАТКА            
Наблюдение Предсказанное Y Остатки E отн      
-3,301 5,301 265,06      
3,494 0,006 0,17      
10,290 -5,290 105,79      
17,085 -5,085 42,38      
23,881 -1,881 8,55      
31,662 8,338 20,84      
43,390 -1,390 3,31      

Во-первых, в колонке Коэффициенты третьей таблицы возьмём значения параметров множественной модели линейной регрессии. Уравнение модели имеет вид:

Построение прогнозов на основе модели множественной линейной регрессии - student2.ru .

В колонке t–статистика этой же таблицы находятся t-статистики для коэффициентов уравнения регрессии. Если возьмём при α=0,1 критическое значение tкр(0,1; 7-2-1)=2,13, то получим, что модули первых двух параметров превышают критической значение, а модуль третьего параметра нет. Таким образом значения а0=-14,04 и а1=1,36 следует признать значимыми, а значение а2=0,2 – незначимым. Следует отметить, что для определения значимости коэффициентов не обязательно определять критическое значение t-статистики. Достаточно сравнить соответствующие значение колонки P-Значение с выбранным уровнем значимости α и, если оно меньше чем α, то соответствующий параметр можно признать значимым. У нас получилось 0,089 < 0,1 и 0,014 < 0,1, то есть первые два параметра можно признать значимыми с вероятностью 90%, а 0,566 > 0,1, то есть третий параметр значимым не является, то есть наценку можно исключить из рассмотрения в рамках данной модели.

В первой таблице приведено значение коэффициента детерминации R-квадрат = 0,9102. Следовательно, можно сделать вывод, что в рамках линейной модели множественной регрессии изменение объёма продаж на 91% объясняется изменением температуры воздуха и торговой наценки.

В колонке F третьей таблицы приведено значение F-статистики Фишера равное 20,268. Для оценки значимости уравнения регрессии в целом сравним его с критическим значением Fкр(0,1; 2; 7-2-1) = 4,32. Поскольку F-статистика больше критического значения можно сделать вывод о значимости уравнения в целом. Этот же вывод можно сделать без определения критического значения Fкр путём сравнения значения из следующей колонки третьей таблицы Значимость F, равное 0,008, с выбранным уровнем значимости α = 0,1 (для возможности сделать вывод о значимости уравнения в целом это значение не должно превышать выбранный уровень значимости).

Для определения средней ошибки аппроксимации можно воспользоваться имеющимся в четвёртой таблице рядом остатков εi (колонка Остатки). Однако, потребуются дополнительные вычисления. Указанную таблицу следует дополнить колонкой Построение прогнозов на основе модели множественной линейной регрессии - student2.ru , где Yi – ряд наблюдений переменной Y (в учебных задачах задан в условии) и вычислить среднее значение для этой колонке. В результате получим:

ВЫВОД ОСТАТКА        
Наблюдение Предсказанное Y Остатки E отн  
-3,301 5,301 265,06  
3,494 0,006 0,17  
10,290 -5,290 105,79  
17,085 -5,085 42,38  
23,881 -1,881 8,55  
31,662 8,338 20,84  
43,390 -1,390 3,31  
      63,73 E отн.ср.

Модуль вычисляется с помощью функции ABS. Мы получили E отн.ср. = 63,73%, что значительно превышает 15%, следовательно, точность модели неудовлетворительная, и её не рекомендуется использовать для прогнозирования.

Заметим, что в первой таблице итоговых результатов имеется значение стандартной ошибки оценки, которое необходимо при построении интервального прогноза, а в последней четвёртой таблице имеется ряд расчётных значений исследуемого признака Ypi (колонка Предсказанное Y).

Наши рекомендации