Множественная регрессия
Вопросы:
4. Оценка параметров линейной модели множественной регрессии.
5. Оценка качества множественной линейной регрессии.
6. Анализ и прогнозирование на основе многофакторных моделей.
Множественная регрессия является обобщением парной регрессии. Она используется для описания зависимости между объясняемой (зависимой) переменой У и объясняющими (независимыми) переменными Х1,Х2,…,Хk. Множественная регрессия может быть как линейная, так и нелинейная, но наибольшее распространение в экономике получила линейная множественная регрессия.
1.
Теоретическая линейная модель множественной регрессии имеет вид:
(1)
соответствующую выборочную регрессию обозначим:
(2)
Как и в парной регрессии случайный член ε должен удовлетворять основным предположениям регрессионного анализа. Тогда с помощью МНК получают наилучшие несмещенные и эффективные оценки параметров теоретической регрессии. Кроме того переменные Х1,Х2,…,Хk должны быть некоррелированы (линейно независимы) друг с другом. Для того, чтобы записать формулы для оценки коэффициентов регрессии (2), полученные на основе МНК, введем следующие обозначения:
Тогда можно записать в векторно-матричной форме теоретическую модель:
и выборочную регрессию
.
МНК приводит к следующей формуле для оценки вектора коэффициентов выборочной регрессии:
(3)
Для оценки коэффициентов множественной линейной регрессии с двумя независимыми переменными , можно решить систему уравнений:
(4)
Как и в парной линейной регрессии для множественной регрессии рассчитывается стандартная ошибка регрессии S:
(5)
и стандартные ошибки коэффициентов регрессии:
(6)
значимость коэффициентов проверяется с помощью t-критерия.
(7)
имеющего распространение Стьюдента с числом степеней свободы v=n-k-1.
2.
Для оценки качества регрессии используется коэффициент (индекс) детерминации:
, (8)
чем ближе к 1, тем выше качество регрессии.
Для проверки значимости коэффициента детерминации используется критерий Фишера или F- статистика.
(9)
с v1 =k, v2=n-k-1 степенями свободы.
В многофакторной регрессии добавление дополнительных объясняющих переменных увеличивает коэффициент детерминации. Для компенсации такого увеличения вводится скорректированный (или нормированный) коэффициент детерминации:
(10)
Если увеличение доли объясняемой регрессии при добавлении новой переменной мало, то может уменьшиться. Значит, добавлять новую переменную нецелесообразно.
Пример 4:
Пусть рассматривается зависимость прибыли предприятия от затрат на новое оборудование и технику и от затрат на повышение квалификации работников. Собраны статистические данные по 6 однотипным предприятиям. Данные в млн. ден. ед. приводятся в таблице 1.
Таблица 1
Номер предприятия, i | Прибыль i-го предприятия, уi | Затраты на новое оборудование i-го предприятия, хi1 | Затраты на повышение квалификации на i-м предприятии, хi2 |
Построить двухфакторную линейную регрессию и оценить ее значимость. Введем обозначения:
Транспонируем матрицу Х:
Обращение этой матрицы:
таким образом зависимость прибыли от затрат на новое оборудование и технику и от затрат на повышение квалификации работников можно описать следующей регрессией:
Используя формулу (5), где k=2 рассчитаем стандартную ошибку регрессии S=0,636.
Стандартные ошибки коэффициентов регрессии рассчитаем, используя формулу (6):
Аналогично:
Проверим значимость коэффициентов регрессии а1, а2. посчитаем tрасч.
Выберем уровень значимости , число степеней свободы
значит коэффициент а1 значим.
Оценим значимость коэффициента а2:
Коэффициент а2 незначим.
Рассчитаем коэффициент детерминации по формуле (7) . Прибыль предприятия на 96% зависит от затрат на новое оборудование и технику и повышение квалификации на 4% от прочих и случайных факторов. Проверим значимость коэффициента детерминации. Рассчитаем Fрасч.:
т.о. коэффициент детерминации значим, уравнение регрессии значимо.
3.
Большое значение в анализе на основе многофакторной регрессии имеет сравнение влияния факторов на зависимый показатель у. Коэффициенты регрессии для этой цели не используется, из-за различий единиц измерения и различной степени колеблемости. От этих недостатков свободные коэффициенты эластичности:
(11)
Эластичность показывает, на сколько процентов в среднем изменяется зависимый показатель у при изменении переменной на 1% при условии неизменности значений остальных переменных. Чем больше , тем больше влияние соответствующей переменной. Как и в парной регрессии для множественной регрессии различают точечный прогноз и интервальный прогноз. Точечный прогноз (число) получают при подстановке прогнозных значений независимых переменных в уравнение множественной регрессии. Обозначим через:
(12)
вектор прогнозных значений независимых переменных, тогда точечный прогноз
(13)
или
(14)
Стандартная ошибка предсказания в случае множественной регрессии определяется следующим образом:
(15)
Выберем уровень значимости α по таблице распределения Стьюдента. Для уровня значимости α и числа степеней свободы ν = n-k-1 найдем tкр. Тогда истинное значение ур с вероятностью 1- α попадает в интервал:
(16)
Тема 5:
Временные ряды.
Вопросы:
4. Основные понятия временных рядов.
5. Основная тенденция развития – тренд.
6. Построение аддитивной модели.
1.
Временные ряды представляют собой совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени.
Момент (или период) времени обозначают t, а значение показателя в момент времени обозначают у(t) и называют уровнем ряда.
Каждый уровень временного ряды формируется под воздействием большого числа факторов, которые можно разделить на 3 группы:
Длительные, постоянно действующие факторы, оказывающие на изучаемое явление определяющее влияние и формирующие основную тенденцию ряда – тренд T(t).
Кратковременные периодические факторы, формирующие сезонные колебания ряда S(t).
Случайны факторы, которые формируют случайные изменения уровней ряда ε(t).
Аддитивной моделью временного ряда называется модель, в которой каждый уровень ряда представлен суммой тренда, сезонной и случайной компоненты:
. (1)
Мультипликативная модель – это модель, в которой каждый уровень ряда представляет собой произведение перечисленных компонент:
. (2)
Выбор одной из моделей осуществляется на основе анализа структуры сезонных колебаний. Если амплитуда колебаний примерно постоянна, то строят аддитивную модель. Если амплитуда возрастает, то мультипликативную модель.
Основная задача эконометрического анализа заключается в выявлении каждой из перечисленных компонент.
2.
Основной тенденцией развития (трендом) называют плавное и устойчивое изменение уровней ряда во времени свободное от случайных и сезонных колебаний.
Задача выявления основных тенденций развития называется выравниванием временного ряда.
К методам выравнивания временного ряда относят:
1) метод укрупнения интервалов,
2) метод скользящей средней,
3) аналитическое выравнивание.
1) Укрупняются периоды времени, к которым относятся уровни ряда. Затем по укрупненным интервалам суммируются уровни ряда. Колебания в уровнях, обусловленные случайными причинами, взаимно погашаются. Более четко обнаружится общая тенденция.
2) Для определения числа первых уровней ряда рассчитывается средняя величина. Затем рассчитывается средняя из такого же количества уровней ряда, начиная со второго уровня и т.д. средняя величина скользит по ряду динамики, продвигаясь на 1 срок (момент времени). Число уровней ряда, по которому рассчитывается средняя, может быть четным и нечетным. Для нечетного скользящую среднюю относят к середине периода скольжения. Для четного периода нахождение среднего значения не сопоставляют с определением t, а применяют процедуру центрирования, т.е. вычисляют среднее из двух последовательных скользящих средних.
3) Построение аналитической функции, характеризующей зависимость уровня ряда от времени. Для построения трендов применяют следующие функции:
Параметры трендов определяются с помощью МНК. Выбор наилучшей функции осуществляется на основе коэффициента R2.
3.
Построение аддитивной модели проведем на примере.
Пример 7:
Имеются поквартальные данные об объеме потребления электроэнергии в некотором районе за 4 года. Данные в млн. кВт в таблице 1.
Таблица 1
Год Квартал | ||||
6,0 4,4 5,0 9,0 | 7,2 4,8 6,0 10,0 | 8,0 5,6 6,4 11,0 | 9,0 6,6 7,0 10,8 |
Построить модель временного ряда.
В этом примере в качестве независимой переменной рассматриваем номер квартала , а в качестве зависимой переменной y(t) потребление электроэнергии за квартал.
Из диаграммы рассеяния можно увидеть, что тенденция (тренд) носит линейный характер. Видно также наличие сезонных колебаний (период = 4) одинаковой амплитуды, поэтому будем строить аддитивную модель.
Построение модели включает следующие шаги:
1. Проведем выравнивание исходного ряда методом скользящей средней за 4 квартала и проведем центрирование:
1.1. Просуммируем уровни ряда последовательно за каждые 4 квартала со сдвигом на 1 момент времени.
1.2. Разделив полученные суммы на, 4 найдем скользящие средние.
1.3. Приводим эти значения в соответствие с фактическими моментами времени, для чего найдем среднее значение из двух последовательных скользящих средних – центрированные скользящие средние.
2. Рассчитаем сезонную вариацию. Сезонная вариация (t) = y(t) – центрированная скользящая средняя. Построим таблицу 2 .
Таблица 2
Сквозной № квартала t | Потребление электроэнергии Y(t) | Скользящая средняя за 4 квартала | Центрированная скользящая средняя | Оценка сезонной вариации |
6,0 | - | - | - | |
4,4 | 6,1 | - | - | |
5,0 | 6,4 | 6,25 | -1,25 | |
9,0 | 6,5 | 6,45 | 2,55 | |
7,2 | 6,75 | 6,625 | 0,575 | |
: | : | : | : | : |
6,6 | 8,35 | 8,375 | -1,775 | |
7,0 | - | - | - | |
10,8 | - | - | - |
3. На основе сезонной вариации в таблице 3 рассчитывается сезонная компонента.
Таблица3
Показатели | Год | Номер квартала в году I II III IV | ||||
- | - | -1,250 | 2,550 | |||
0,575 | -2,075 | -1,100 | 2,700 | |||
0,550 | -2,025 | -1,475 | 2,875 | |||
0,675 | -1,775 | - | - | |||
Итого | 1,8 | -5,875 | -3,825 | 8,125 | Сумма | |
Среднее | 0,6 | -1,958 | -1,275 | 2,708 | 0,075 | |
Сезонная компонента | 0,581 | -1,977 | -1,294 | 2,690 |
4. Устраняем сезонную компоненту из исходных уровней ряда:
5. Аналитически выравниваем ряд T + ε. Строим регрессию:
.
6. Рассчитываем ошибку:
.
Результаты вычислений приведем в таблице 4.
Таблица4
t | Y(t) | S(t) | T(t)+ (t)=Y(t)--S(t) | T(t) | e |
6,0 | 0,581 | 5,419 | 5,893 | -0,474 | |
4,4 | -1,977 | 6,337 | 6,088 | 0,256 | |
5,0 | -1,294 | 6,294 | 6,268 | 0,025 | |
9,0 | 2,690 | 6,310 | 6,455 | -0,145 | |
7,2 | 0,581 | 6,619 | 6,642 | -0,023 | |
: | : | : | : | : | : |
10,8 | 2,690 | 8,11 | 8,701 | -5,91 |
7. Рассчитываем коэффициент детерминации R2:
Вывод:
Аддитивная модель объясняет 98,4% общей вариации уровней исходного временного ряда.
Тема 6.