Лекция 7. Множественная линейная регрессия.
Определение параметров уравнения регрессии.
Цели и задачи изучения темы
научиться применять метод наименьших квадратов; рассчитывать коэффициенты в множественной линейной регрессии; анализировать эмпирическое уравнение множественной линейной регрессии; проводить анализ статистической значимости коэффициента детерминации.
- Метод наименьших квадратов (МНК).
- Расчет коэффициентов в множественной линейной регрессии.
3. Дисперсии и стандартные ошибки коэффициентов.
- Интервальные оценки коэффициентов теоретического уравнения регрессии.
- Анализ качества эмпирического уравнения множественной линейной регрессии.
- Проверка статистической значимости коэффициентов уравнения регрессии.
- Проверка общего качества уравнения регрессии.
- Анализ статистической значимости коэффициента детерминации.
- Проверка равенства двух коэффициентов детерминации.
- Проверка выполнимости предпосылок МНК. Статистика Дарбина-Уотсона.
- Метод наименьших квадратов (МНК).
На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия Y=f(b,X)+e.
где X=(x1, x2, ..., хm) — вектор независимых (объясняющих) переменных; b — вектор параметров (подлежащих определению); e–случайная ошибка (отклонение); Y– зависимая (объясняемая) переменная. Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X. Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии — модель множественной линейной регрессии.
Теоретическое линейное уравнение регрессии для индивидуальных наблюдений, n=1,2,...,n имеет вид:
Yi=b0+b1xi1+…bmxi1+ei
Если число наблюдений больше минимально необходимого, т.е. n>m+1, то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям, и возникает необходимость оптимизации, т.е. оценивания параметров b0,b1…bm, при которых формула дает наилучшее приближение для имеющихся наблюдений.
В данном случае число n=n-m-1 называется числом степеней свободы. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.
Самым распространенным методом оценки параметров уравнения множественной линейной регрессии является метод наименьших квадратов (МНК). Напомним, что его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной Y от ее значений Y*, получаемых по уравнению регрессии.
Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, отметим желательность выполнимости ряда предпосылок МНК, которые позволят проводить анализ в рамках классической линейной регрессионной.
Предпосылки МНК.
1. Математическое ожидание случайного отклонения ei равно нулю для всех наблюдений:
ε= 0, i = 1, 2,
2. Дисперсия случайных отклонений ei постоянна: D(ei)=D(ej)=s2 для любых наблюдений
3. Отсутствие автокорреляции. Случайные отклонения ei и ej являются независимыми друг от друга для всех i ¹ j.
sei,ej=0
4. Случайное отклонение должно быть независимо от объясняющих переменных.
sei,xi=0
5. Модель является линейной относительно параметров. Для случая множественной линейной регрессии существенными являются еще две предпосылки.
6. Отсутствие мультиколлинеарности. Между объясняющими переменными отсутствует строгая (сильная) линейная зависимость.
7. Ошибки ei, имеют нормальное распределение (ei~ N(0,s)).
Выполнимость данной предпосылки важна для проверки статистических гипотез и построения интервальных оценок.
Как и в случае парной регрессии, истинные значения параметров b; по выборке получить невозможно. В этом случае вместо теоретического уравнения регрессии оценивается так называемое эмпирическое уравнение регрессии. Эмпирическое уравнение регрессии
Yi*=b0+b1xi1+…+bmxi1+ei
Оцененное уравнение в первую очередь должно описывать общий тренд (направление) изменения зависимой переменной Y. При этом необходимо иметь возможность рассчитать отклонения от этого тренда.
При выполнении предпосылок МНК относительно ошибок оценки параметров множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.
Тогда по МНК для нахождения оценок b0…bm минимизируется следующая функция:
Q=åei2=å(yi-(b0+åbjxij))2
Данная функция является квадратичной относительно неизвестных величин bj, j=0,1,...,m. Она ограничена снизу, следовательно, имеет минимум. Необходимым условием мини- мума функции Q является равенство нулю всех ее частных производных по bj. Частные производные квадратичной функции являются линейными функциями. Приравнивая их к нулю, мы получаем систему m+1 линейных уравнений с m+1 неизвестными:
Такая система имеет обычно единственное решение. В исключительных случаях, когда столбцы системы линейных уравнений линейно зависимы, она имеет бесконечно много решений или не имеет решения вовсе. Однако данные реальных статистических наблюдений к таким исключительным случаям практически никогда не приводят. Система называется системой нормальных уравнений. Ее решение в явном виде наиболее наглядно представимо в векторно-матричной форме.