Основные положения регрессионного анализа
Напомним, что парная регрессионная модель представляется в виде:
Y = j(Х) + e, | (2.13) |
где e - СВ - возмущение, ошибка, характеризующая отклонение СВ Y от функции регрессии j(Х) - условного математического ожидания Мх(Y). В линейном регрессионном анализе j(Х) линейна относительно оцениваемых параметров:
Мх(У) = j(Х) = b0 +b1х. | (2.14) |
Пусть для оценки параметров регрессии взята выборка из n пар (xi, yi). Тогда линейная парная регрессионная модель имеет вид:
yi = b0 +b1хi + ei. | (2.15) |
Теперь рассмотрим основные предпосылки регрессионного анализа:
1. В модели (2.15) возмущение ei , а значит и зависимая переменная yi, есть величина случайная, а объясняющая переменная хi - величина неслучайная, но принимающая различные значения.
2. М(ei) = 0 и, следовательно, М(yi) = b0 +b1хi. | (2.16) |
3. Условие гомоскедастичности (равноизменчивости) возмущения или, что то же самое, переменной yi:
D(ei) = s2 = D(yi) = const. | (2.17) |
4. Возмущения ei и ej (или переменные у i и у j) некоррелированы:
М(eiej) = 0 (i¹j). | (2.18) |
5. Возмущение ei (или переменная уi) есть НРСВ.
Модель, для которой выполняются все пять предпосылок, называется нормальной классической линейной регрессионной моделью (НКЛРМ). Для получения уравнения регрессии достаточно предпосылок 1-4. Предпосылка 5 необходима для оценки точности уравнения и его параметров.
2.4. Качество оценок параметров bo, b1 и s2: теорема Гаусса-Маркова и метод максимального правдоподобия
Оценкой модели (2.15) по выборке является уравнение регрессии (2.2): = bo +b1x. Оценки bo и b1 параметров bo и b1 находятся по МНК (см. выше).
Качество уравнения (2.2) оценивается по нескольким показателям. Один из них - s2 - выборочная несмещенная оценка остаточной дисперсии (дисперсии возмущений) s2:
. | (2.19) |
где - групповая средняя, найденная с помощью уравнения регрессии; ei = ( -yi) - выборочная оценка возмущения (остаток регрессии).
Заметим, что в уравнении (2.19) число степеней свободы k=n-m=n-2, т.к. две степени теряются (связываются) при определении двух параметров: bo и b1.
Вопрос: являются ли оценки bo, b1 и s2 параметров bo, b1 и s2 наилучшими? Ответ на этот вопрос дает теорема Гаусса-Маркова и привлечение метода максимального правдоподобия (табл. 2.3).
Теорема Гаусса-Маркова. Если регрессионная модель (2.15) удовлетворяет предпосылкам 1-4, то оценки уравнения (2.7) bo, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок, т.е. являются эффективными.
Таблица 2.3
Показатели качества оценок bo, b1, s2
Оцениваемый параметр | Оценка методом наименьших квадратов (МНК) | Оценка методом максимального правдоподобия (ММП) |
Коэффициенты регрессии bo, b1 | bo, b1 - эффективные, т.е. несмещенные и имеющие наименьшую дисперсию. Основание: МНК и теорема Гаусса-Маркова - состоятельные. Основание: тождество с оценками ММП | bo, b1 - эффективные (в точности совпадают с оценками по МНК). Основание: ММП и теорема Гаусса-Маркова. - состоятельные. Основание: свойство оценок ММП (закон больших чисел) |
Остаточная дисперсия s2 | s2 - см. (2.19) несмещенная. Основание: по определению. - состоятельная. Основание: тождество с оценками ММП | =åе2/n ср.с (2.19) - смещенная. Основание: следует прямо из ММП. - состоятельная. Основание: свойство оценок ММП (закон больших чисел) |
Кратко охарактеризуем метод максимального правдоподобия (ММП). Для его применения допустим выполнение предпосылки 5: значения уi - независимые СВ с НЗР, математическим ожиданием М(уi) = bo+b1хi и постоянной дисперсией возмущений s2.. В основе метода лежит функция правдоподобия:
L(y1, x1, ... , yn, xn, bo, b1, s2) =
=
В качестве оценок параметров bo, b1, s2 в ММП принимаются такие значения, , , , которые максимизируют функцию правдоподобия L. Для нашей функции L максимум достигается при условии минимума ее показателя степени: å (yi - bo - b1xi)2 ® min , что совпадает с условием МНК для определения bo и b1
Оценка по ММП также находится из условия минимума L. Для ее нахождения используем уравнение ¶L/¶s = 0, откуда имеем:
. | (2.20) |