Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова
В классическом множественном регрессионном анализе обычно делаются следующие предпосылки:
1. Математическое ожидание случайного членаεiравно нулю в любом на-блюдении
М(εi) = 0. | (3.19) |
2. Дисперсия случайного членаεiпостоянна для всех наблюдений | |
D(i)2 . | (3.20) |
3. Значения случайного члена в любых наблюденияхεiиεj | не коррелиру- |
ют между собой | |
Cov(εi, εj) = 0 (i≠j). | (3.21) |
Это условие с учетом того, что М(εi) =М(εj) = 0 принимает вид | |
M(εi,εj) = 0 (i ≠ j). | (3.22) |
4. Случайный член должен быть распределен независимо от объясняющихпеременных xi в одних и тех же наблюдениях
Cov(xit, εi) = M (xi, εi) = 0, | (3.23) |
где было учтено, что М(εi) = 0.
Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные xit считаются детерминированными величинами.
5. Матрица X X является неособенной, т. е. столбцы матрицы X линейно независимы.
6. Значения случайного члена εi распределены по нормальному закону.
Модель (3.6), удовлетворяющая приведенным предпосылкам 1 6, называ-ется классической нормальной линейной моделью множественной регрессии.
Модель (3.6), удовлетворяющая приведенным предпосылкам 1 5, называ-ется классической линейной моделью множественной регрессии.
Согласно теореме Гаусса-Маркова, при выполнении указанных предпосы-лок оценки параметров линейной множественной регрессии (3.13), полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок.
Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию.
После построения модели необходимо вычислить значения остатков еi и проверить выполнение предпосылок 1 6, так как их нарушение снижает каче-ство модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены далее.
3.6. Проверка качества уравнения регрессии. F-критерий Фишера
Как и в случае парной регрессии для оценки качества полученного множе-ственной уравнения регрессии (3.6) можно использовать коэффициент детер-минации, представляющий собой отношение объясненной части D(ŷ) диспер-сии переменной у ко всей дисперсии D(y)
R2 D( yˆ)или
D( y)
где
D( y) | 1 | yi | , D( yˆ) | 1 | yˆi |
n | n |
R2
y2,
n | |||||||||
( yˆi | |||||||||
i 1 | , | (3.24) | |||||||
n | |||||||||
( yi | |||||||||
i 1 | |||||||||
D(e) | Dост | 1 | ˆ | ||||||
n | yi | yi. | |||||||
Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0 ≤ R2 ≤ 1 и показывает, какая часть дисперсии результативного признака y объяснена уравнением регрессии. Чем выше значение R2, тем лучше данная модель согласуется с данными наблюдений.
Оценка статистической значимости уравнения регрессии (а также коэффи-циента детерминации R2) осуществляется с помощью F-критерия Фишера
n | |||||||||||
( yˆi | |||||||||||
i 1 | R2 | n p 1 | |||||||||
F | p | , | (3.25) | ||||||||
n | 1 R | p | |||||||||
( yˆiyi )2 |
i 1
n p 1
где p число независимых переменных в уравнении регрессии (3.6).
Согласно F-критерию Фишера, выдвигаемая «нулевая» гипотеза H0 о ста-тистической незначимости уравнения регрессии отвергается при выполнении условия F>Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3,
П4) по двум степеням свободы k1=p,k2=n p1 и заданному уровню значи-мости α.
Для оценки тесноты связи факторов с исследуемым признаком, задаваемой построенным уравнением регрессии yˆf(x1,x2,...,xp) , используется коэффи-
циент множественной корреляции R
RR 21 | Dост | |
D( y) |
n | ||||
( yˆiyi )2 | . | (3.26) | ||
i 1 | ||||
n | ||||
( yi |
i 1
Коэффициент множественной корреляции R принимает значения в диапазоне 0≤R≤1.
Чем ближе величина R к единице, тем теснее данная связь, тем лучше за-висимость yˆf(x1,x2,...,xp) согласуется с данными наблюдений. При R= 1
(R2 = 1) связь становится функциональной, т. е. соотношениеyˆ f (x1 , x2 ,..., xp )
точно выполняется для всех наблюдений.
Коэффициент множественной корреляции может использоваться как ха-рактеристика качества построенного уравнения регрессии yˆf(x1,x2,...,xp) ,
точности построенной модели.
Величина коэффициента множественной корреляции не может быть мень-ше максимального парного индекса корреляции Rmaxryxi, (i1, 2,...,p) .
В случае линейной зависимости (3.6) коэффициент корреляции R связан с парными коэффициентами корреляции ryxi соотношением
Ri ryxi, | (3.27) |
i |
где i– стандартизованные коэффициенты регрессии (3.16).
Использование коэффициента множественной детерминации R2 для оцен-ки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2.
Поэтому при большом количестве факторов предпочтительнее использо-вать, так называемый, скорректированный, улучшенный (adjusted) коэффици-
ент множественной детерминации R2, определяемый соотношением
n | ||||||||
2 1 | ( yˆiyi )2 : (n p 1) | n 1 | (1 R2 ) , | |||||
i 1 | (3.28) | |||||||
R | ||||||||
n | ||||||||
n p 1 | ||||||||
( yi |
i 1
где p– число факторов в уравнении регрессии,n– число наблюдений. Чем больше величина p, тем сильнее различия R2 и R2.
При использовании R2 для оценки целесообразности включения фактора в
уравнение регрессии следует однако учитывать, что увеличение R2 при вклю-чении нового фактора не обязательно свидетельствует о его значимости, так как
значение увеличивается R2 всегда, когда t-статистика больше единицы (t>1). При заданном объеме наблюдений и при прочих равных условиях с увеличе-нием числа независимых переменных (параметров) скорректированный ко-эффициент множественной детерминации убывает. При небольшом числе наблю-дений скорректированная величина коэффициента множественной детерминации R2имеет тенденцию переоценивать долю вариации результативного признака,
связанную с влиянием факторов, включенных в регрессионную модель. Отметим, что низкое значение коэффициента множественной корреляции
и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами:
– в регрессионную модель не включены существенные факторы;
– неверно выбрана форма аналитической зависимости, не отражающая ре-альные соотношения между переменными, включенными в модель.