Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова

В классическом множественном регрессионном анализе обычно делаются следующие предпосылки:

1. Математическое ожидание случайного членаεiравно нулю в любом на-блюдении

М(εi) = 0. (3.19)
2. Дисперсия случайного членаεiпостоянна для всех наблюдений
D(i)2 . (3.20)
3. Значения случайного члена в любых наблюденияхεiиεj не коррелиру-
ют между собой  
Cov(εi, εj) = 0 (i≠j). (3.21)
Это условие с учетом того, что М(εi) =М(εj) = 0 принимает вид  
M(εij) = 0 (i ≠ j). (3.22)

4. Случайный член должен быть распределен независимо от объясняющихпеременных xi в одних и тех же наблюдениях

Cov(xit, εi) = M (xi, εi) = 0, (3.23)

где было учтено, что М(εi) = 0.

Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные xit считаются детерминированными величинами.

5. Матрица X X является неособенной, т. е. столбцы матрицы X линейно независимы.

6. Значения случайного члена εi распределены по нормальному закону.

Модель (3.6), удовлетворяющая приведенным предпосылкам 1 6, называ-ется классической нормальной линейной моделью множественной регрессии.

Модель (3.6), удовлетворяющая приведенным предпосылкам 1 5, называ-ется классической линейной моделью множественной регрессии.

Согласно теореме Гаусса-Маркова, при выполнении указанных предпосы-лок оценки параметров линейной множественной регрессии (3.13), полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок.

Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию.

После построения модели необходимо вычислить значения остатков еi и проверить выполнение предпосылок 1 6, так как их нарушение снижает каче-ство модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены далее.




3.6. Проверка качества уравнения регрессии. F-критерий Фишера

Как и в случае парной регрессии для оценки качества полученного множе-ственной уравнения регрессии (3.6) можно использовать коэффициент детер-минации, представляющий собой отношение объясненной части D(ŷ) диспер-сии переменной у ко всей дисперсии D(y)

R2 D( yˆ)или

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

D( y)

где

D( y) 1 yiy2 , D( yˆ) 1 i
  n     n  

R2

y2,


n                  
( yˆiy)2              
i 1       ,       (3.24)  
n              
                 
( yiy)2              
i 1                  
D(e)   Dост   1 ˆ    
      n yi   yi.  
                 

Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0 ≤ R2 ≤ 1 и показывает, какая часть дисперсии результативного признака y объяснена уравнением регрессии. Чем выше значение R2, тем лучше данная модель согласуется с данными наблюдений.

Оценка статистической значимости уравнения регрессии (а также коэффи-циента детерминации R2) осуществляется с помощью F-критерия Фишера

    n                  
    ( yˆiy)2                  
    i 1       R2   n p 1      
F   p         , (3.25)  
  n   1 R p  
             
  ( yˆiyi )2            

i 1

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

n p 1

где p число независимых переменных в уравнении регрессии (3.6).

Согласно F-критерию Фишера, выдвигаемая «нулевая» гипотеза H0 о ста-тистической незначимости уравнения регрессии отвергается при выполнении условия F>Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3,

П4) по двум степеням свободы k1=p,k2=n p1 и заданному уровню значи-мости α.

Для оценки тесноты связи факторов с исследуемым признаком, задаваемой построенным уравнением регрессии yˆf(x1,x2,...,xp) , используется коэффи-

циент множественной корреляции R

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

RR 21 Dост  
  D( y)  

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

  n      
  ( yˆiyi )2 . (3.26)  
i 1  
n  
  ( yiy)2      

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru i 1

Коэффициент множественной корреляции R принимает значения в диапазоне 0≤R≤1.

Чем ближе величина R к единице, тем теснее данная связь, тем лучше за-висимость yˆf(x1,x2,...,xp) согласуется с данными наблюдений. При R= 1

(R2 = 1) связь становится функциональной, т. е. соотношениеyˆ f (x1 , x2 ,..., xp )

точно выполняется для всех наблюдений.

Коэффициент множественной корреляции может использоваться как ха-рактеристика качества построенного уравнения регрессии yˆf(x1,x2,...,xp) ,

точности построенной модели.

Величина коэффициента множественной корреляции не может быть мень-ше максимального парного индекса корреляции Rmaxryxi, (i1, 2,...,p) .

В случае линейной зависимости (3.6) коэффициент корреляции R связан с парными коэффициентами корреляции ryxi соотношением

Ri ryxi, (3.27)
i  

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru где i– стандартизованные коэффициенты регрессии (3.16).

Использование коэффициента множественной детерминации R2 для оцен-ки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2.

Поэтому при большом количестве факторов предпочтительнее использо-вать, так называемый, скорректированный, улучшенный (adjusted) коэффици-

ент множественной детерминации R2, определяемый соотношением

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru     n          
    2 1 ( yˆiyi )2 : (n p 1)   n 1 (1 R2 ) ,    
    i 1 (3.28)  
R  
  n    
        n p 1    
      ( yiy)2 : (n 1)      

i 1

где p– число факторов в уравнении регрессии,n– число наблюдений. Чем больше величина p, тем сильнее различия R2 и R2.

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

При использовании R2 для оценки целесообразности включения фактора в

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

уравнение регрессии следует однако учитывать, что увеличение R2 при вклю-чении нового фактора не обязательно свидетельствует о его значимости, так как

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

значение увеличивается R2 всегда, когда t-статистика больше единицы (t>1). При заданном объеме наблюдений и при прочих равных условиях с увеличе-нием числа независимых переменных (параметров) скорректированный ко-эффициент множественной детерминации убывает. При небольшом числе наблю-дений скорректированная величина коэффициента множественной детерминации R2имеет тенденцию переоценивать долю вариации результативного признака,

Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова - student2.ru

связанную с влиянием факторов, включенных в регрессионную модель. Отметим, что низкое значение коэффициента множественной корреляции

и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами:

– в регрессионную модель не включены существенные факторы;

– неверно выбрана форма аналитической зависимости, не отражающая ре-альные соотношения между переменными, включенными в модель.


Наши рекомендации