Проверка качества уравнения регрессии. F-критерий Фишера

Оценка качества полученного уравнения регрессии основывается на мето-дах дисперсионного анализа.

Наблюдаемые значения результативного признака yi можно представить в виде суммы двух составляющих ŷi и еi

yi = ŷii. (2.21)

Величина ŷi=а+ b·хi представляет собой расчетное значение переменной у в наблюдении i. Остаток еi есть расхождение между наблюдаемым и расчетны-ми значениями переменной у, или необъясненная с помощью уравнения рег-рессии часть переменной у.

Из (2.21) следует следующее соотношение между дисперсиями наблюдае-мых значений переменной D(y), ее расчетных значений D(ŷ) и остатков D(е)

(остаточной дисперсиейDост = D(е))               (2.22)  
                    D(y) = D(ŷ) + D(е).     D( yˆ)1    
  Учитывая соотношения D( y) 1 yiy2 , i y2,  
        1   ˆ         n         n      
                           
D(e)   Dост   n yi   yiиМ(е) = 0равенство(2.21)можно записать в виде    
                n   n       n        
                                 
                  ( yiy)2 ( yˆiy)2 ( yˆiyi )2 .   (2.23)  
                  i 1   i 1     i 1        
  Отношение объясненной части D(ŷ) дисперсии переменной у ко всей дис-  
персии D(y)                   n            
                                     
                R2 D( yˆ) или R2     ( yˆiy)2        
                    i 1       (2.24)  
                D( y)   n        
                        ( yiy)2        

i 1




называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи.

Соотношение (2.23) можно представить в альтернативном виде

        n      
  Dост   R21 ( yˆiyi )2      
R21 или i 1 . (2.25)  
D( y) n  
        ( yiy)2      

i 1

Коэффициент детерминации R2 принимает значения в диапазоне от нуля до

единицы

0 ≤R2≤ 1.

Коэффициент детерминации R2 показывает, какая часть дисперсии резуль-тативного признака y объяснена уравнением регрессии. Например, значение R2= 0,56говорит о том,что соответствующее уравнение регрессии объясняет56 % дисперсии результативного признака.

Чем больше R2, тем большая часть дисперсии результативного признака y объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между у и x коэффициент детер-минации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии.

Возникает вопрос, при каких значениях R2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использо-вание в анализе. Ответ на этот вопрос дает F-критерий Фишера.

Введем следующие обозначения:

n              
TSS = ( yiy)2 полная сумма квадратов отклонений;    
i 1              
n              
ESS = ( yˆiy)2 объясненная сумма квадратов отклонений;    
i 1              
n n            
RSS = ( yˆiyi ) 2ei необъясненная сумма квадратов отклонений.  
i 1 i 1            
Известно, что величина     ESS      
             
      F k , (2.26)  
      RSS  
             

Проверка качества уравнения регрессии. F-критерий Фишера - student2.ru n k 1

где k число независимых переменных в уравнении регрессии (для парной рег-рессии k= 1), в случае нормально распределенной ошибки εi является F-статис-тикой Фишера (случайная величина, распределенная по закону Фишера) с чис-лом степеней свободы k1=k,k2=n k1.

Согласно F-критерию Фишера, выдвигается « нулевая» гипотеза H0 о ста-тистической незначимости уравнения регрессии (т. е. о статистически незначи-мом отличии величины F от нуля). Эта гипотеза отвергается при выполнении условия F>Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3,

П4) при числе степеней свободы k1=k, k2=n k1 и заданному уровню зна-чимости α.

Уровнем значимости (обозначаетсяα)в статистических гипотезах называ-ется вероятность отвергнуть верную гипотезу (это, так называемая, ошибка первого рода). Уровень значимости α обычно принимает значения 0,05 и 0,01, что соответствует вероятности совершения ошибки первого рода 5 % и 1 %.

Используя соотношение (2.24), величину F можно выразить через коэффи-циент детерминации R2

F     R2 n k 1 . (2.27)  
R2 k  
       

Например, по данным 30 наблюдений было получено уравнение регрессии y = 50,5 + 3,2x и R2= 0,60.

Необходимо проверить его значимость при уровне значимости α = 0,05. Определим величину F-статистики, учитывая, что k= 1

F     R2   n k 1       0,6   30 1 1   0,6 42.  
R2 k 0,6   0,4  
                 

По таблицам F-критерия Фишера при

k1= k = 1, k2= n k 1 = 30 – 1 – 1 = 28иα= 0,05

находим Fкрит= 4,20. Так как F= 42 >Fкрит= 4,20 , то делаем вывод о статисти-ческой значимости уравнения регрессии.

Наши рекомендации