Проверка качества уравнения регрессии. F-критерий Фишера
Оценка качества полученного уравнения регрессии основывается на мето-дах дисперсионного анализа.
Наблюдаемые значения результативного признака yi можно представить в виде суммы двух составляющих ŷi и еi
yi = ŷi+еi. | (2.21) |
Величина ŷi=а+ b·хi представляет собой расчетное значение переменной у в наблюдении i. Остаток еi есть расхождение между наблюдаемым и расчетны-ми значениями переменной у, или необъясненная с помощью уравнения рег-рессии часть переменной у.
Из (2.21) следует следующее соотношение между дисперсиями наблюдае-мых значений переменной D(y), ее расчетных значений D(ŷ) и остатков D(е)
(остаточной дисперсиейDост = D(е)) | (2.22) | ||||||||||||||||||
D(y) = D(ŷ) + D(е). | D( yˆ)1 | ||||||||||||||||||
Учитывая | соотношения | D( y) | 1 | yi | , | yˆi | | ||||||||||||
1 | ˆ | n | n | ||||||||||||||||
D(e) | Dост | n | yi | yiиМ(е) = 0равенство(2.21)можно записать в виде | |||||||||||||||
n | n | n | |||||||||||||||||
( yi | ( yˆi | ( yˆiyi )2 . | (2.23) | ||||||||||||||||
i 1 | i 1 | i 1 | |||||||||||||||||
Отношение объясненной части D(ŷ) дисперсии переменной у ко всей дис- | |||||||||||||||||||
персии D(y) | n | ||||||||||||||||||
R2 | D( yˆ) | или R2 | ( yˆi | ||||||||||||||||
i 1 | (2.24) | ||||||||||||||||||
D( y) | n | ||||||||||||||||||
( yi |
i 1
называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи.
Соотношение (2.23) можно представить в альтернативном виде
n | |||||||
Dост | R21 | ( yˆiyi )2 | |||||
R21 | или | i 1 | . | (2.25) | |||
D( y) | n | ||||||
( yi |
i 1
Коэффициент детерминации R2 принимает значения в диапазоне от нуля до
единицы
0 ≤R2≤ 1.
Коэффициент детерминации R2 показывает, какая часть дисперсии резуль-тативного признака y объяснена уравнением регрессии. Например, значение R2= 0,56говорит о том,что соответствующее уравнение регрессии объясняет56 % дисперсии результативного признака.
Чем больше R2, тем большая часть дисперсии результативного признака y объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между у и x коэффициент детер-минации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии.
Возникает вопрос, при каких значениях R2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использо-вание в анализе. Ответ на этот вопрос дает F-критерий Фишера.
Введем следующие обозначения:
n | |||||||
TSS = ( yi | полная сумма квадратов отклонений; | ||||||
i 1 | |||||||
n | |||||||
ESS = ( yˆi | объясненная сумма квадратов отклонений; | ||||||
i 1 | |||||||
n | n | ||||||
RSS = ( yˆiyi ) | 2ei | необъясненная сумма квадратов отклонений. | |||||
i 1 | i 1 | ||||||
Известно, что величина | ESS | ||||||
F | k | , | (2.26) | ||||
RSS | |||||||
n k 1
где k число независимых переменных в уравнении регрессии (для парной рег-рессии k= 1), в случае нормально распределенной ошибки εi является F-статис-тикой Фишера (случайная величина, распределенная по закону Фишера) с чис-лом степеней свободы k1=k,k2=n k1.
Согласно F-критерию Фишера, выдвигается « нулевая» гипотеза H0 о ста-тистической незначимости уравнения регрессии (т. е. о статистически незначи-мом отличии величины F от нуля). Эта гипотеза отвергается при выполнении условия F>Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3,
П4) при числе степеней свободы k1=k, k2=n k1 и заданному уровню зна-чимости α.
Уровнем значимости (обозначаетсяα)в статистических гипотезах называ-ется вероятность отвергнуть верную гипотезу (это, так называемая, ошибка первого рода). Уровень значимости α обычно принимает значения 0,05 и 0,01, что соответствует вероятности совершения ошибки первого рода 5 % и 1 %.
Используя соотношение (2.24), величину F можно выразить через коэффи-циент детерминации R2
F | R2 | n k 1 | . | (2.27) | |||
R2 | k | ||||||
Например, по данным 30 наблюдений было получено уравнение регрессии y = 50,5 + 3,2x и R2= 0,60.
Необходимо проверить его значимость при уровне значимости α = 0,05. Определим величину F-статистики, учитывая, что k= 1
F | R2 | n k 1 | 0,6 | 30 | 1 1 | 0,6 | 42. | ||||||||||
R2 | k | 0,6 | 0,4 | ||||||||||||||
По таблицам F-критерия Фишера при
k1= k = 1, k2= n k 1 = 30 – 1 – 1 = 28иα= 0,05
находим Fкрит= 4,20. Так как F= 42 >Fкрит= 4,20 , то делаем вывод о статисти-ческой значимости уравнения регрессии.