Оценка надежности уравнения регрессии
С помощью метода наименьших квадратов мы получили лишь оценки параметров уравнения регрессии. Чтобы оценить надежность модели необходимо проверить, значимы ли ее параметры (т.е. значимо ли они отличаются от нуля в «истинном» уравнении регрессии – регрессии, построенной для генеральной совокупности). При этом используют статистические методы проверки гипотез. С помощью статистических методов проверки гипотез можно также проверить значимость коэффициента парной линейной корреляции, а также значимость коэффициента множественной корреляции (т.е. проверить значимо ли они отличаются от нуля в генеральной совокупности.
В качестве основной гипотезы (Н0) выдвигают гипотезу о незначимом отличии от нуля «истинного» параметра регрессии или коэффициента корреляции. Альтернативной гипотезой (Н1), при этом является гипотеза обратная, т.е. о неравенстве нулю «истинного» параметра или коэффициента корреляции. Мы заинтересованы в том, чтобы основная гипотеза была отвергнута. Для проверки этой гипотезы используется t-статистика критерия проверки гипотезы, имеющая распределение Стьюдента.
Найденное по данным наблюдений значение t-статистики (его еще называют наблюдаемым или фактическим) сравнивается с критическим значением t-статистики, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Критическое значение определяется в зависимости от уровня значимости (a) и числа степеней свободы, которое равно (n-h), n-число наблюдений, h – число оцениваемых параметров в уравнении регрессии. В случае линейной парной регрессии h=2, а число степеней свободы равно (n-2).
Если фактическое значение t-статистики взятое по модулю больше критического, то основную гипотезу отвергают и считают, что с вероятностью (1-a) «истинной» параметр регрессии (либо коэффициент корреляции) значимо отличается от нуля.
Если фактическое значение t-статистики меньше критического (по модулю), то нет оснований отвергать основную гипотезу, т.е. «истинной» параметр регрессии (либо коэффициент корреляции) незначимо отличается от нуля при уровне значимости a.
Для анализа статистической значимости полученных коэффициентов необходимо проверить гипотезу Н0: bгj=0 (при альтернативной Н1: bгj≠0). Статистика критерия проверки рассчитывается по формуле: ,
где bj - оценка коэффициента регрессии b1, полученная по наблюдаемым данным;
mbj – стандартная ошибка оценки коэффициента регрессии bj (корень из дисперсии оценки коэффициента регрессии – μ2[bj]; берется из оценки матрицы ковариаций ).
В случае парной линейной регрессии .
.
Сумму квадратов отклонений фактических значений результата от смоделированных - можно рассчитать через коэффициент детерминации и общую дисперсию признака-результата:
.
Если (п-т-1), то есть число степеней свободы, достаточно велико (не менее 8 - 10), то при 5%-ном уровне значимости и двусторонней альтернативной гипотезе критическое значение t-статистики приблизительно равно двум. Здесь, как и в случае парной регрессии, можно приближенно считать оценку незначимой, если t-статистика по модулю меньше единицы, и весьма надежной, если модуль t-статистики больше трех. Другие критерии качества полученного уравнения регрессии будут рассмотрены ниже.
Оценим значимость параметров регрессии для нашего примера (y’x1,x2= 29,4 +4,2·x1-0,92·x2):
; ; .
tкр(α=0,05; 12-3=9)=2,26.
Так как │tнабл│>tкр (для всех параметров), то все параметры можно признать значимыми.
Для проверки гипотезы о незначимом отличии от нуля «истинного» коэффициента линейной парной корреляции: ryxг=0 (рассчитанного для генеральной совокупности) используют статистику критерия:
, где ryx - оценка коэффициента корреляции, полученная по наблюдаемым данным (выборочный коэффициент корреляции); mr – стандартная ошибка выборочного коэффициента корреляции ryx.
Для линейного парного уравнения регрессии:
.
В парной линейной регрессии между наблюдаемыми значениями статистик критериев существует взаимосвязь: t (b1=0)=t(r=0).
Оценка значимости уравнения множественной регрессии в целом осуществляется путем проверки основной гипотезы Н0: R2 гy(x1,...,xm)=0 или δ*2≤ε*2 (гипотеза о статистической незначимости уравнения регрессии). При этом альтернативная гипотеза - Н1: R2гy(x1,...,xm)¹0 или δ*2>ε*2 (гипотеза о статистической значимости уравнения регрессии).
Для проверки основной гипотезы используют статистику, рассчитываемую по следующей формуле: , где n-число наблюдений; h – число оцениваемых параметров (в случае двухфакторной линейной регрессии h=3), R2y(x1,...,xm) - выборочный коэффициент детерминации.
Данная статистика имеет F-распределение (Фишера-Снедоккора). Поэтому для поиска критического значения - Fкр пользуются таблицами распределения Фишера-Снедоккора, задаваясь при этом уровнем значимости a (обычно его берут равным 0,05) и двумя числами степеней свободы k1=h-1 и k2=n-h.
Сравнивая фактическое значение F-статистики критерия, вычисленное по данным наблюдений - (Fнабл) с критическим - Fкр(a;k1;k2). Если Fнабл<Fкр(a;k1;k2), то основную гипотезу о незначимости уравнения регрессии не отвергают. Если Fнабл>Fкр(a;k1;k2), то основную гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии. Для уверенных выводов отличие наблюдаемого и критического значений F-критерия должно быть по крайней мере в 4 раза.
! В случае линейной парной регрессии имеет место следующая взаимосвязь статистик: : .
Для нашего примера:
; Fкр(0,05; 2; 9)=4,26.
Так как Fнабл>Fкр, то уравнение: y’x1,x2= 29,4 +4,2·x1-0,92·x2 можно признать значимым и надежным с вероятностью 0,95.
Оценка значимости дополнительного включения фактора (частный F–критерий).Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличить долю объясненной вариации результативного признака. Это может быть связано с последовательностью вводимых факторов (т.к. существует корреляция между самими факторами).
Мерой оценки значимости улучшения качества модели, после включения в нее фактора хj, служит частный F-критерий - Fxj:
, где h- число оцениваемых параметров.
В числителе – прирост доли вариации y за счет дополнительно включенного в модель фактора xj.
Если наблюдаемое значение Fxj больше Fкр(a;k1=1;k2=n-h), то дополнительное введение фактора хj в модель статистически оправдано.
Допустим, что оценивается значимость фактора х1, как дополнительно включенного в модель y=f(x2). Тогда частный F-критерий будет вычисляться по формуле:
.
Частный F-критерий оценивает значимость коэффициентов «чистой» регрессии (bj). Существует взаимосвязь между частным F–критерием - Fxj и t-критерием, используемым для оценки значимости коэффициента множественной регрессии при j–ом факторе: .
Для нашего примера:
=26,1; Fкр(0,05; 1; 9)=5,12. Так как Fнабл>Fкр, то фактор х1 целесообразно включать в модель y(х2).
=7,7; Fкр(0,05; 1; 9)=5,12. Так как Fнабл>Fкр, то фактор х2 также целесообразно включать в модель y(х1).