Оценка значимости уравнения регрессии
Оценка значимости уравнения регрессии в целом производится для того, чтобы узнать пригодно ли уравнение для практического использования, причем под практическим использованием уравнения регрессии чаще всего понимают возможность прогнозирования по данному уравнению.
В качестве основной гипотезы выдвигается гипотеза о незначимости уравнения регрессии в целом, которая формально может быть сведена к гипотезе о равенстве нулю коэффициента регрессии (b=0) или равенстве нулю коэффициента детерминации ( ). Альтернативная гипотеза состоит в том, что уравнение регрессии значимо, а так же не равны нулю и коэффициент регрессии, и коэффициент детерминации.
Оценке уравнения регрессии предшествует анализ дисперсии, где центральное место занимает разложение общей суммы квадратов отклонений переменной y от среднего значения соответственно на сумму квадратов отклонений, объясненных регрессией, и остаточную сумму квадратов отклонений: , где - общая сумма квадратов отклонений; - сумма квадратов отклонений, объясненная регрессией; - остаточная сумма квадратов отклонений.
На общую сумму квадратов отклонений влияют две группы причин: изучаемый фактор и прочие факторы, неучтенные в модели.
Если фактор не оказывает влияния на результативный признак , то вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если прочие факторы не оказывают влияния на результативный признак, то факторы и будут связаны функционально, при этом остаточная сумма будет равна нулю, и общая сумма квадратов отклонений будет совпадать с суммой, объясненной регрессией.
Однако практика показывает, что всегда имеет место разброс данных, при этом пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации результативного признака приходится на объясненную вариацию, т.е. вариацию признака-фактора. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов отклонений, то уравнение регрессии статистически значимо и фактор оказывает существенное воздействие на результат , это равносильно тому, что .
В дисперсионном анализе используется так же понятие числа степеней свободы . Число степеней свободы можно определить как число свободы независимого варьирования признака. Оно связано с числом единиц совокупности n и с числом определяемых по ней констант, показывает, сколько независимых отклонений из возможных - отклонений требуется для данной суммы квадратов.
Для общей суммы квадратов отклонений число степеней свободы равно , так как после определения среднего уровня свободно варьируются лишь (n-1) число отклонений.
При расчете объясненной (факторной) суммы квадратов отклонений используют теоретические (расчетные) значения результативного признака ,найденные по линии регрессии . Для линейной парной регрессии справедлива формула: . Поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы (коэффициента регрессии b), то данная сумма квадратов имеет одну степень свободы ( ).
Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов отклонений при линейной регрессии равно .
В итоге имеем два равенства
n - 1 = 1 + ( n – 2 ).
Разделив каждую сумму квадратов отклонений на соответствующее ей число степеней свободы, получим средний квадрат отклонений (дисперсию на одну степень свободы): , , .
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Для нахождения фактического значения F – критерия Фишера используют факторную и остаточную дисперсии в расчете на одну степень свободы: , при этом основная гипотеза состоит в том, что остаточная и факторная дисперсии не отличаются друг от друга : . Для опровержения необходимо, чтобы факторная дисперсия превышала остаточную в несколько раз. Далее с помощью таблицы специальных критических точек распределения Фишера по заданному уровню значимости и двум видам чисел степеней свободы k1 и k2 (k1- число степеней свободы для факторной дисперсии, k2- число степеней свободы для остаточной дисперсии) находят табличное (критическое) значение: . Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.
Если , то нет оснований отвергать нулевую гипотезу, т.е. уравнение признается статистически незначимым, ненадежным и, как следствие этого, можно считать что коэффициенты регрессии и детерминации принимают нулевые значения.
Если , то нулевая гипотеза отвергается, признается статистическая значимость и надежность результатов регрессионного моделирования и, как следствие, коэффициенты регрессии и детерминации принимают ненулевые значения.
Учитывая, что факторная сумма квадратов отклонений может быть представлена как , а остаточная сумма квадратов отклонений - как , получаем следующую формулу для вычисления фактического значения F – критерия Фишера: .
Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа:
Источники вариации | Число степеней свободы | Сумма квадратов отклонений | Дисперсия на одну степень свободы | F - отношение | |
фактическое | табличное при | ||||
Общая | |||||
Факторная (Объясненная) | |||||
Остаточная |