Оценка существенности параметров линейной регрессии и корреляции
После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.
Оценка значимости уравнения регрессии в целом дается с помощью -критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т. е. , и, следовательно, фактор не оказывает влияния на результат .
Непосредственному расчету -критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной от среднего значения на две части – «объясненную» и «необъясненную»:
Общая сумма квадратов отклонений индивидуальных значений результативного признака от среднего значения вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то связан с функционально, и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.
Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора , т. е. регрессией по , так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.
Любая сумма квадратов отклонений связана с числом степеней свободы (df– degrees of freedom), т.е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений от средней из возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов независимых отклонений, ибо по совокупности из единиц после расчета среднего уровня свободно варьируют лишь число отклонений. Например, имеем ряд значений у: 1,2, 3, 4, 5. Среднее из них равно 3, и тогда отклонения от среднего составят: –2; –1; 0; 1; 2. Так как , то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.
При расчете объясненной или факторной суммы квадратов используются теоретические (расчетные) значения результативного признака , найденные по уравнению линейной регрессии.
Величина определяется по уравнению линейной регрессии . Параметр можно найти как , тогда, подставив в линейную модель, получим:
.
Отсюда видно, что при заданном наборе переменных и расчетное значение является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов.
Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет . Число степеней свободы для общей суммы определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. .
Итак, имеем два равенства:
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.
;
;
.
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения, (F-критерий):
,
где F – критерий для проверки нулевой гипотезы.
Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение –отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: отклоняется.
Если же величина окажется меньше табличной , то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. не отклоняется.
Величина F-критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как
,
а остаточную сумму квадратов – как
Тогда значение -критерия можно выразить как
Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа.
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: и .
Стандартная ошибка коэффициента регрессии определяется по формуле
где – остаточная дисперсия на одну степень свободы.
Величина стандартной ошибки совместно с -распределением Стьюдента при степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.
Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т. е. определяется фактическое значение -критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы .
Этот же результат получим, извлекая квадратный корень из найденного ранее -критерия, т. е.
.
Доверительный интервал для коэффициента регрессии определяется как .
Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, . Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.
Стандартная ошибка параметра а определяется по формуле:
Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется -критерий: , его величина сравнивается с табличным значением при степенях свободы.
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции
Фактическое значение -критерия Стьюдента определяется как
Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, . Кроме того, . Следовательно, .
Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.