Стандартная ошибка уравнения регрессии. Оценка статистической значимости показателей корреляции, параметров уравнения регрессии. Дисперсионный анализ. Критерии Фишера и Стьюдента.
После того, как найдено уравнение линейной регрессии, проводится оценка, как уравнения в целом, так и отдельных его параметров.
Оценка значимости уравнения в целом, делается с помощью F-критерия. При этом выдвигается нулевая гипотеза H0, т.е. , и , и следовательно, фактор х не оказывает влияния на у, т.е. они не и взаимодействуют друг с другом.
Сначала проанализируем общую дисперсию, это предшествует определению F- критерия. Центральное место занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части.
Общая сумма Объясненная Необъясненная
квадратов регрессия (остаточная)
отклонений регрессия
Общая сумма квадратов отклонений у от вызвана влиянием множества причин. Условно разделим их на две группы: изучаемый фактор х и прочие факторы.
Если фактор не оказывает влияние на результат, то линия регрессии на графике параллельна оси ОХ и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. Сумма квадратов отклонений, объясняющей регрессией совпадает с общей суммой квадратов.
Т.к. не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс. Он обусловлен влиянием фактора х, т.е. регрессией у по х, а также вызван действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у, приходится на долю объясненную вариацией. Если сумма квадратов отклонений, обусловленных регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на у. Это равносильно тому, что .
Любая сумма квадратных отклонений связана с числом степеней свободы ( ) , т.е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом, определяемым по ней констант. Т.о. число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется независимых отклонений, т. к. по совокупности из n единиц после расчёта среднего уровня свободно варьируется лишь число отклонений.
Например,
, тогда т. к. , то свободно варьируются только 4 отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.
При расчёте объясненной или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака , найденные из уравнения .
В линейной регрессии
, а
- общая дисперсия признака у;
- дисперсия признака у, обусловленная фактором х.
Поскольку при заданном объёме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы (коэффициента регрессии b), то данная сумма квадратов имеет одну степень свободы.
К этому же выводу можно прийти по-другому.
Отсюда следует, что при заданном наборе переменных у и х расчетное значение является в линейной регрессии функцией только одного параметра - коэффициента регрессии, поэтому факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет . Число степеней свободы для общей суммы квадратов определяется числом единиц, и т. к. мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, то есть .
Разделив каждую переменную сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или дисперсию на 1 степень свободы.
; ; .
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия.
F-критерий для проверки нулевой гипотезы Н0 : .
Если Н0 справедлива, то фактическая и остаточная дисперсии не отличаются друг от друга. Для победы Н0 необходимо , чтобы Дфакт превышала Дост в несколько раз.
Английский статистик Снедекор разработал таблицу критических значений F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.
Вычисленное значение F-отношений признаётся достоверным (отличным от единицы), если оно больше табличного. В этом случае Н0 (отсутствие связи) отклоняется и делается вывод о существенности этой связи: , отклоняется.
Если же , то вероятность Н0 выше заданного уровня (например 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи.
Н0 не отклоняется, а уравнение регрессии становится незначимым.
Величина F-критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как , ( - общая дисперсия y; - дисперсия y, обусловленая фактором x (факторная)), а остаточную сумму ( , ). Тогда .
Оценка значимости уравнения регрессии даётся в виде таблицы дисперсионного анализа.
Источники вариации | Число степеней свободы | квадратов отклонений | Дисперсия на 1 степень свободы | Fотн | |
Факт. | Табл. | ||||
Общая Объясняющая Остаточная | - | - | - 6,61 - |
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных параметров. Поэтому по каждому из параметров определяется его стандартная ошибка: и , .
Стандартная ошибка коэффициента регрессии определяется по формуле: ;
- остаточная дисперсия на одну степень свободы ошибки.
Величина стандартной ошибки совместно с t-распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчёта его доверительных интервалов.
Для оценки существенности коэффициента регрессии его величина сравнивается со стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , который сравнивается с табличным значением при определённом уровне значимости и числе степеней свободы , .
Если фактическое значение больше табличного, то гипотезу о несущественности коэффициентов отвергаем. Доверительный интервал для коэффициента регрессии b определим по формуле предельная ошибка .
Так как коэффициент регрессии носит в эконометрических исследованиях чётко экономическую интерпретацию, то доверительные интервалы не должны содержать противоречивых результатов, например, . То есть, что истинное значение коэффициента одновременно содержит положительные, отрицательные величины и даже 0, чего не может быть.
Стандартная ошибка параметра a определяется:
Процедура оценивания не отличается от рассмотренной выше для b.
, его величина сравнивается с табличной, при .
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитывается t-критерий Стьюдента и доверительные интервалы для каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, то есть о незначительном отличии их от нуля. Оценки значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путём сопоставления их значений с величиной случайной ошибки (S2 остаточная дисперсия на 1 степень свободы, ).
; ; ;
; ; .
Сравниваем фактические и критические (табл.) значения и принимаем или отвергаем Н0
, то Н0 отклоняется, и считается, что и сформировались под влиянием систем фактора x.
Для расчёта доверительного интервала определяем предельную ошибку для каждого показателя.
; .
Формулы для расчёта доверительных интервалов имеют вид:
Если в границы доверительного интервала попадает нуль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равный 0, так как не может одновременно принимать положительное и отрицательное значения степенями свободы.
Значимость линейного коэффициента корреляции проверяется на основе величины коэффициента корреляции mr
.
Фактическое значение t-критерия Стьюдента определяется
, данная формула свидетельствует, что в парной линейной регрессии , ибо , а также , следовательно .
Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения.
Если при . То есть коэффициент а существенно отличен от нуля – является правильной, а зависимость достоверной.
Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если r не близко к +1 или -1. Если то распределение его оценок отличается от нормального или распределения Стьюдента, так как величина ограничена значениями (-1; +1). Чтобы обойти это затруднение Р. Фишером было предложено для оценки существенности ввести вспомогательную величину z , связанную с следующим отношением
изменяется , что соответствует нормальному распределению. Стандартная ошибка величины определяется , где n – число наблюдений.
При r = 0,991 ; .
Z можно взять в таблице для соответствующего значения r.
Выдвигаем гипотезу H0 – корреляция отсутствует: .
, то есть фактическое значение превышает его табличное значение на уровне значимости и .
В виду того, что r и z связаны между собой приведённым выше отношением, можно вычислить критические значения r, соответствующие каждому из значений z. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Критические значения предполагают справедливость нулевой гипотезы, то есть мало отличается от нуля. Если фактическое значение коэффициента по абсолютной величине превышает табличное, то данное значение считается существенным.
Если же , то фактическое значение r несущественно.
Интервалы прогноза по линейному уравнению регрессии.
В прогнозных расчётах по уравнению регрессии определяется то, что уравнение не является реальным, для есть ещё стандартная ошибка . Поэтому интервальная оценка прогнозного значения
Выразим из уравнения
, то есть стандартная ошибка зависит и ошибки коэффициента регрессии b,
.
Из теории выборки известно, что . Используя в качестве оценки остаточную дисперсию на одну степень свободы , получим формулу расчёта ошибки среднего значения переменной y: .
Ошибка коэффициента регрессии: .
В прогнозных расчетах по уравнению регрессии определяется уравнение как точечный прогноз при , то есть путём подстановки в уравнение регрессии . Однако точечный прогноз явно нереален.
- формула стандартной ошибки предсказываемого значения y при заданных , характеризует ошибку положения линии регрессии. Величина стандартной ошибки , достигает min при , и возрастает по мере того, как «удаляется» от в любом направлении. То есть чем больше разность между и x, тем больше ошибка , с которой предсказывается среднее значение y для заданного значения .
Можно ожидать наилучшие результаты прогноза, если признак - фактор x находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении от .
Если же значение оказывается за пределами наблюдаемых значений х, используемых при построении ЛР, то результаты прогноза ухудшаются в зависимости то того, насколько отклоняется от области наблюдаемых значений фактора х. Доверительные интервалы при
На графике доверительной границы представляет собой гиперболы, расположенные по обе стороны от линии регрессии.
Доверительный интервал |
Нижняя доверит. граница |
ЛР |
Верхняя доверительная граница |
xk |
x |
y |
Две гиперболы по обе стороны от линии регрессии определяют 95%-ные доверительные интервалы для среднего значения y при заданном значении x.
Однако фактические значения y варьируют около среднего значения . Индивидуальные значения y могут отклоняться от на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы . Поэтому ошибка предсказываемого индивидуального значения y должна включать не только стандартную ошибку , но и случайную ошибку.
Средняя ошибка прогнозируемого индивидуального значения y составит:
.
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения y, но и от точности прогноза значений фактора x.
Его величина может задаваться на основе анализа других моделей, исходя из конкретной ситуации, а также из анализа динамики данного фактора.
Рассмотренная формула средней ошибки индивидуального значения признака y( ) может быть использована также для оценки существенности различия предсказываемого значения исходя из регрессионной модели и выдвинутой гипотезы развития событий.