Оценка статистической значимости регрессии

Перейдем к вопросу о том, как отличить "хорошие" оценки МНК от "плохих". Конечно, предполагается, что существуют критерии качества рассчитанной линии регрессии.

Перечислим способы, которые помогают решить вопрос о достоинствах рассчитанной линии регрессии:

§ построение доверительных интервалов и оценка статистической значимости коэффициентов регрессии по t-критерию Стьюдента;

§ дисперсионный анализ и F – критерий Фишера;

§ проверка существенности выборочного коэффициента корреляции (детерминации).

Перейдем к подробному изложению свойств оценок МНК и способов проверки их значимости.

Несложно показать, что оценки Оценка статистической значимости регрессии - student2.ru и Оценка статистической значимости регрессии - student2.ru полученные МНК по (2.8) с учетом ограничений (2.3)-(2.5) являются линейными несмещенными оценками и обладают наименьшими дисперсиями (являются эффективными) в классе линейных оценок (теорема Гаусса-Маркова).

Для вычисления интервальных оценок a, b предполагаем нормальное распределение случайной величины u. Для получения интервальных оценок a, b оценим дисперсию случайного члена Оценка статистической значимости регрессии - student2.ru по отклонениям ei. В качестве оценки дисперсии ошибки Оценка статистической значимости регрессии - student2.ru возьмем величину:

Оценка статистической значимости регрессии - student2.ru . (2.12)

Вычислим величину

Оценка статистической значимости регрессии - student2.ru ,

и Оценка статистической значимости регрессии - student2.ru - стандартную ошибку коэффициента регрессии a.

Статистика

Оценка статистической значимости регрессии - student2.ru ,

имеет t-распределение Стьюдента. Так как Оценка статистической значимости регрессии - student2.ru несмещенная оценка, то для заданного 100(1–e)% уровня значимости доверительный интервал для a суть:

Оценка статистической значимости регрессии - student2.ru , (2.13)

где te,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости e.

Вычислим величину

Оценка статистической значимости регрессии - student2.ru ,

и Оценка статистической значимости регрессии - student2.ru - стандартную ошибку[1] коэффициента регрессии b.

Статистика

Оценка статистической значимости регрессии - student2.ru ,

имеет t-распределение Стьюдента. Так как Оценка статистической значимости регрессии - student2.ru несмещенная оценка, то для заданного 100(1–e)% уровня значимости доверительный интервал для b суть:

Оценка статистической значимости регрессии - student2.ru , (2.14)

где te,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости e.

Проверим гипотезу о равенстве нулю коэффициента a, т.е.

H0: a=0.

С учетом статистики Оценка статистической значимости регрессии - student2.ru для a=0, имея в виду формулу для Оценка статистической значимости регрессии - student2.ru , получим:

Оценка статистической значимости регрессии - student2.ru . (2.15)

Если вычисленное по (2.15) значение t будет больше te для заданного критического уровня значимости e, то гипотеза H0 о равенстве нулю коэффициента a отклоняется, если же t<te, то H0 принимается.

Аналогично для проверки гипотезы о равенстве нулю коэффициента b, т.е.

H0: b=0

рассчитаем статистику:

Оценка статистической значимости регрессии - student2.ru . (2.16)

Если вычисленное по (2.16) значение t будет больше te для заданного критического уровня значимости e, то гипотеза H0 о равенстве нулю коэффициента b отклоняется, если же t<te, то H0 принимается.

Заметим, что формула (2.12) может быть упрощена и записана в виде:

Оценка статистической значимости регрессии - student2.ru . (2.17)

Пример. Приведем расчеты для нашего примера в табл. 2.1. По формуле (2.17) рассчитаем дисперсию ошибки:

Оценка статистической значимости регрессии - student2.ru =(1282345–(–2,91)×3861–0,9276×1394495)/10=4,6948 или Оценка статистической значимости регрессии - student2.ru =2,1667.

Найдем доверительный интервал для a по первой из формул (2.13):

a= Оценка статистической значимости регрессии - student2.ru .

По таблице t-распределения находим

t0,05;10=2,228 и a=-2,91±2,228×2668,219/747,0743.

Откуда a=-2,91±7,798 или -10,7£a£4,9.

С вероятностью 0,95 истинные значения a находятся в интервале 10,7£a£4,9.

Аналогично найдем доверительный интервал для b по первой из формул (2.14): b= Оценка статистической значимости регрессии - student2.ru =0,9276±0,022 и 0,91£b£0,95.

Кроме того по экономическому смыслу переменных примера следует ожидать, что 0£b£1. Поскольку доверительный интервал не включает 0 и 1, то результаты регрессии соответствуют гипотезе 0£b£1.

Проверим гипотезу о равенстве нулю коэффициента b, т.е. H0: b=0.

Рассчитаем t-статистику по формуле (2.16):

t=0,9276× Оценка статистической значимости регрессии - student2.ru /2,1667=92,328.

Табличное значение t0,01;10=3,169, так как t>t0,01;10, то гипотеза о том, что b=0 отклоняется. Можно говорить о том, что коэффициент b значимо отличен от нуля.Ñ

Разложим общую вариацию значений Y около их выборочного среднего Оценка статистической значимости регрессии - student2.ru на составляющие (см. рис. 2.1):

Оценка статистической значимости регрессии - student2.ru . (2.18)

Сумма квадратов отклонений от среднего в выборке равна сумме квадратов отклонений значений Оценка статистической значимости регрессии - student2.ru , полученных по уравнению регрессии, от выборочного среднего Оценка статистической значимости регрессии - student2.ru плюс сумма квадратов отклонений Y от линии регрессии Оценка статистической значимости регрессии - student2.ru .

Первую связывают с линейным воздействием изменений переменной X и называют "объясненной".

Вторая составляющая является остатком и называется "необъясненной" долей вариации переменной Y.

Отметим, что долю дисперсии, объясняемую регрессией, в общей дисперсии результативной переменной Y характеризует коэффициент детерминации, определяемый по формуле (2.10), которая может быть преобразована с учетом (2.18) к виду:

Оценка статистической значимости регрессии - student2.ru .

Предположим, что мы хотим проверить гипотезу об отсутствии линейной функциональной связи между X и Y, т.е. H0: b=0.

Иначе говоря, мы хотим оценить значимость уравнения регрессии (2.6) в целом. Для проверки гипотезы сведем необходимые вычисления в таблицу (табл. 2.3).

Соотношение

Оценка статистической значимости регрессии - student2.ru (2.19)

удовлетворяет F - распределению Фишера с (1, n-2) степенями свободы. Критические значения этой статистики Fe для уровня значимости e затабулированы.

Если F>Fe, то гипотеза об отсутствии связи между переменными Y и X отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.

Таблица 2.3

Таблица дисперсионного анализа

Источник вариации Сумма квадратов отклонений Число степеней свободы Среднее квадратов отклонений
X Оценка статистической значимости регрессии - student2.ru Оценка статистической значимости регрессии - student2.ru
Остаток Оценка статистической значимости регрессии - student2.ru n-2 Оценка статистической значимости регрессии - student2.ru
Общая вариация Оценка статистической значимости регрессии - student2.ru n-1 -

Пример. Для примера табл. 2.1, с учетом предыдущих вычислений, будем иметь таблицу анализа дисперсии - табл. 2.4.

Применяя формулу (2.19), получим Оценка статистической значимости регрессии - student2.ru . Табличное значение F0,01(1, 10)=10,04, так что имеющиеся данные позволяют отвергнуть гипотезу об отсутствии связи между личными доходами и индивидуальным потреблением. Ñ

Таблица 2.4

Таблица анализа дисперсии (пример в табл. 2.1)

Источник вариации Сумма квадратов отклонений Число степеней свободы Среднее квадратов отклонений
X 0,92762*46510 40019,1
Остаток 10*4,6948 4,7
Общая вариация 40066,0 -

Наши рекомендации