На гетерокедастичность остатков
Практические рекомендации по выполнению расчетов
с помощью табличного редактора MS Excel
Представлены данные о доходах по акциям x и балансовой прибыли y по 11 предприятиям одной отрасли, ден. ед.
x | |||||||||||
y |
Необходимо:
1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.
2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.
3. Дайте график зависимости остатков регрессии от фактора x.
4. При положительных тестах на гетерокедастичность оцените ее количественно с помощью теста Уайта.
5. Попытаться сгладить гетерокедастичность с помощью обобщенного метода наименьших квадратов.
Решение.
1) Суть проверки заключается в том, что в случае гетерокедастичности абсолютные остатки коррелированны со значениями фактора . Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена:
,
где d – абсолютная разность между рангами и . Статистическая значимость коэффициента оценивается по критерию Стьюдента. Расчетное значение t-критерия вычисляется по формуле:
.
Данная величина сравнивается с критической величиной при и числе степеней свободы . Если , то корреляция между и статистически значима, т.е. имеет место гетерокедастичность остатков. В противном случае принимается гипотеза об отсутствии гетерокедастичности остатков.
Прежде всего найдем уравнение линейной регрессии.
ВЫВОД ИТОГОВ | ||||
Регрессионная статистика | ||||
Множественный R | 0,970082893 | |||
R-квадрат | 0,941060819 | |||
Нормированный R-квадрат | 0,934512021 | |||
Стандартная ошибка | 6,777232983 | |||
Наблюдения | ||||
Дисперсионный анализ | ||||
df | SS | MS | F | |
Регрессия | 6600,258 | 6600,258 | 143,6998 | |
Остаток | 413,378 | 45,93089 | ||
Итого | 7013,636 | |||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | -0,525438344 | 3,681329 | -0,14273 | 0,889647 |
x | 3,230238574 | 0,269468 | 11,98748 | 7,77E-07 |
Уравнение регрессии .
Чтобы рассчитать параметр , составим вспомогательную таблицу. Рангом величин, выстроенных в упорядоченный ряд, называется их порядковый номер по возрастанию. Переменная x в условиях уже упорядочена. Ранги остатков предстоит найти либо вручную, либо с помощью функции Ранг.
x | y | Остатки | Ранг x | Ранг | d | d2 | |||
9,165277 | 2,834723 | 2,834723 | |||||||
12,39552 | 0,604484 | 0,604484 | |||||||
15,62576 | 4,374245 | 4,374245 | |||||||
22,08623 | -3,086233 | 3,086233 | |||||||
25,31647 | 5,683528 | 5,683528 | |||||||
31,77695 | -7,77695 | 7,77695 | |||||||
35,00719 | 5,992811 | 5,992811 | |||||||
38,23743 | -10,237428 | 10,237428 | |||||||
47,92815 | 4,071855 | 4,071855 | |||||||
64,07934 | -9,07934 | 9,07934 | |||||||
96,38173 | 6,61827 | 6,61827 | |||||||
Среднее | -3,18182E-06 | ||||||||
Сумма |
Тогда коэффициент ранговой корреляции Спирмена равен . Для оценки его статистической значимости найдем расчетное значение критерия Стъюдента . По функции СТЬЮДРАСПОБР (вероятность0,05, степеней свободы ) находим соответствующее критическое значение Стьюдента . Делаем вывод о наличии гетерокедастичности в остатках регрессии.
2) Применим тест Гольдфельда-Квандта для подтверждения гетерокедастичности остатков.
В расчетной таблице разделим исходные данные на две примерно равные группы (верхнюю и нижнюю).
x | y | Остатки | |
9,165277 | 2,834723 | ||
12,39552 | 0,604484 | ||
15,62576 | 4,374245 | ||
22,08623 | -3,086233 | ||
25,31647 | 5,683528 | ||
31,77695 | -7,77695 | ||
35,00719 | 5,992811 | ||
38,23743 | -10,237428 | ||
47,92815 | 4,071855 | ||
64,07934 | -9,07934 | ||
96,38173 | 6,61827 |
Построим линейную регрессию по каждой группе.
Для верхней группы
ВЫВОД ИТОГОВ | ||||
Регрессионная статистика | ||||
Множественный R | 0,890348 | |||
R-квадрат | 0,79272 | |||
Нормированный R-квадрат | 0,723627 | |||
Стандартная ошибка | 3,986411 | |||
Наблюдения | ||||
Дисперсионный анализ | ||||
df | SS | MS | F | |
Регрессия | 182,3256 | 182,3256 | 11,47317 | |
Остаток | 47,67442 | 15,89147 | ||
Итого | ||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | 1,418605 | 5,488159 | 0,258485 | 0,812752 |
Переменная X 1 | 3,255814 | 0,961209 | 3,387207 | 0,042863 |
Из всего объема данных нам необходима только остаточная дисперсия , которая в протоколе регрессии обозначена как остаток SS. .
Для нижней группы
ВЫВОД ИТОГОВ | |||||
Регрессионная статистика | |||||
Множественный R | 0,964861689 | ||||
R-квадрат | 0,930958079 | ||||
Нормированный R-квадрат | 0,913697599 | ||||
Стандартная ошибка | 8,389255527 | ||||
Наблюдения | |||||
Дисперсионный анализ | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 3795,982 | 3795,982 | 53,93582 | 0,00183 | |
Остаток | 281,5184 | 70,37961 | |||
Итого | 4077,5 | ||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | |
Y-пересечение | -8,661290323 | 8,753454 | -0,98947 | 0,378445 | -32,9648 |
Переменная X 1 | 3,622119816 | 0,493201 | 7,344101 | 0,00183 | 2,252774 |
.
Расчетное значение теста получается как отношение большей остаточной дисперсии к меньшей. . Критической значение теста получаем по функции FРАСПОБР, в которой число степеней свободы равно
, в данном случае оно равно 6,59. Поскольку расчетное значение больше критического, остатки признаются гетерокедастичными.
3) Применим тест Уайта, чтобы количественно оценить зависимость дисперсии остатков от значений фактора x.
В эконометрических исследованиях достаточно часто выдвигается гипотезы о том, что
· остатки пропорциональны значениям фактора x: ;
· дисперсия остатков прямопропорциональна самим значениям x, т.е. ;
· зависимость между дисперсией остатков и значениями фактора x квадратичная .
Параметры этих регрессии можно найти МНК. Составим расчетную таблицу.
x | y | Остатки | ||
9,165277 | 2,834723 | 8,035654487 | ||
12,39552 | 0,604484 | 0,365400906 | ||
15,62576 | 4,374245 | 19,13401932 | ||
22,08623 | -3,086233 | 9,52483413 | ||
25,31647 | 5,683528 | 32,30249053 | ||
31,77695 | -7,77695 | 60,4809513 | ||
35,00719 | 5,992811 | 35,91378368 | ||
38,23743 | -10,237428 | 104,8049321 | ||
47,92815 | 4,071855 | 16,58000314 | ||
64,07934 | -9,07934 | 82,43441484 | ||
96,38173 | 6,61827 | 43,80149779 |
Для регрессии пользуемся Сервис/Анализ данных/Регрессия/…Поставить флажок «Константа-нуль».
Получаем протокол
ВЫВОД ИТОГОВ | |||||
Регрессионная статистика | |||||
Множественный R | 0,304158793 | ||||
R-квадрат | 0,092512571 | ||||
Нормированный R-квадрат | -0,01859854 | ||||
Стандартная ошибка | 6,104515756 | ||||
Наблюдения | |||||
Дисперсионный анализ | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 34,19047 | 34,19047084 | 0,917493 | 0,366182 | |
Остаток | 335,386 | 37,26511262 | |||
Итого | 369,5765 | ||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||
Y-пересечение | #Н/Д | #Н/Д | #Н/Д | ||
Переменная X | -0,172201879 | 0,179778 | -0,957858421 | 0,363156 |
Результат неудовлетворительный, коэффициент детерминации всего 0,09.
Аналогично строим регрессию , взяв в качестве входного интервала Y столбец . Получаем протокол
ВЫВОД ИТОГОВ | |||||
Регрессионная статистика | |||||
Множественный R | 0,864535947 | ||||
R-квадрат | 0,747422404 | ||||
Нормированный R-квадрат | 0,636311293 | ||||
Стандартная ошибка | 26,25750385 | ||||
Наблюдения | |||||
Дисперсионный анализ | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 18362,0291 | 18362,0291 | 26,632614 | 0,000862939 | |
Остаток | 6205,108576 | 689,4565085 | |||
Итого | 24567,13768 | ||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||
Y-пересечение | #Н/Д | #Н/Д | #Н/Д | ||
Переменная X 1 | 3,990668767 | 0,773283573 | 5,160679613 | 0,0005945 |
В данном уравнении достаточная степень детерминации – 0,74, кроме того значимость по критерию Фишера не превосходит допустимые 5% ошибки в расчетах. Принимаем гипотезу о том, что дисперсия остатков прямопропорциональна самим значениям x.
Для проверки гипотезы о квадратичной зависимости решают методом определителей систему уравнений (см. ЛР Нелинейная регрессия):
Определяют индекс корреляции . О наличии или отсутствии гетерокедастичности судят по величине F-критерия Фишера для функции , . При выполнении условия имеет место гетерокедастичность остатков и количественно она выражена значением . По данному расчету предположение о квадратичной зависимости дисперсии остатков от значений x не проверяем (поскольку принята гипотеза ).
5) Улучшим модель, смягчив гетерокедастичность, пользуясь обобщенным методом наименьших квадратов. Если , тогда сами остатки пропорциональны .
Чтобы избавиться от этого, разделим уравнение линейной регрессии на . Получим преобразованное уравнение регрессии, в котором можно сделать замену переменной:
. Пусть , , . Тогда .
Построим вспомогательную таблицу
x | y | X | z | Y |
1,732051 | 0,577350269 | 6,92820323 | ||
0,5 | 6,5 | |||
2,236068 | 0,447213595 | 8,94427191 | ||
2,645751 | 0,377964473 | 7,181324987 | ||
2,828427 | 0,353553391 | 10,96015511 | ||
3,162278 | 0,316227766 | 7,589466384 | ||
3,316625 | 0,301511345 | 12,36196513 | ||
3,464102 | 0,288675135 | 8,082903769 | ||
3,872983 | 0,25819889 | 13,42634227 | ||
4,472136 | 0,223606798 | 12,29837388 | ||
5,477226 | 0,182574186 | 18,80514114 |
Протокол регрессионного анализа имеет вид:
ВЫВОД ИТОГОВ | ||||
Регрессионная статистика | ||||
Множественный R | 0,986894 | |||
R-квадрат | 0,9739597 | |||
Нормированный R-квадрат | 0,8599553 | |||
Стандартная ошибка | 1,9415488 | |||
Наблюдения | ||||
Дисперсионный анализ | ||||
df | SS | MS | F | |
Регрессия | 1268,921 | 634,4607182 | 168,3092927 | |
Остаток | 33,92651 | 3,769611932 | ||
Итого | 1302,848 | |||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | #Н/Д | #Н/Д | #Н/Д | |
X | 3,02343 | 0,296117 | 10,21024561 | 3,00843E-06 |
z | 1,8246585 | 2,72558 | 0,669456856 | 0,520006975 |
Получаем уравнение регрессии . Или .
Показатели статистической значимости уравнения регрессии улучшены. Увеличился коэффициент детерминации с 94% до 97%. Существенно уменьшилась остаточная дисперсия с 413 ед. до 33 ед.
Задание для самостоятельной работы
По своим данным лабораторной работы №1 выполнить анализ гетерокедастичности остатков. А именно:
1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.
2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.
3. Оцените количественно гетерокедастичность остатков, если она присутствует.
4. При наличии гетерокедастичности, применить обобщенный МНК для ее сглаживания.