Проблема гетероскедастичности
Одним из условий успешного применения метода наименьших квадратов является условие постоянства дисперсии случайных отклонений (остатков) e. Если это условие выполняется то, имеет место, так называемая гомоскедастичность (что буквально означает «одинаковый разброс») остатков. Гомоскедастичность подразумевает, что, несмотря на то, что при каждом конкретном наблюдении случайное отклонение может быть большим либо маленьким, положительным либо отрицательным, не должно быть явных причин, приводящих к изменению раброса остатков для различных наблюдений.
Невыполнимость условия постоянства дисперсии случайных отклонений получило название гетероскедастичности остатков. На практике гетероскедастичность встречается достаточно часто. Она приводит к увеличению стандартных ошибок для параметров регрессии. Следовательно, статистические выводы, получаемые при проверке значимости параметров уравнения регрессии могут быть ошибочными и привести к неверным заключениям относительно наличия или отсутствия влияния фактора на результат.
Решение проблемы гетероскедастичности осуществляется в два этапа:
* обнаружение гетероскедастичности;
* разработка мер по устранению гетероскедастичности.
Не существует одного универсального метода определения наличия гетероскедастичности, пригодного во всех случаях. Однако к настоящему времени разработано довольно большое число тестов и критериев. Рассмотрим наиболее популярные.
Самым простым способом обнаружения гетероскедастичности является графический метод. Реализация этого метода состоит в том, что по оси абсцисс откладываются значения объясняющей переменной x (в случае парной регрессии) или зависимой переменной (в случае множественной регрессии), а по оси ординат либо остатки e либо их квадраты e2. Если все полученные точки находятся внутри полосы постоянной ширины, параллельной оси абсцисс, то выполняется условие гомоскедастичности, иначе - присутствует гетероскедастичность.
а) гетероскедастичность отсутствует (гомоскедастичность)
б) гетероскедастичность
Рис. 3.1. Графическое обнаружение гетероскедастичности
Графический анализ наличия гетероскедастичности, не смотря на его простоту, является достаточно субъективным методом и часто используется совместно с одним из количественных методов в качестве дополняющего.
Самым популярным тестом обнаружения гетероскедастичности является тест, предложенный С. Голдфелдом и Р. Квандтом. В данном случае предполагается, что среднее квадратическое отклонение случайного отклонения пропорционально значению одного из факторов xi.
Реализация теста Гольфелда-Квандта состоит в следующем:
1. Все наблюдения упорядочиваются по величине xi.
2. Вся упорядоченная выборка после этого разбивается на три подвыборки с размерами k, (n-2k) и k соответственно.
3. Строятся уравнения регрессии для первой и третьей подвыборки.
4. Определяются значения остаточных дисперсий для первой и третьей подвыборок:
,
5. Рассчитывается значение F-критерия Фишера по формуле
.
6. Расчетное значение F-критерия Фишера сравнивается с табличным при заданном уровне значимости a и числах степеней свободы n1=n2=n-k-1. Если расчетное значение F-критерия Фишера превышает табличное, то наличие гетероскедастичности можно считать доказанным.
В случае множественной регрессии этот и рассматриваемые ниже тесты применяются последовательно ко всем факторам по отдельности.
При использовании теста ранговой корреляции Спирмена предполагается, что дисперсия отклонений будет либо увеличиваться, либо уменьшаться с увеличением значений фактора x. Реализация теста состоит из следующих этапов:
1. Значения остатков e и фактора x ранжируются упорядочиваются по значению. При этом максимальному значению присваивается ранг 1, следуещему по величине ранг - 2 и т.д.
2. Определяется коэффициент ранговой корреляции
,
где - квадрат разности рангов.
3. Проверяется значимость коэффициента корреляции рангов на основе t-критерия Стьюдента, для чего определяется расчетное значение по формуле
.
Расчетное значение t-критерия Стьюдента сравнивается с табличным при заданной доверительной вероятности p и числе степеней свободы k=n-2. Если расчетное значение t-критерия Стьюдента превышает табличное, то наличие гетероскедастичности можно считать доказанным.
Тест ранговой корреляции Спирмена и тест Гольфелда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсии ошибок регрессии от значений факторов и, следовательно, не предоставляют каких-либо способов устранения гетероскедастичности. Этих недостатков лишен тест Уайта. Идея этого теста заключается в построении функции зависимости квадрата остатков e2 от значений фактора x:
,
где u - случайные отклонения.
Чаще всего функция f выбирается квадратичной, что соответствует предположению о том, что значение e зависит от значений фактора приближенно линейно.
Если построенное уравнение регрессии оказывается незначимым по F-критерию Фишера, то гетероскедастичность отсутствует.
При нарушении гомоскедастичности для определения параметров уравнения регрессии нельзя использовать обычный метод наименьших квадратов, так как он дает неудовлетворительные результаты. В этом случае используется взвешенный метод наименьших квадратов. Основная идея этого метода заключается, в том что каждому значению результативной переменной yi и значению фактора xi присваивается вес, т. е. некоторый множитель wi. Далее применяется обычный метод наименьших квадратов, но не к исходным данным, а к взвешенным величинам: и .
Основная проблема при использования взвешенного метода наименьших квадратов состоит в выборе значений весов wi.
В случае использования данного метода для устранения влияния гетероскедастичности предполагают, что
.
Поскольку значения неизвестны, то в отношении их выдвигают различные гипотезы. В эконометрических исследованиях чаще всего считают, что пропорциональны xi
,
где - поcтоянное среднеквадратическое отклонение случайных остатков e в случае отсутствия гетероскедастичности.
При построении парной линейной регрессии в случае наличия гетероскедастичности остатков, уравнение
согласно взвешенному методу наименьших квадратов преобразуется к виду
Поскольку , то полученное уравнение регрессии можно переписать в следующем виде
или ,
где , .
На рис. 3.2 представлена графическая иллюстрация проведенных выше преобразований. Как видно после модификации исходного уравнения регрессии проблема гетероскедастичности устранена.
a) до преобразования переменных (гетероскедастичность)
б) после преобразования переменных (гомоскедастичность)
Рис. 3.2. Исключение гетероскедастичности
Таким образом, взвешенный метод наименьших квадратов состоит в применении обычного метода наименьших квадратов к построению преобразованного уравнения регрессии.
В случае построения модели множественной регрессии и предположении о пропорциональности одному из факторов xj исходное уравнение
с целью устранения гетероскедастичности трансформируется следующим образом:
,
,
где , , , .
Рассмотренный метод устранения гетероскедастичности является наиболее простым. В некоторых случаях ситуация может осложнится нелинейными зависимостями дисперсии случайных остатков от значений факторов.