Обнаружение и корректировка ошибок спецификации
При построении уравнений регрессии, особенно на начальных этапах, ошибки спецификации весьма нередки. Они допускаются обычно из-за поверхностных знаний об исследуемых экономических процессах либо из-за недостаточно глубокого проработанной теории, или из-за погрешности сбора и обработки статистических данных при построении эмпирического уравнения регрессии. Важно уметь обнаружить и исправить эти ошибки. Сложность процедуры определяется типом ошибки и нашими знаниями об исследуемом объекте.
a) Исследование остатков регрессионной модели
Анализ остатков ei позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределённые величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения.
Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-либо зависимости, не учтённой в модели. Считается, что модель подобрана «удачно», если остатки ведут себя как независимые одинаково распределенные случайные величины (т.е. как «белый шум»). На практике обычно полагают, что остатки должны быть распределены по нормальному закону (т.е. должны вести как «гауссов белый шум»). Для проверки нормальности распределения остатков чаще всего используется график на нормальной вероятностной бумаге, а также критерии типа Пирсона, Колмогорова, Бера-Жарка и др.
Существуют и ряд других тестов обнаружения ошибок спецификации. Рассмотрим некоторые из них.
b) Тест Рамсея RESET
Суть теста Рамсея RESET (Regression specification error test) состоит в следующем. Оценивается линейная модель вида
(6.54)
Отметим, что в принципе можно взять любую обобщенную линейную модель. Затем анализируются графически зависимость . Так, если она может быть представлена явной функциональной зависимостью , то в данную зависимость вводят в исходное уравнение регрессии (6.52) и затем оценивают уравнение
(6.55)
После этого сравнивают два уравнения регрессии (6.58) и (6.59), например, при помощи критерия Фишера (для линейных уравнений):
. (6.56)
Здесь n – число наблюдений, m1 – число параметров в исходной модели m2 – число параметров в новой модели. Статистика F имеет распределение Фишера с числами степеней свободы n1=n–m1, n2=n–m2. Если F–статистика окажется статистически значимой, то это означает, что исходное уравнение регрессии было неправильно специфицировано.
В случае простой линейной модели (6.58) можно использовать и такой критерий Фишера
. (6.57)
Здесь k – число параметров в новой модели, r – число новых регрессоров. В этом случае, статистика F имеет распределение Фишера с числами степеней свободы n1=r, n2=n–k.
В качестве альтернативы критерию (6.61), можно рассмотреть и другую статистику. Доказано, что при большом объёме выборки n произведение имеет c2-распредление с числом степеней свободы r, равным числу добавленных регрессоров модели. Построенная таким образом статистика сравнивается с соответствующей критической точкой . Если , то первоначально выбранная модель должна быть отклонена в пользу вновь построенной.
Пример 6.4. Проанализировать прибыль предприятия Y (млн $) в зависимости от расходов на рекламу X (млн $). По наблюдением за 9 лет получены следующие данные:
X | 0,8 | 1,0 | 1,8 | 2,5 | 4,0 | 5,7 | 7,5 | 8,3 | 8,8 |
Y |
Решение. Оценка простой линейной регрессии имеет вид
, (6.58)
для которого коэффициент детерминации равен . Модель (6.56) будет, скорее всего, неудовлетворительной. Это видно, в первую очередь из рисунка 6.4.
Рис. 6.4
В частности, изменение отклонений ei будет носить системный характер, который найдёт отражение на графике , вид которого приведен на рис. (6.5).
Рис. 6.5
Ломаная линия графика соответствует параболической функции. Поэтому в модель (6.56) целесообразно ввести дополнительный регрессор
. (6.59)
Оценка этой модели даёт
. (6.60)
Как видно из рисунка 6.4, модель (6.58) уже хорошо описывает исходные данные.
Рис. 6.6
В частности, изменение отклонений ei уже будет носить системный характер (см. рис. 6.7).
Рис. 6.7
Действительно, сравнивая коэффициенты детерминации для обеих уравнений регрессии при помощи критерия Фишера (6.60), получим
.
Критическое значение равно
.
Поскольку , то исходное уравнение было неверно специфицировано. â
К сожалению, тест Рамсея не указывает напрямую спецификацию модели лучшую, чем исследуемая. Поэтому подбор лучшей спецификации требует определённых усилий.
c) Тесты Бокса-Кокса
Выше мы описали различные зависимости, поддающихся линеаризации с помощью подходящих преобразований переменных. Но решение вопроса о том, к какому именно из рассмотренных типов зависимостей следует отнести наш конкретный случай, является задачей не простой. Можно, конечно, действовать методом «проб и ошибок»: последовательно построить по имеющимся у нас исходным статистическим данным каждую из альтернативного набора линеаризуемых моделей, а затем выбрать из них наилучшую в смысле какого-либо «критерия качества» (например, по максимальному значению подправленной на несмещённость оценки коэффициента детерминации).
При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенная выше процедура выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y, поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y, а в другом – объясненную регрессией долю дисперсии lnY. Если для одной модели коэффициент R2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.
Английские статистики Г. Бокс и Д. Кокс предложили более формализованную процедуру подбора линеаризующего преобразования. Их метод основан на предположении, что искомое преобразование принадлежит к определенному однопараметрическому семейству преобразований вида
, . (6.61)
Гипотезу Бокса-Кокса можно сформулировать следующим образом: существует такое действительное значение l*, что модель
(6.62)
будет удовлетворять всем требованиям нормальной классической регрессионной модели.
Замечание. Семейство степенных преобразований вида весьма широко и гибко. При l=1 модель (6.57) является линейной. При l=0 мы будем иметь степенную зависимость между Y и X, поскольку . При других значениях l уравнение (6.57) будет связывать между собой какие-то степени исходных переменных.
Таким образом, если исходить из справедливости гипотезы Бокса-Кокса, подбор линеаризующего преобразования анализируемых переменных сводится к оценке параметра l в формулах (6.61) по имеющимся в нашем распоряжении исходным статистическим данным. Обычно эта проблема решается с помощью метода максимально правдоподобия. Отыскивается такое значение l*, при котором функция правдоподобия принимает максимальное значение. С этой целью определяется априорный диапазон возможных значений l (обычно от lmin=–1 до lmax=2), на этом диапазоне выбирается сетка значений l и для каждого такого значения последовательно вычисляются функции правдоподобия. То значение l*, при котором функция правдоподобия принимает максимальное значение и будет определять искомое линеаризующее преобразование (6.61).
ЛЕКЦИЯ 6 117
Глава 6. ПАРНАЯ НЕЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ 117
§6.1. Особенности нелинейного регрессионного моделирования 117
6.1.1. Использование нелинейных моделей в экономике 117
6.1.2. Особенности использования МНК в нелинейных моделях 117
6.1.3. Методы линеаризации функции регрессии 118
§6.2. Описание основных нелинейных регрессионных моделей 120
6.2.1. Полиномиальная модель 120
6.2.2. Степенная модель 121
6.2.3. Показательная модель 121
6.2.4. Гиперболические модели 122
6.2.5. Полулогарифмическая модель 123
6.2.6. S-образные модели 123
§6.3. Показатели качества для нелинейных моделей регрессии 124
6.3.1. Средняя ошибка аппроксимации 124
6.3.2. Средний коэффициент эластичности 125
6.3.3. Коэффициент детерминации 126
§6.4. Примеры 128
Дополнение 1. Метод наименьших квадратов для обобщенных линейных моделей 137
1.1. Обобщённые линейные регрессионные модели. Матричная запись МНК 137
1.2. Статистические свойства МНК-оценок 139
1.3. Стандартная ошибка регрессии 140
1.4. Статистический анализ коэффициентов регрессии 140
Дополнение 2. Критерий Фишера 141
Дополнение 3. Спецификация модели 143
3.1. Проблемы спецификации модели 143
a) Признаки «хорошей» модели 143
b) Последствия выбора неправильной функциональной зависимости 144
c) Схема анализа зависимостей 144
3.2. Обнаружение и корректировка ошибок спецификации 145
a) Исследование остатков регрессионной модели 145
b) Тест Рамсея RESET 145
c) Тесты Бокса-Кокса 147