Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками.
Итак, при исследовании остатков ei должно проверяться наличие следующих пяти предпосылок МНК:
1) случайный характер остатков;
2) нулевая средняя величина остатков, не зависящая от хi;
3) гомоскедастичность– дисперсия каждого отклонения ei одинакова для всех значений хi;
4) отсутствие автокорреляцииостатков – значения остатков ei распределены независимо друг от друга;
5) остатки подчиняются нормальному распределению.
Если распределение случайных остатков ei не соответствует некоторым предпосылкам МНК, то следует корректировать модель.
В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии.
Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью.
Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.
Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность.Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующихt- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.5.3).
Поступления налогов в бюджет (yi – млн.руб.) в зависимости
от численности работающих (хi – тыс.чел).Таблица 5.3
№ п/п | хi | yi | ŷх | ei |
4,4 | -1,0 | 5,4 | ||
8,1 | 2,5 | 5,6 | ||
12,9 | 4,9 | 8,0 | ||
20,8 | 16,6 | 4,2 | ||
15,5 | 19,0 | -3,5 | ||
28,8 | 22,5 | 6,3 | ||
37,5 | 41,4 | -3,9 | ||
48,7 | 53,2 | -4,5 | ||
68,6 | 66,1 | 2,5 | ||
104,6 | 82,6 | 22,0 | ||
90,5 | 88,5 | 2,0 | ||
88,3 | 107,4 | -19,1 | ||
132,4 | 120,4 | 12,0 | ||
122,0 | 127,4 | -5,4 | ||
99,1 | 131,0 | -31,9 | ||
114,2 | 142,7 | -28,5 | ||
150,6 | 151,0 | -0,4 | ||
156,1 | 171,0 | -14,9 | ||
209,5 | 180,5 | 29,0 | ||
342,9 | 327,8 | 15,1 | ||
итого | 1855,5 | 1855,5 | 0,0 |
По выборочным данным строим уравнение регрессии
ŷх = – 4,565 + 1,178х.
Теоретические значения ŷхи отклонения от них фактических значений ei приведены в четвертой и пятой колонке табл.5.3. Очевидно, что остаточные величины ei обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:
- упорядочить n наблюдений по мере возрастания переменной х (выполнено);
- исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 приниматьk=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;
- разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.5.4.);
- определить остаточные суммы квадратов для первой (S1) и второй (S2) групп и найти их отношение R=S2:S1. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.
Таблица 5.4.
№ п/п | хi | yi | ŷх | ei | ei2 |
4,4 | 5,7 | –1,3 | 1,69 | ||
8,1 | 8,5 | –0,4 | 0,16 | ||
12,9 | 10,3 | 2,6 | 6,76 | ||
20,8 | 19,6 | 1,2 | 1,44 | ||
15,5 | 21,4 | –5,9 | 34,81 | ||
28,8 | 24,2 | 4,6 | 21,16 | ||
37,5 | 38,9 | –1,4 | 1,96 | ||
48,7 | 48,1 | 0,6 | 0,36 | ||
Уравнение регрессии: ŷх = 2,978 + 0,921х. Сумма S1=68,34 | |||||
132,4 | 110,7 | 21,7 | 470,89 | ||
122,0 | 118,7 | 3,3 | 10,89 | ||
99,1 | 122,7 | –23,6 | 556,96 | ||
114,2 | 136,1 | –21,9 | 479,61 | ||
150,6 | 145,4 | 5,2 | 27,04 | ||
156,1 | 168,2 | –12,1 | 146,41 | ||
209,5 | 178,9 | 30,6 | 936,36 | ||
342,9 | 346,1 | –3,2 | 10,24 | ||
Уравнение регрессии: ŷх = 31,142 + 1,338х. Сумма S2 =2638,4 |
Величина R=2638,4 : 68,34=38.6 существенно превышает табличное значение F-критерия 4,28 при 5%-ном и 8,47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности.
Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.
Ошибки спецификации.Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.
Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.
Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.
Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.
Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие.
1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.
2. Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.
3. Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.
В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели.
Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции reiej между ei и ej, где ei – остатки текущих наблюдений, ej – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2.1).Рассмотрим расчет коэффициента корреляции между ei и ej, взяв в качестве примера данные из табл.5.3 и перенеся их в табл. 5.5 (n=19).
Таблица 5.5.
№ п/п | ei | ei-1 | eiei-1 |
5,6 | 5,4 | 30.24 | |
8,0 | 5,6 | 44.8 | |
4,2 | 8,0 | 33.6 | |
–3,5 | 4,2 | –14.7 | |
6,3 | –3,5 | –22.05 | |
–3,9 | 6,3 | –24.57 | |
–4,5 | –3,9 | 17.55 | |
2,5 | –4,5 | –11.25 | |
22,0 | 2,5 | ||
2,0 | 22,0 | ||
–19,1 | 2,0 | –38.2 | |
12,0 | –19,1 | –229.2 | |
–5,4 | 12,0 | –64.8 | |
–31,9 | –5,4 | 172.26 | |
–28,5 | –31,9 | 909.15 | |
–0,4 | –28,5 | 11.4 | |
–14,9 | –0,4 | 5.96 | |
29,0 | –14,9 | –432.1 | |
15,1 | 29,0 | ||
итого | –5.3998 | –15.1031 | 922.09 |
среднее | –0,2842 | –0,7949 | 48.5311 |
σei =15.1347, σej =14,7663 и в соответствие с (2.1)
reiej =(48,5311 – (–0,2842)(–0,7949))/15,1347/14,7663=0,2161,
что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков.
Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу. Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, причину следует искать в формулировке модели, которая может не включать существенный фактор, влияние которого отражается в остатках, вследствие чего они оказываются автокоррелированными. Очень часто этим фактором является фактор времени, поэтому проблема автокорреляции остатков весьма актуальна при исследовании динамических рядов, что мы рассмотрим в соответствующем разделе.