Проверка выполнимости предпосылок МНК.

Статистика Дарбина-Уотсона.

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R² не гарантируют высокое качество уравнения регрессии. Для иллюстрации этого факта весьма нагляден пример, в котором анализируется зависимость реального объема потребления CONS (млрд. $, в ценах 1982 года) от численности населения POP (млн. чел.) в США в 1931—1990 годах. Корреляционное поле статистических данных изображено на рис1.

Проверка выполнимости предпосылок МНК. - student2.ru

Рис.1. Корреляционное поле статистических данных

Линейное уравнение регрессии, построенное по МНК по реальным статистическим данным, имеет вид: СONS =-1817,3 + 16,7РОР. Стандартные ошибки коэффициентов S_b₀= 84,7, S_b₁=0,46. Следовательно, их t-статистики t_b₀=-21,4 , t_b₁=36,8. Эти значения существенно превышают 3, что свидетельствует о статистической значимости коэффициентов. Коэффициент детерминации R² = 0,96 (т.е. уравнение «объясняет» 96% дисперсии объема потребления). Однако по расположению точек на корреляционном поле видно, что зависимость между POP и CONS не является линейной, а будет скорее экспоненциальной. Для качественного прогноза уровня потребления линейная функция, безусловно, не может быть использована. Таким образом, при весьма хороших значениях t-статистик и F-статистики предложенное уравнение регрессии не может быть признано удовлетворительным (отметим, что R =0,96, скорее всего, в силу того, что и CONS и POP имели временной тренд). Можно ли определить причину этого?

Нетрудно заметить, что в данном случае не выполняются необходимые предпосылки МНК об отклонениях e_i точек наблюдений от линии регрессии. Эти отклонения явно не обладают постоянной дисперсией и не являются взаимно независимыми. Нарушение необходимых предпосылок делает неточными полученные оценки коэффициентов регрессии, увеличивая их стандартные ошибки, и обычно свидетельствует о неверной спецификации самого уравнения.

Поэтому следующим этапом проверки качества уравнения регрессии является проверка выполнимости предпосылок МНК.

Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности, и анализ их значимости будет неточным.

Причинами, по которым отклонения не обладают перечисленными выше свойствами, могут быть либо нелинейный характер зависимости между рассматриваемыми переменными, либо наличие не учтенного в уравнении существенного фактора. Действительно, при нелинейной зависимости между переменными отклонения от прямой регрессии не случайно распределены вокруг нее, а обладают определенными закономерностями, которые зачастую выражаются в существенном преобладании числа пар соседних отклонений e_i-1 и e_i с совпадающими знаками над числом пар с противоположными знаками.

При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки, а именно: условия статистической независимости отклонений между собой. Поскольку значения e_i теоретического уравнения регрессии Y=β₀+β₁x+e остаются неизвестными ввиду неопределенности истинных значений коэффициентов регрессии, то проверяется статистическая независимость их оценок - отклонений e_i, i=1,2,...,n. При этом обычно проверяется их некоррелированность, являющаяся необходимым, но недостаточным условием независимости. Причем проверяется некоррелированность не любых, а только соседних величин e_i. Соседними обычно считаются соседние во времени (при рассмотрении временных рядов) или по возрастанию объясняющей переменной X (в случае перекрестной выборки) значения е_i

Для этих величин несложно рассчитать коэффициент корреляции, называемый в этом случае коэффициентом автокорреляции первого порядка: При этом учитывается, что M(e_i) = 0, i=1,2,...,n.

На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина— Уотсона DW, рассчитываемую по формуле:

Проверка выполнимости предпосылок МНК. - student2.ru

Если e_i = е_i-1, то r_ei._e-1=1 и DW = 0. Если е_i=-е_i-1; , то r_ei._e-1=-1 и DW = 4. Во всех других случаях 0 < DW < 4 .

К этому же результату можно подойти с другой стороны. Если каждое следующее отклонение e_i приблизительно равно предыдущему, e_i_-1, то каждое слагаемое (e₁-e_i_-1) в числителе дроби близко к нулю. Тогда, очевидно, числитель дроби будет существенно меньше знаменателя и, следовательно, статистика DW окажется близкой к нулю.

Например, для зависимости CONS и POP (рис. 1) DW = 0,045, что очень близко к нулю и подтверждает наличие положительной автокорреляции остатков первого порядка (линейной зависимости между остатками).

В другом крайнем случае, когда точки наблюдений поочередно отклоняются в разные стороны от линии регрессии, случай отрицательной автокорреляции остатков первого порядка. При случайном поведении отклонений можно предположить, что в одной половине случаев знаки последовательных отклонений совпадают, а в другой — противоположны. Так как абсолютная величина отклонений в среднем предполагается одинаковой, то можно считать, что в половине случаев e_i = е_i-1, а в другой е_i=-е_i-1. Тогда DW =2

Таким образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики Дарбина—Уотсона. Это означает, что построенная линейная регрессия, вероятно, отражает реальную зависимость.

Возникает вопрос, какие значения DW можно считать статистически близкими к двум?

Для ответа на этот вопрос разработаны специальные таблицы критических точек статистики Дарбина—Уотсона, позволяющие при данном числе наблюдений n, количестве объясняющих переменных m и заданном уровне значимости α определять границы приемлемости (критические точки) наблюдаемой статистики DW. Для заданных α,n,m в таблице указываются два числа: d_l— нижняя граница и d_u — верхняя граница. Для проверки гипотезы об отсутствии автокорреляции остатков используется числовой отрезок, изображенный на рис. 2.

Проверка выполнимости предпосылок МНК. - student2.ru

Рис.2. Числовой отрезок.

Выводы осуществляются по следующей схеме.

Если DW<d_l, то это свидетельствует о положительной автокорреляции остатков.
Если DW>4-d_l, то это свидетельствует об отрицательной автокорреляции остатков.
При d_u<DW< 4-d_u гипотеза об отсутствии автокорреляции остатков принимается.
Если d_l<DW<d_u, или 4-d_u<DW<4-d_l , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.

Не обращаясь к таблице критических точек Дарбина—Уотсона, можно пользоваться «грубым» правилом и считать, что автокорреляция остатков отсутствует, если 1,5<DW<2,5. Для более надежного вывода целесообразно обращаться к табличным значениям.

При наличии автокорреляции остатков полученное уравнение регрессии обычно считается неудовлетворительным.

Пример. Анализируется объем S сбережений домохозяйства за 10 лет. Предполагается, что его размер St в текущем году t зависит от величины y_t-\ располагаемого дохода Y в предыдущем году и от величины Zt реальной процентной ставки Z в рассматриваемом году. Статистические данные представлены в таблице:

Год
Y, тыс. у.е.
Z, %
S, тыс. у.е.

Необходимо:

а) по МНК оценить коэффициенты линейной регрессии S =β₀+β₁Y+β₂Z;

б) оценить статистическую значимость найденных эмпирических коэффициентов регрессии b₀, b₁, b₂;

в) построить 95% -е доверительные интервалы для найденных коэффициентов;

г) вычислить коэффициент детерминации R² и оценить его статистическую значимость при α = 0,05;

д) определить, какой процент разброса зависимой переменной объясняется данной регрессией (значимость R²по Фишеру);

е) вычислить статистику DW Дарбина—У отсона и оценить наличие автокорреляции;

ж) сделать выводы по качеству построенной модели;

з) спрогнозировать средний объем сбережений в 1991 году, если предполагаемый доход составит 270 тыс. у.е., а процентная ставка будет равна 5,5.

Расчет коэффициентов проводится по формулам: b₀= 5,9619423; b₁= 0,126189; b₂= 3,24841/

Найденное уравнение позволяет рассчитать модельные значения sj зависимой переменной S и вычислить отклонения ei реальных значений от модельных:

Год	S	S^*	e_i	e_i²	e_i-e_i-1	(e_i-e_i-1)²
		22,48852	-2,48852	6,19273	-	-.
		23,73041	1,269594	1,61187	3,75811	14,12339
		31,00991	-1,00991	1,01992	-2,27950	5,19612
		28,69796	1,30204	1,69523	2,31194	5,34507
		33,49369	1,50631	2,26896	0,20427	0,04173
		37,04753	0,95247	0,90719	-0,55384	0,30674
		39,53131	0,46869	0,21967	-0,48378	0,23404
		38,46125	-0,46125	0,21275	-0,92994	0,86479
		45,74076	-1,74076	3,03024	-1,27951	1,63714
		51,77838	-1,77838	3,16263	-0,03762	0,00141
		53,02027	1,97973	3,91933	3,78811	14,12332
Сумма			≈0	24,24058	-	41,87375
Среднее	36,81818	36,81818	-	-	-	-

Проанализируем статистическую значимость коэффициентов регрессии, предварительно рассчитав их стандартные ошибки. Стандартная ошибка регрессии S=1,7407. Следовательно, дисперсии и стандартные ошибки коэффициентов равны:

S_b₀= 1,8929; S_b₁= 0,0212; S_b₂= 1,0146.

Рассчитаем соответствующие t-статистики: t_b₀= 1,565; t_b₁= 5,858; t_b₂= 3,503.

На первый взгляд (используя «грубое» правило), только статистическая значимость свободного члена вызывает сомнения. Два других коэффициента имеют t-статистики, превышающие тройку, что является признаком их высокой статистической значимости. Однако убедимся в таком выводе на основе более детального анализа.

Для использования таблиц критических точек необходимо выбрать требуемый уровень значимости. Обычно это прерогатива исследователя.

Вопросы для повторения

1. Какая существует связь между линейным коэффициентом корреляции и коэффициентом регрессии?

2. Каким образом оценить точность полученной модели регрессии?

3. Какими критериями пользуются при оценке качества построенной регрессионной модели?

4. Как строятся доверительные интервалы для регрессионной модели?

5. Может ли регрессия нелинейная по параметрам быть приведена к линейному виду?

6. Как осуществляется прогноз показателей по регрессионной модели?

Резюме по теме

Самым распространенным методом оценки параметров уравнения множественной линейной регрессии является метод наименьших квадратов (МНК).

Эмпирические коэффициенты множественной линейной регрессии определяются по формуле В = (Х^Т X)^-1X^TY.

Для построения интервальной оценки коэффициента β_j - строится t-статистика

Проверка выполнимости предпосылок МНК. - student2.ru

имеющая распределение Стьюдента с числом степеней свободы ν= n-m-1.

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R² не гарантируют высокое качество уравнения регрессии.

Наши рекомендации

Оценка выполнимости альтернатив

ЭТАП 3. проверка выполнимости задач и требований целостности данных

Проверка выполнимости предпосылок МНК.

Многочлены степени n и степени не выше n. Проверка выполнимости для них групповых свойств

Проверка предпосылок проведения регрессионного анализа

Проверка выполнения предпосылок МНК.

Проверка выполнимости предпосылок МНК. Статистика Дарбина-Уотсона

Проверка выполнимости фланца, промежуточных и концевых уступов

Анализ коммерческой выполнимости проекта

Проверка выполнимости закона фарадея

← Предыдущая страница | Следующая страница →