Проблемы спецификации регрессионной модели. Пошаговая регрессия

Под спецификацией понимается проблема выбора наиболее важных факторных переменных при построении модели регрессии. Свойства оценок коэффициентов регрессии в значительной мере зависят от правильности спецификации модели. Результаты неправильной спецификации переменных в уравнении могут быть в обобщенном виде выражены следующим образом.

1. Если опущена переменная, которая должна быть включена, то оценки коэффициентов регрессии, вообще говоря, хотя и не всегда, оказываются смещенными. Стандартные ошибки коэффициентов и со­ответствующие t-тесты в целом становятся некорректными.

2. Если включена переменная, которая не должна присутствовать в уравнении, то оценки коэффициентов регрессии будут несмещенными, однако, вообще говоря (хотя и не всегда), — неэффективными.
Стандартные ошибки будут в целом корректны, но из-за неэффективности регрессионных оценок они будут излишне большими.

ВЛИЯНИЕ ОТСУТСТВИЯ В УРАВНЕНИИ ПЕРЕМЕННОЙ, КОТОРАЯ ДОЛЖНА БЫТЬ ВКЛЮЧЕНА.

Проблема смещения

Предположим, что переменная у зависит от двух переменных х1, и х2 в соот­ветствии с соотношением:

Проблемы спецификации регрессионной модели. Пошаговая регрессия - student2.ru

однако вы не уверены в значимости х2. Считая, что модель должна выглядеть как

Проблемы спецификации регрессионной модели. Пошаговая регрессия - student2.ru

вы оцениваете регрессию

Проблемы спецификации регрессионной модели. Пошаговая регрессия - student2.ru

и вычисляете bl по формуле Cov (xt , y)/D (x1) вместо правильного выраже­ния. По определению, b1, является несмещенной оценкой величины β1 если M(b1) равняется β1. Практически, если первоначальная модель верна, то

Проблемы спецификации регрессионной модели. Пошаговая регрессия - student2.ru

Если опустить х2 в регрессионном соотношении, то переменная x1 будет играть двойную роль: отражать свое прямое влияние и заменять переменную х2 в описании ее влияния. Данное кажущееся опосредо­ванное влияние величины х1, на у будет зависеть от двух факторов: от видимой способности х1, имитировать поведение х2 и от влияния величины х2 на у.

Кажущаяся способность переменной x1, объяснять поведение х2 определя­ется коэффициентом наклона h в псевдорегрессии:

Проблемы спецификации регрессионной модели. Пошаговая регрессия - student2.ru

Величина h естественно, рассчитывается при помощи обычной формулы для парной регрессии, в данном случае Cov(x1,x2)/D (x1). Влияние величины х2, на у определяется коэффициентом β2,. Таким образом, эффект имитации посред­ством величины β2 может быть записан как β2Соу (х1, x2)/D (х1). Прямое влия­ние величины х1, на у описывается с помощью β1. Таким образом, при оценива­нии регрессионной зависимости у от переменной х1, (без включения в нее пере­менной х2) коэффициент при х1, определяется формулой:

b1+ b2,Cov (x1, x2)/D (х1) + Ошибка выборки.

При условии, что величина х, не является стохастической, ожидаемым зна­чением коэффициента будет сумма первых двух членов этой формулы. Присут­ствие второго слагаемого предполагает, что математическое ожидание коэффи­циента будет отличаться от истинной величины β1, другими словами, оценка будет смещенной.

Таким образом, β1 смещена на величи­ну, равную β2Cov (x1, x2)/D (x1). Направление смещения будет зависеть от знака величин β2 и Cov(x1,x2). Например, если β2 положительна, а также положи­тельна ковариация, то смещение будет положительным, а b1 будет в среднем давать завышенные оценки β1,. Самостоятельно вы можете рассмотреть и другие случаи.

Есть, однако, один исключительный случай, когда оценка β1 остается не­смещенной. Это случается, когда выборочная ковариация между х1, и х2 в точ­ности равняется нулю. Если Cov (х1, x2) = 0, то смещение исчезает. Действитель­но, коэффициент, полученный с использованием парной регрессии, будет точно таким же, как если бы вы оценили правильно специфицированную мно­жественную регрессию. Конечно, величина смещения здесь равнялась бы нулю и при β2 = 0, но в этом случае неправильной спецификации не возникает.

Наши рекомендации