Проблемы спецификации регрессионной модели. Пошаговая регрессия
Под спецификацией понимается проблема выбора наиболее важных факторных переменных при построении модели регрессии. Свойства оценок коэффициентов регрессии в значительной мере зависят от правильности спецификации модели. Результаты неправильной спецификации переменных в уравнении могут быть в обобщенном виде выражены следующим образом.
1. Если опущена переменная, которая должна быть включена, то оценки коэффициентов регрессии, вообще говоря, хотя и не всегда, оказываются смещенными. Стандартные ошибки коэффициентов и соответствующие t-тесты в целом становятся некорректными.
2. Если включена переменная, которая не должна присутствовать в уравнении, то оценки коэффициентов регрессии будут несмещенными, однако, вообще говоря (хотя и не всегда), — неэффективными.
Стандартные ошибки будут в целом корректны, но из-за неэффективности регрессионных оценок они будут излишне большими.
ВЛИЯНИЕ ОТСУТСТВИЯ В УРАВНЕНИИ ПЕРЕМЕННОЙ, КОТОРАЯ ДОЛЖНА БЫТЬ ВКЛЮЧЕНА.
Проблема смещения
Предположим, что переменная у зависит от двух переменных х1, и х2 в соответствии с соотношением:
однако вы не уверены в значимости х2. Считая, что модель должна выглядеть как
вы оцениваете регрессию
и вычисляете bl по формуле Cov (xt , y)/D (x1) вместо правильного выражения. По определению, b1, является несмещенной оценкой величины β1 если M(b1) равняется β1. Практически, если первоначальная модель верна, то
Если опустить х2 в регрессионном соотношении, то переменная x1 будет играть двойную роль: отражать свое прямое влияние и заменять переменную х2 в описании ее влияния. Данное кажущееся опосредованное влияние величины х1, на у будет зависеть от двух факторов: от видимой способности х1, имитировать поведение х2 и от влияния величины х2 на у.
Кажущаяся способность переменной x1, объяснять поведение х2 определяется коэффициентом наклона h в псевдорегрессии:
Величина h естественно, рассчитывается при помощи обычной формулы для парной регрессии, в данном случае Cov(x1,x2)/D (x1). Влияние величины х2, на у определяется коэффициентом β2,. Таким образом, эффект имитации посредством величины β2 может быть записан как β2Соу (х1, x2)/D (х1). Прямое влияние величины х1, на у описывается с помощью β1. Таким образом, при оценивании регрессионной зависимости у от переменной х1, (без включения в нее переменной х2) коэффициент при х1, определяется формулой:
b1+ b2,Cov (x1, x2)/D (х1) + Ошибка выборки.
При условии, что величина х, не является стохастической, ожидаемым значением коэффициента будет сумма первых двух членов этой формулы. Присутствие второго слагаемого предполагает, что математическое ожидание коэффициента будет отличаться от истинной величины β1, другими словами, оценка будет смещенной.
Таким образом, β1 смещена на величину, равную β2Cov (x1, x2)/D (x1). Направление смещения будет зависеть от знака величин β2 и Cov(x1,x2). Например, если β2 положительна, а также положительна ковариация, то смещение будет положительным, а b1 будет в среднем давать завышенные оценки β1,. Самостоятельно вы можете рассмотреть и другие случаи.
Есть, однако, один исключительный случай, когда оценка β1 остается несмещенной. Это случается, когда выборочная ковариация между х1, и х2 в точности равняется нулю. Если Cov (х1, x2) = 0, то смещение исчезает. Действительно, коэффициент, полученный с использованием парной регрессии, будет точно таким же, как если бы вы оценили правильно специфицированную множественную регрессию. Конечно, величина смещения здесь равнялась бы нулю и при β2 = 0, но в этом случае неправильной спецификации не возникает.