Ошибки измерения объясняющих переменных
Допустим, переменная у зависит от переменной z, что задано следующим соотношением: , (7)
где ν — случайный член с нулевым средним и дисперсией . Предположим, что z невозможно измерить абсолютно точно, и мы будем использовать x для обозначения его измеренного значения. В i-м наблюдении xi равно истинному значению zi, плюс ошибка измерения wi:
(8) Допустим, что w имеет нулевое среднее и дисперсию , что Var (z) в больших выборках стремится к конечному пределу и что z и v распределены независимо. Подставляя формулу (8) в уравнение (7), получим:
. (9) Это уравнение имеет две случайные составляющие — первоначальный случайный член v и ошибку измерения w (умноженную на ). Вместе они образуют составную случайную переменную, которую мы назовем u:
. (10) Соотношение (9) можно теперь записать как
. (11) Имея значения переменных у (временно будем предполагать, что они измерены точно) и х, мы, несомненно, можем оценить регрессионную зависимость у от х.
Коэффициент регрессии b, как обычно, представляется выражением (2). Анализируя ошибку, можно заметить, что она, вероятно, поведет себя не так, как требуется. Переменная х зависит от w (8), от этой величины зависит также и u (10). Когда ошибка измерения в наблюдении оказывается положительной, происходят две вещи: xi имеет положительную составляющую wi, а ui имеет отрицательную составляющую Аналогично, если ошибка измерения отрицательна, она вносит отрицательный вклад в величину хi и положительный вклад в величину ui. Следовательно, корреляция между x и u отрицательна. Величина pop. cov (x, u) не равна нулю, а из соотношения (2) следует, что b является несостоятельной оценкой β.
Даже если бы у нас была очень большая выборка, оценка оказалась бы не точной. Она бы занижала β на величину
(12)
Доказательство этого дается ниже. Сначала мы отметим его очевидные следствия. Чем больше теоретическая дисперсия ошибки измерения по отношению к теоретической дисперсии z, тем больше будет отрицательное смещение. Например, если бы было равно 0,25 , то отрицательное смещение составило бы:
что равняется 0,2β. Даже если бы выборка была очень большой, оценка оказалась бы на 20% ниже истинного значения при положительном β и на 20% выше его при отрицательном β.
Рисунок 1 показывает, как ошибка измерения приводит к появлению смещенных коэффициентов регрессии, если использовать модель, представленную выражениями (7) и (8). На рис. 1 А мы предполагаем, что ошибка измерения отсутствует и что отклонения от линии регрессии вызываются только случайным членом v. На рис. 1 Б предполагается, что переменная х подвержена воздействию существенной ошибки измерения, которая сдвигает наблюдения вправо при их положительном значении и влево — при отрицательном. По причине горизонтального рассеяния множество точек наблюдений здесь кажется более пологим, чем на рис. 1 А, и оцененная линия регрессии будет иметь тенденцию к занижению угла наклона истинной линии зависимости. Чем больше дисперсия ошибки измерения по отношению к дисперсии х, тем больше окажется эффект уменьшения угла наклона и тем сильнее будет смещение.