Инструментальные переменные
Что следует делать при наличии ошибок измерения? Если их причиной является неточность при подготовке данных, то единственное, что можно сделать, — это обрабатывать данные более тщательно. Если же их причина заключается в том, что измеряемая переменная принципиально отличается от истинной объясняющей переменной в зависимости, то можно попытаться получить более подходящие данные. Часто это бывает трудно осуществить на практике. Если требуется получить временной ряд по совокупному измеренному доходу, то его можно найти в национальных счетах, но не существует прямого способа получения данных по совокупному постоянному доходу.
Здесь мы объясним использование метода инструментальных переменных (ИП) — наиболее важной разновидности метода наименьших квадратов — для решения данной задачи. Это также имеет большое значение, когда мы оцениваем параметры моделей, состоящих из нескольких уравнений.
В сущности, метод инструментальных переменных заключается в частичной замене непригодной объясняющей переменной такой переменной, которая не коррелирована со случайным членом. Ограничимся случаем парной регрессии:
(18)
и допустим, что по какой-либо причине х имеет случайную составляющую, зависящую от u. Будем также предполагать, что в больших выборках Var (х) стремится к конечному пределу . В этих условиях непосредственное применение МНК для построения регрессионной зависимости у от х привело бы к несостоятельным оценкам параметров.
Теперь предположим, что можно найти другую переменную z, которая коррелирована с х, но не коррелирована с u. Покажем, что основанная на использовании инструментальных переменных оценка параметра β, определяемая как
(19)
является состоятельной при условии, что при увеличивающемся числе наблюдений Cov (z, x) стремится к конечному, отличному от нуля пределу, который мы обозначим как . Это означает, что в больших выборках стремится к истинному значению β. Перед этим полезно сравнить с оценкой МНК, которую обозначим как :
(20)
так как Cov (х, х) и Var (х) — одно и то же. Оценка ИП в парном регрессионном анализе получается путем подстановки инструментальной переменной z вместо х в числителе и вместо одного х (но не обоих) в знаменателе.
Используя уравнение (18), мы можем записать выражение для следующим образом:
(21)
так как Cov (z, α) равна нулю (α является постоянной) и Cov (z, βх) равна β Cov (z, x). Таким образом, можно заметить, что оценка по методу инструментальных переменных равна истинному значению плюс ошибка, равная Cov (z, u)/Cov (z, x). В больших выборках ошибка исчезает, так как
(22)
при условии, что переменная z действительно распределена независимо от u. Следовательно, на больших выборках будет стремиться к истинному значению β.
Почти ничего нельзя сказать о распределении оценки на малых выборках, но при увеличении n ее распределение будет стремиться к нормальному с математическим ожиданием β и дисперсией:
(23)
где — выборочный коэффициент корреляции между х и z.
Сравним полученное выражение с дисперсией оценки МНК:
(24)
Основное различие заключается в том, что дисперсия bИП умножается на l/ . Чем теснее корреляция между x и z, тем меньше будет этот коэффициент и, следовательно, тем меньше будет дисперсия bИП. Следовательно, если мы стоим перед выбором между несколькими возможными инструментальными переменными, то следует выбрать наиболее тесно коррелированную с х, потому что при прочих равных условиях она даст наиболее эффективные оценки. Вместе с тем было бы нежелательно использовать инструментальную переменную, полностью коррелированную с х, даже если бы ее удалось найти, потому что тогда она автоматически оказалась бы коррелированной также и с u, и мы по-прежнему получили бы несостоятельные оценки. Нам нужна инструментальная переменная, наиболее тесно коррелированная с х, но без корреляции с u. Что следует делать при невозможности найти инструментальную переменную, достаточно тесно коррелированную с х? Тогда можно вновь вернуться к методу наименьших квадратов. Если, например, критерием выбора оценки является ее стандартная ошибка, то вы можете предпочесть оценку МНК любой оценке, полученной по методу инструментальных переменных, несмотря на смещение, потому что здесь дисперсия меньше.