Включение фиктивного описания для эндогенной переменной
В экономических исследованиях возникают задачи дискретного выбора между двумя значениями результирующего показателя в зависимости от множества факторов, описываемых объясняющими переменными. Например, экзогенные переменные охватывают доход, возраст и расстояние от дома до работы индивидуума, а эндогенная переменная включает лишь два значения: единицу, если он пользуется общественным транспортом; нуль, если он добирается на работу на автомобиле. В таких задачах непосредственное применение регрессионного анализа некорректно из-за четырех основных причин:
1) случайная переменная ( ) не будет следовать нормальному вероятностному распределению;
2) случайная переменная гетероскедастична;
3) коэффициент детерминации не является корректной мерой адекватности таких моделей;
4) оценки , полученные, например, по МНК, могут принимать значения, отличные от нуля и единицы.
Консервативные исследователи пытаются обойти эти трудности, применяя следующие способы, формально устраняющие указанные выше причины:
1) увеличение объема выборки (числа наблюдений ) и неиспользование (при эконометрическом анализе) техники проверки гипотез;
2) преобразование исходной модели, пригодной для применения взвешенного МНК. Для выбора фактора пропорциональности ( ) предполагают биноминальное распределение эндогенной переменной :
, где или .
Тогда математическое ожидание (среднее значение) :
.
Дисперсия эндогенной переменной :
Чтобы избежать гетероскедастичности, делят обе части исходной модели на , где в качестве оценки подставляют оценку , полученную по МНК. Однако этот путь связан с получением больших значений переменных , т.к. принимают малые значения из-за того, что близко к нулю или 1.
3) вместо используют , равный доле наблюдений в выборке, по которым оценивание эндогенной переменной осуществляется корректно, т.е. . Причем, относят к 1, если ; относят к нулю, если .
.
4) присвоением всем оценкам , превосходящим единицу, значения ( ); всем оценкам , принявшим отрицательные значения нулевой величины ( ).
В современных эконометрических исследованиях строят специальные модели, в которых эндогенной переменной является вероятность события как функция специального вида:
, где – множество объясняющих (экзогенных) переменных.
На практике наиболее распространены две формы функции :
1. Логит-модель, в которой в качестве рассматривается логистическая функция распределения:
, (6.3)
где .
Нетрудно преобразовать логит-модель к линейному виду:
, . (6.4)
Асимптотическое поведение модели (6.4) можно изобразить на рис. 13 (случай ):
Рис. 13
На рисунке изображение зависимой переменной не выходит за допустимые границы .
2. Пробит-модель, в которой специальной функцией является стандартная нормальная вероятностная функция распределения :
, (6.5)
где .
В линеаризованной форме модель (6.5) имеет вид:
, . (6.6)
Преимуществом пробит-модели является использование нормального распределения, на котором основаны эффективные характеристики оценивания параметров, к недостаткам можно отнести лишнюю трудоемкость расчетов по пробит-модели.
3. Множественная логит-модель, которая используется, когда эндогенная переменная может принимать более двух значений. Например, служащий выбирает конкретный вид общественного транспорта: автобус, троллейбус, трамвай, метро.
Можно свести оценивание этой модели к последовательному использованию дихотомических взаимосвязей, однако, если необходимо одновременное исследование альтернативного выбора, то применяют специальную множественную логит-модель. Одна альтернатива выбирается в качестве базисной, а все остальные заменяются
отношениями к базисной. Тогда модель имеет форму совместной системы уравнений:
где – вероятность эндогенной переменной принять значения на объекте с номером t;
– вероятность эндогенной переменной принять значение базисной альтернативы: .