Тема 16. Фиктивные переменные в модели множественной регрессии
При составлении модели множественной регрессии возникает необходимость включения в модель фактора, имеющего два и более качественных уровня. Например, профессия, пол, и др. показатели. Чтобы ввести такие переменные в модель им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные необходимо преобразовать в количественные. Такого рода сконструированные переменные в эконометрике принято называть фиктивными переменными. Например, по группе лиц мужского и женского пола исследуется зависимость потребления кофе от цены . Уравнение регрессии: . Аналогично построены уравнения регрессии для мужчин: , и женщин . Различия потребления кофе проявится в различие средних характеристик и . Вместе с этим сила влияния факторов на результат в каждом из случаев может быть приблизительно одинаковой, т.е. . В этом случае возможно построение общего уравнения , где переменные , - фиктивные переменные, и могут быть определены следующим образом:
и
При этом фиктивные переменные и не могут одновременно принимать значения 1 или 0, т.е. если , то , и наоборот.
Из общего уравнения могут быть получены уравнения для мужского пола и для женского пола , т.е. различие между этими уравнениями вызвано различием и .
Применение МНК для оценивания параметров и модели при наличии фиктивных переменных и приводит к вырожденной матрице исходных данных, и к невозможности получения оценок параметров уравнения. Выходом из такой ситуации является переход к уравнению вида:
и .
Предположим что определено уравнение , теоретические значения потребления кофе для мужчин могут быть найдены из уравнения , а для женщин . Т.е. различия в уровне потребления вызваны различиями свободных членов уравнения.
В рассмотренном выше примере переменная может принимать только два состояния, которые были обозначены как 0 и 1. На практике количество градаций качественного фактора бывает более двух, поэтому в модель вводят несколько фиктивных переменных, число которых бывает меньше числа качественных градаций. Например, если какой-то фактор должен зависеть от трех качественных параметров, то используют две фиктивные переменные. При этом значение первой фиктивной переменной равно 1 при первом качественном параметре, значение второй переменной равно 1 при втором качественном параметре. Если значение обеих фиктивных переменных равно 0, то из этого следует наличие третьего качественного фактора.
Фиктивные переменные можно также использовать и в нелинейной модели. При этом они также проходят процедуру линеаризации, а затем вводится новая переменная. Необходимо отметить, что возможны построения регрессии только с помощью фиктивных переменных. В этом случае коэффициенты при фиктивных переменных в модели, не содержащей других переменных в модели, не содержащей других переменных, характеризует влияние - ого уровня фактора или, точнее, - ого уровня фактора . При этом регрессионная модель по своему содержанию будет тождественна дисперсионной модели
- наблюдение под номером признака на - ом уровне исследуемого фактора; - среднее значение совокупности; - эффект - ого уровня, т.е. ; - случайная ошибка, характеризующая величину отклонения фактического уровня от среднего значения, .
Так же в этом случае совпадают величины факторной и остаточной суммы квадратов.