Регрессионные модели с переменой структурой
Фиктивные переменные
Ранее в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить модель фактор, имеющий два или более качественных уровня. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, уровень образования, климатические условия, принадлежность к определенному региону и т. д. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные. Такого вида переменные в эконометрике называются фиктивными (структурными) переменными.
Рассмотрим применение фиктивных переменных для построения функции спроса на некоторый товар.
Сделаем следующие предположения:
- на спрос влияют два фактора: цена на товар (количественный признак) и регион, в котором этот товар продается (качественный признак);
- зависимость спроса от цены - линейная убывающая функция.
Последнее предположение является вполне обоснованным, так как нелинейную кривую спроса почти всегда можно привести к линейному виду путем тех или иных преобразований и замены переменных.
Без потери общности дальнейших рассуждений с целью упрощения примем количество регионов равное трем.
Для каждого региона можно записать свое уравнение кривой спроса:
- для 1-го региона ,
- для 2-го региона ,
- для 3-го региона ,
где y - спрос на товар, x- цена единицы товара.
Рассмотрим сначала простейший случай, когда степень влияния изменения цены на товар одинаково для всех регионов. Это означает равенство коэффициентов регрессии: (рис. 3.3). Таким образом, отличие в уравнениях спроса на товар в регионах будет проявляться только в отличии параметров a1, a2 и a3. При этом линии регрессии, построенные по этим уравнениям будут параллельны друг другу.
Рис. 3.3. Зависимость спроса на товар от цены и региона.
(Вариант 1:b1=b2=b3=b).
Перепишем уравнения спроса для 2-го и 3-го регионов в следующем виде:
,
.
Объединяя уравнения кривых спроса для 3-х регионов в одно, получим:
,
где z1 и z2 - фиктивные переменные, принимающие следующие значения:
Полученное уравнение можно переписать в следующем виде
,
где , , .
На основании выше изложенного имеем:
- для 1-го региона z1=0, z2=0;
- для 2-го региона z1=1, z2=0;
- для 3-го региона z1=0, z2=1.
В данном случае 1-й регион является эталонным, а величины c1 и c2 характеризуют отличие спроса на товар во 2-ом и 3-ем регионах по сравнению с 1-ым. Таким образом, при одном и том же значении цены x на товар спрос во 2-м регионе будет в среднем отличаться от спроса в 1-м регионе на величину с1, а в 3-ем регионе - на величину c2.
Выше был рассмотрен случай когда степень влияния изменения цены товара на изменение спроса была одинаковой для всех регионов. При этом фиктивные переменные, введенные в уравнение регрессии для описания изменения спроса при переходе от одного региона к другому, отражали лишь изменение свободного члена, угол наклона же линий регрессии был постоянным для всех регионов. Данное упрощение, очевидно, справедливо лишь в некоторых частных случаях.
Рассмотрим более общий случай, состоящий в учете неодинакового влияния изменения цены на спрос в различных регионах. Наклон линий спроса в каждом регионе в этом случае будут иметь различное значение, т. е. (рис. 3.4.).
В качестве эталонного вновь примем 1-й регион. Тогда коэффициенты регрессии b2 и b3 могут быть выражены через коэффициент регресии b1 следующим образом:
,
,
где d1 и d2 - параметры, характеризующие различие в наклоне линий регрессии (неодинаковую степень влияния цены на спрос для различных регионов).
Рис. 3.4. Зависимость спроса на товар от цены и региона
(Вариант 2:b1¹b2¹b3).
В конечном итоге можно записать следующее уравнение регрессии, описывающее зависимость спроса на некоторый товар от цены на него и региона, в котором он продается:
или
.
Параметры уравнения с фиктивными переменными определяются обычным методом наименьших квадратов. В нашем случае произведение переменных и следует рассматривать как новые независимые переменные. Введем для них обозначения: , .
Тогда полученное ранее уравнение регрессии перепишется в виде:
.
Данное уравнение представляет собой линейное уравнение множественной регрессии с пятью независимыми переменными (x, x2, x3, z1, z2), для определения значений шести параметров которого можно использовать обычный метод наименьших квадратов.
На основе выше изложенного можно сделать следующие выводы относительно фиктивных переменных:
* фиктивные переменные принимают всего два значения 0 и 1;
* количество фиктивных переменных для качественного фактора, вводимого в уравнение регрессии, должно быть на единицу меньше числа градаций качественного признака (в рассмотренном случае: число регионов - три, фиктивных переменных - две).
В приведенном выше примере учитывалось влияние всего одного качественного фактора. На практике может понадобится рассмотреть воздействие на зависимую переменную нескольких качественных переменных. Это осуществляется путем введения в регрессионную модель нескольких групп фиктивных переменных.
Дополним рассмотренный выше пример следующим. Пусть в трех регионах продается не один товар, а несколько его марок (или модификаций), например две: А и Б. Как и прежде будем строить уравнение функции спроса, но на это раз учтем влияние наравне с ценой и регионом, действие еще одного фактора - марки товара.
Очевидно, что спрос на ту или иную марку товара в общем случае будет зависеть от цены и от региона продажи. Для определенности в качестве эталонной категории выберем товар марки А, продающийся в 1-ом регионе. Для эталонной категории значение всех фиктивных переменных, вводимых в равнение регрессии должно быть обязательно равно нулю.
Таким образом, спрос на товар марки Б очевидно будет отличаться от спроса на товар марки А в зависимости от того, в каком регионе и по какой цене продается товар.
В общем случае можно получить шесть уравнений функции спроса для каждого сочетания марки товара и региона, отличающихся друг от друга свободным членом и коэффициентом регрессии.
1) марка А, 1-й регион:
2) марка А, 2-й регион:
3) марка А, 3-й регион:
4) марка Б, 1-й регион:
5) марка Б, 2-й регион:
6) марка Б, 3-й регион:
Вводя новую фиктивную переменную для марки товара и объединяя полученные уравнения регрессии в одно получим следующую функцию спроса:
где s-фиктивная переменная, принимающая следующие значения
и характеризующая влияние на спрос марки товара,
g, d, h1, h2, g1, g2 - параметры характеризующие отличие спроса на марку товара Б от спроса на марку товара А.
Взаимное соответствие между значениями качественных факторов и значениями фиктивных переменных для рассматриваемого случая приведено в табл. 3.1.
Таблица 3.1