Регрессия с одной количественной и двумя качественными переменными
Техника фиктивных переменных может быть распространена на произвольное число качественных факторов. Для простоты рассмотрим ситуацию с двумя качественными переменными.
Пусть – заработная плата сотрудников фирмы, – стаж работы, – наличие высшего образования, – пол сотрудника:
Таким образом, получим следующую модель:
(6.7)
Из этой модели выводятся следующие регрессионные зависимости:
1. Средняя зарплата женщины без высшего образования:
(6.8)
2. Средняя зарплата женщины с высшим образованием:
(6.9)
3. Средняя зарплата мужчины без высшего образования:
(6.10)
4. Средняя зарплата мужчины с высшим образованием:
(6.11)
Очевидно, что все регрессии отличаются только свободными членами. Дальнейшее определение статистической значимости коэффициентов и позволяет убедиться, влияют ли образование и пол сотрудника на его заработную плату.
Пример.Рассмотрим зависимость между весом новорожденного (в граммах), – количеством сигарет, выкуриваемых в день будущей матерью во время беременности и фиктивной переменной , которая отражает факт того, является ребенок первенцем или нет. Пусть , если ребенок – первенец, и , если ребенок не первенец. Рассмотрим выборку из 20 значений (табл. 6.1).
Таблица 6.1
наблюдение | наблюдение | |||||||
Данная модель содержит одну количественную и одну качественную переменные. В общем виде запишем ее следующим образом: . Коэффициенты определяются из формулы (2.17). Вспомогательная таблица для расчета коэффициентов имеет следующий вид (табл. 6.2).
Таблица 6.2
№ | ||||||||||
188,5 | -4,6 | 188,5 | 21,16 | 0,16 | -867,1 | 75,4 | -1,84 | |||
128,5 | 4,4 | 128,5 | 19,36 | 0,16 | 565,4 | 51,4 | 1,76 | |||
-331,5 | 1,4 | -331,5 | 1,96 | 0,16 | -464,1 | -132,6 | 0,56 | |||
-11,5 | 11,4 | -11,5 | 129,96 | 0,16 | -131,1 | -4,6 | 4,56 | |||
| 208,5 | -10,6 | 208,5 | 112,36 | 0,16 | -2210,1 | 83,4 | -4,24 | ||
-21,5 | -0,6 | -21,5 | 0,36 | 0,16 | 12,9 | -8,6 | -0,24 | |||
28,5 | 6,4 | 28,5 | 40,96 | 0,16 | 182,4 | 11,4 | 2,56 | |||
318,5 | -4,6 | 318,5 | 21,16 | 0,16 | -1465,1 | 127,4 | -1,84 | |||
-181,5 | 7,4 | -181,5 | 54,76 | 0,16 | -1343,1 | -72,6 | 2,96 | |||
108,5 | -6,6 | 108,5 | 43,56 | 0,16 | -716,1 | 43,4 | -2,64 | |||
-121,5 | 14,4 | -121,5 | 207,36 | 0,16 | -1749,6 | -48,6 | 5,76 | |||
-41,5 | 0,4 | -41,5 | 0,16 | 0,16 | -16,6 | -16,6 | 0,16 | |||
-141,5 | -11,6 | -141,5 | 134,56 | 0,36 | 1641,4 | 84,9 | 6,96 | |||
-271,5 | -2,6 | -271,5 | 6,76 | 0,36 | 705,9 | 162,9 | 1,56 | |||
-61,5 | 2,4 | -61,5 | 5,76 | 0,36 | -147,6 | 36,9 | -1,44 | |||
-161,5 | -0,6 | -161,5 | 0,36 | 0,36 | 96,9 | 96,9 | 0,36 | |||
-101,5 | 3,4 | -101,5 | 11,56 | 0,36 | -345,1 | 60,9 | -2,04 | |||
368,5 | -3,6 | 368,5 | 12,96 | 0,36 | -1326,6 | -221,1 | 2,16 | |||
-31,5 | -0,6 | -31,5 | 0,36 | 0,36 | 18,9 | 18,9 | 0,36 | |||
128,5 | -5,6 | 128,5 | 31,36 | 0,36 | -719,6 | -77,1 | 3,36 | |||
856,8 | 4,8 | -8278 | 18,8 |
При этом: , , .
Таким образом, уравнение регрессии с учетом рассчитанных коэффициентов примет вид: .
Затем аналогично примеру, приведенному в главе 2, рассчитывается статистическая значимость коэффициентов. Рассчитанное значение -статистики для коэффициента при фиктивной переменной составляет .
Из приложения 1 определим для уровня значимости и числа степеней свободы критическое значение -статистики: . Так как , то коэффициент при фиктивной переменной является статистически незначимым с уровнем значимости 0,05.
Однако можно предположить, что это объясняется малым размером выборки (20 значений). Если рассмотреть большую выборку, то обнаружится статистическая значимость данного коэффициента.