Сначала прочитайте 5 главу учебника!!!

Тема 8

ЭКОНОМЕТРИКА КАЧЕСТВЕННЫХ ДАННЫХ

ФИКТИВНЫЕ ПЕРЕМЕННЫЕ

КАЧЕСТВЕННАЯ ПЕРЕМЕННАЯ = {категория1, категория2}

Пример – пол = {мальчик, девочка}

Это независимая (объясняющая) переменная

Экзамен = {сдал, не сдал}

Зависимая переменная

Для выражения качественных переменных используют:

Для объясняющих переменных – фиктивные переменные (dummy)

Пример MALE = {1 , 0} 1 = мальчик, 0 – девочка

Для зависимых переменных – бинарные переменные

Результат экзамена как функция числа часов подготовки

RESULT = 1, 0 = F(X – число часов, MALE )

Если число категорий более двух, то используется несколько фиктивных переменных

ПРАВИЛО: число фиктивных переменных = число категорий минус 1

Одна из категорий (для которых все фиктивные переменные равны нулю) называется эталонной (reference)

Включение фиктивных переменных в уравнение регрессии позволяет

учесть качественные факторы, выявить качественные различия,

найти структурные сдвиги.

С точки зрения формальной это обычные переменные,

компьютер оценивает их коэффициенты, они интерпретируются,

для них можно делать все обычные тесты.

Где смотреть: crow

Лекция 6, слайд 29 -30 и 27-28

Самое главное из теории

Регрессия без фиктивных переменных

X – независимая (обычная) переменная

Y – зависимая переменная (обычная – количественная)

Например, X – производственный стаж

Y - зарплата

Рассматривается регрессия

Y=С(1)+С(2)*X

Интерпретация: C(2) – предельный эффект X (стажа)

С(1) – значение Y при X=0

(если это возможно, в случае стажа это возможно)

С(1) – зарплата работника (любого пола) без стажа

Вводим фиктивную переменную D

Например D=0 для женщин, D=1 для мужчин

Тогда новая регрессия с этой переменной

Y=С(1)+С(2)*X+C(3)*D

C(3) показывает на сколько в среднем больше

значение Y для мужчин по сравнению с женщинами,

в предположении, что предельный эффект X одинаков

для мужчин и женщин

Иначе говоря – это добавка к константе для мужчин

То есть для женщин получается

В уравнении

Y=С(1)+С(2)*X+C(3)*D

положим D=0

Тогда для них (для женщин)

Y=С(1)+С(2)*X – старое уравнение, но с новым смыслом

C(2) – по прежнему общий (одинаковый)

предельный эффект X

а смысл константы изменился

C(1) в обоих последних уравнениях

теперь показывает зарплату ЖЕНЩИН БЕЗ СТАЖА X=0

Из того же уравнения

Y=С(1)+С(2)*X+C(3)*D

Можно найти зарплату МУЖЧИН БЕЗ СТАЖА

Для этого просто положим D=1.

Y=(С(1) +C(3))+С(2)*X

С(1) +C(3) - зарплата МУЖЧИН БЕЗ СТАЖА

Итак фиктивная переменная при таком подходе (если она одна)

влияет просто на СДВИГ

регрессии

Поэтому D – называется еще фиктивной переменной сдвига

Можно обычным образом (с помощью t-тестов, а потом и F-тестов)

проверять значимость коэффициентов при фиктивных переменных

Обратим внимание еще раз, что все это было справедливо

в условиях неявной (или явной) предпосылки, что

предельные эффекты стажа X равны для мужчин и женщин

Но это предположение может быть неверным

Тогда следует ввести фиктивную переменную наклона

(в случае нескольких количественных независимых переменных

вводится несколько фиктивных переменных наклона)

Фиктивная переменная наклона равна произведению

фиктивной переменной сдвига на количественную

независимую переменную

D1=D*X

Наличие такой переменной в уравнении

позволят дополнительно учесть различия

в коэффициенте наклона для разных категорий

Y=С(1) +С(2)*X+C(3)*D+C(4)*D1

или

Y=С(1)+С(2)*X+C(3)*D+C(4)*D*X

Для женщин получаем (D=0)

Y=С(1)+С(2)*X

Теперь изменилась интерпретация обоих коэффициентов

Теперь и C(1) и C(2) относятся только к женщинам

С(1) – зарплата женщин без стажа

С(2) – предельный эффект стажа для женщин

Для мужчин

Y=С(1)+С(2)*X+C(3)*D+C(4)*D*X

D=1

Значит

Y=С(1)+С(2)*X+C(3)+C(4)*X

или

Y=С(1)+C(3)+(C(2)+C(4))*X

С(1)+C(3) – зарплата мужчин без стажа

C(2) +C(4) – предельный эффект стажа для мужчин

ТЕПЕРЬ ПРАКТИКА!!!

Упражнение 1.

(Структурные сдвиги в моделях временных рядов)

Используйте файл EXPEND.WF1.

Целью исследования является изучение зависимости

расходов на продукты питания (переменная FOOD)

в миллиардах долларов от индекса относительных цен

(PRELFOOD, 100% for 1972), определяемым как

отношения индекса цен на продукты питания (PFOOD)

к индексу цен совокупных потребительских расходов (PTPE)

в процентах.

1, 2 Регрессия и ее график

LS FOOD C PRELFOOD

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	-125.9042	42.08473	-2.991683	0.0065
PRELFOOD	2.461662	0.407230	6.044892	0.0000
R-squared	0.613710	Mean dependent var	128.0840

Приемлемый эр-квадрат, значимый,

но странно положительный коэффициент

График

DATA PRELFOOD FOOD

SCATTER

Сначала прочитайте 5 главу учебника!!! - student2.ru

Дело не в плохой спецификации, а в том, что данные неоднородны

obs	PRELFOOD	FOOD
	97.73371	99.70000
	97.07928	100.9000
	97.24518	102.5000
	96.87924	103.5000
	96.79144	104.6000
	97.10145	108.8000
	97.79793	113.7000
	100.0000	116.6000
	98.28010	118.6000
	98.22695	123.4000
	98.98190	125.9000
	100.0000	129.4000
	98.34197	130.0000
	100.0000	132.4000
	108.1362	129.4000
	112.4678	128.1000
	111.9010	132.3000
	108.8838	139.7000
	107.3941	145.2000
	110.5969	146.1000
	112.2462	149.3000
	109.8324	153.2000
	109.6658	153.0000
	107.8155	154.6000
	106.0393	161.2000

Проблема в том, что до 73 года (кризис)

еда была относительно дешевой, потом

резко подорожала и начала немного дешеветь

только к концу периода

Наша регрессия ничего этого не видит, и показывает

средний рост потребления, механически соединяя центры

двух несвязанных множеств данных

Сначала прочитайте 5 главу учебника!!! - student2.ru

Мир до кризиса и после кризиса – два разных мира!

А был ли мальчик? Был ли кризис

Введем фиктивную переменную CRISIS = 0 для 1959-1972 г, и 1 – для 1973-1983

Как это сделать

1) лапками:

DATA CRISIS

2) Генерацией

GENR CRISIS=0

SMPL 1973 1983

GENR CRISIS=1

SMPL 1959 1983

LS FOOD C CRISIS PRELFOOD

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	65.30997	145.1591	0.449920	0.6572
CRISIS	23.98269	17.45406	1.374046	0.1833
PRELFOOD	0.506134	1.478222	0.342394	0.7353
R-squared	0.644240	Mean dependent var	128.0840

Переменная CRISIS незначима!!!

Проблема в том, что мы сейчас

пытаемся измерить только сдвиг

в уровне цены, считая наклон в кризисный

и докризисный период одинаковыми

(если чего-то не заметить, что неявно существует,

то оно не исчезнет)

PRELFOOD

0.506134

Сначала прочитайте 5 главу учебника!!! - student2.ru

На графике видно, что до кризиса он был

резко положительным,

и стал отрицательным после кризиса

DATA PRELFOOD FOOD

SMPL 1959 1972

SMPL 1973 1983

Сначала прочитайте 5 главу учебника!!! - student2.ru

Надо дополнительно учесть различие в наклоне

и рассматривать полную группу переменных,

связанных с кризисом

SMPL 1959 1983

Вводим фиктивную переменную наклона

GENR CRPR=CRISIS*PRELFOOD

DATA CRISIS CRPR PRELFOOD

obs	CRISIS	CRPR	PRELFOOD
	0.000000	0.000000	97.73371
	0.000000	0.000000	97.07928
	0.000000	0.000000	97.24518
	0.000000	0.000000	96.87924
	0.000000	0.000000	96.79144
	0.000000	0.000000	97.10145
	0.000000	0.000000	97.79793
	0.000000	0.000000	100.0000
	0.000000	0.000000	98.28010
	0.000000	0.000000	98.22695
	0.000000	0.000000	98.98190
	0.000000	0.000000	100.0000
	0.000000	0.000000	98.34197
	0.000000	0.000000	100.0000
	1.000000	108.1362	108.1362
	1.000000	112.4678	112.4678
	1.000000	111.9010	111.9010
	1.000000	108.8838	108.8838
	1.000000	107.3941	107.3941
	1.000000	110.5969	110.5969
	1.000000	112.2462	112.2462
	1.000000	109.8324	109.8324
	1.000000	109.6658	109.6658
	1.000000	107.8155	107.8155
	1.000000	106.0393	106.0393

Сначала прочитайте 5 главу учебника!!! - student2.ru

LS FOOD C CRISIS PRELFOOD CRPR

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	-674.0985	203.1818	-3.317711	0.0033
CRISIS	1090.898	248.3744	4.392151	0.0003
PRELFOOD	8.037619	2.069438	3.883963	0.0009
CRPR	-10.52122	2.445936	-4.301512	0.0003
R-squared	0.810876	Mean dependent var	128.0840

Все фиктивные переменные теперь значимые

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

FOOD = -674.1 + 1090.9*CRISIS + 8.0*PRELFOOD - 10.5*CRPR

Уравнение до кризиса (кладем все кризисные

переменные равными нулю)

FOOD = -674.1 + 8.0*PRELFOOD

Это уравнение показывает связь переменных цен и расходов

до кризиса

Рост потребления как и было на графике

Уравнение после кризиса (добавляем все кризисные переменные)

FOOD = -674.1 + 1090.9*CRISIS + 8.0*PRELFOOD - 10.5*CRPR

И кладем их равными единице

FOOD = -674.1 + 1090.9 + 8.0*PRELFOOD - 10.5* PRELFOOD

Новая константа

=-674.1 + 1090.9

=416.8

Новый коэффициент

=8.0 - 10.5

-2.5

Итак уравнение после кризиса

FOOD = 416.8 -2.5* PRELFOOD

Это можно проверить

Построим обычные регрессии по подвыборкам

(ПРИ ЭТОМ НИКАКИХ ФИКТИВНЫХ ПЕРЕМЕННЫХ

НЕ ИСПОЛЬЗУЕМ)

SMPL 1959 1972

LS FOOD C PRELFOOD

FOOD = -674.0985057 + 8.03761905*PRELFOOD

FOOD = -674.1 + 8.0*PRELFOOD

После кризиса

SMPL 1973 1983

LS FOOD C PRELFOOD

FOOD = 416.7993509 - 2.483605731*PRELFOOD

FOOD = 416.8 -2.5* PRELFOOD

МОРАЛЬ: АНАЛИЗ С ПОМОЩЬЮ ФИКТИВНЫХ

ПЕРЕМЕННЫХ ПОЗВОЛЯЕТ ДЕЛАТЬ ТО ЖЕ САМОЕ,

ЧТО И АНАЛИЗ ОТДЕЛЬНЫХ РЕГРЕССИЙ

ПО РАЗНЫМ ЧАСТЯМ ВЫБОРКИ

(с фиктивными переменными лучше – дает дополнительную информацию о значимости фиктивных переменных)

ИНТЕРПРЕТАЦИЯ КОЭФФИЦИЕНТОВ

ПРИ ВСЕХ ПЕРЕМЕННЫХ

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Константа в докризисной зависимости

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Коэффициент наклона в докризисной зависимости

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Добавка к константе, превращающая ее в константу в послекризисной зависимости

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Добавка (здесь отрицательная) к коэф.наклона, превращающая его в коэффициент наклона в послекризисной зависимости

ЗНАЧИМОСТЬ (был ли кризис на самом деле?)

Значимость структурного сдвига – совместная значимость группы фиктивных переменных

Можно измерить с помощью различных F-тестов

ТРИ МЕТОДА

1. Тест на совместную значимость группы переменных

Измеряется по RSS или по эр-квадрат

(по RSS точнее!!!!)

Сравниваем RSS для уравнения без фиктивных переменных и уравнения с фиктивными переменными

Короткое уравнение по полной выборке

SMPL 1959 1983

LS FOOD C PRELFOOD

R-squared	0.613710
Adjusted R-squared	0.596915
S.E. of regression	11.93403
Sum squared resid	3275.685

Длинное уравнение тоже по полной выборке

LS FOOD C CRISIS PRELFOOD CRPR

R-squared	0.810876
Adjusted R-squared	0.783859
S.E. of regression	8.738913
Sum squared resid	1603.741

(RSS(short)-RSS(long)/2

F=--------------------------------------------

RSS(long)/ df(long)

F=(3275-1603)/2/1603*(25-4)

C(12)=(3275-1603)/2/1603*(25-4)

10.9519650655

Явно значимая f-статистика

F(crit, 1%, df1=2, df2=25-4=21)=5.78

То же самое по R2

(R2(long)-R2(short)/2

F=--------------------------------------------

(1 - R2(long))/ df(long)

(посчитайте сами)

ВТОРОЙ СПОСОБ – тест Вальда

Считаем длинную регрессию по всей выборке

LS FOOD C CRISIS PRELFOOD CRPR

И приравниваем к нулю коэффициенты кризисных переменных

C(2)=0, C(4)=0

Wald Test:
Equation: Untitled
Null Hypothesis:	C(2)=0
	C(4)=0
F-statistic	10.94654	Probability	0.000554

Понятно, что F-статистика та же самая

Третий способ

ТЕСТ ЧОУ

НИКАКИХ ФИКТИВНЫХ ПЕРЕМЕННЫХ

ЭТО ПРЯМОЕ СРАВНЕНИЕ УРАВНЕНИЙ ПО

ОБЩЕЙ ВЫБОРКЕ И ПО ДВУМ ИЛИ БОЛЕЕ ПОДВЫБОРКАМ

СРАВНЕНИЕ RSS или R2 полной регрессии и двух регрессий по подвыборкам

Сначала прочитайте 5 главу учебника!!! - student2.ru

SMPL 1959 1983

LS FOOD C PRELFOOD

Sum squared resid

3275.685

Теперь по подвыборкам

SMPL 1959 1972

LS FOOD C PRELFOOD

Sum squared resid

657.6665

SMPL 1973 1983

LS FOOD C PRELFOOD

Sum squared resid

946.0742

Тест Чоу

(RSS(полный период)-RSS(до)-RSS(после))/2

F=-----------------------------------------------------------------------

(RSS(до)+RSS(после))/(25-2-2)

C(14)=( 3275-657-946)/2/(657+946)*(25-4)

10.9519650655

То же число, что и в прежнем тесте

Мораль: тест Чоу равносилен F-тесту на совместную

значимость полной группы фиктивных переменных.

Удобство теста Чоу в том, что он может быть сделан

Автоматически

Кроме того, он позволяет делить выборку на много частей (докриз, криз. Посткриз)

Полная выборка

SMPL 1959 1983

LS FOOD C PRELFOOD

View/Stability tests/Chow breakpoint test

Нужно указать точку начала кризиса

Chow Breakpoint Test: 1973
F-statistic	10.94654	Probability	0.000554

Можно проверить другие года

Может кризис начался позже, например в 1975 году?

Chow Breakpoint Test: 1975
F-statistic	7.613321

F стало меньше – это неверно.

Точка кризиса – та, при которой F максимально

УПРАЖНЕНИЕ 2

Гендерная дискриминация

Файл EAEF40

LS EARN C HGC

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	-9.158012	2.182028	-4.197019	0.0000
HGC	1.674807	0.157613	10.62610	0.0000
R-squared	0.165827	Mean dependent var	13.68988

1.674807 - эффект образования

Каждый дополнительный год образования дает 1.67 доп.часового заработка

Переменная MALE уже есть

Включим ее в уравнение

LS EARN C MALE HGC

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	-11.34626	2.166063	-5.238196	0.0000
MALE	3.998431	0.732135	5.461330	0.0000
HGC	1.668095	0.153764	10.84840	0.0000
R-squared	0.207514	Mean dependent var	13.68988

Переменная MALE значима

В предположении, что каждый доп.год образования дает одинаковый прирост заработка дл мужчин и женщин один только факт, что данный человек мужчина дает ему 3.998431= 4 доллара в час заработка больше, чем женщине с тем же уровнем образования

Формально -11.34626 – заработок необразованной женщины (не имеет смысла – в выборке нет необразованных женщин)

Попробуем снять предположение, что прирост дохода на лишний год образования одинаков для мужчин и женщин

GENR MALEHGC=MALE*HGC

LS EARN C MALE HGC MALEHGC

EARN = -12.03436704 + 5.102874352*MALE + 1.718615507*HGC - 0.08100225635*MALEHGC

- 0.08100225635 - у мужчин год образования дает на 8 центов в час меньше прирост заработка чем у женщин

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	-12.03437	3.461386	-3.476748	0.0005
MALE	5.102874	4.392686	1.161675	0.2459
HGC	1.718616	0.250865	6.850762	0.0000
MALEHGC	-0.081002	0.317655	-0.255001	0.7988
R-squared	0.207605	Mean dependent var	13.68988

Правда все переменные, связанные с полом, незначимы!!!!

Неужели дискриминации нет?

Нужно провести тест на совместную значимость гендерных переменных

Проще всего тест Вальда

EARN = -12.03436704 + 5.102874352*MALE + 1.718615507*HGC - 0.08100225635*MALEHGC

C(2)=0, C(4)=0

Wald Test:
Equation: Untitled
Null Hypothesis:	C(2)=0
	C(4)=0
F-statistic	14.92099	Probability	0.000000

Обе гендерные переменные были незначимы, а их совместных вклад значим на любом уровне – дискриминация есть!!!!!

УПРАЖНЕНИЕ 3.

Этническая дискриминация

Поскольку этнических групп три, то согласно правилу нам потребуется две фиктивные переменные

Будем изучать зависимость продолжительности образования HGC от интеллектуальных способностей (результат теста ASVABC)

Сколько держат в учебном заведении человека определенных способностей

LS HGC C ASVABC

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	6.502261	0.482991	13.46249	0.0000
ASVABC	0.141762	0.009445	15.00960	0.0000
R-squared	0.283993	Mean dependent var	13.64211

Каждый дополнительный балл теста (в 100-балльной системе) стимулирует к продолжению образования в среднем на 0.14 года

Более умные склонны дольше учиться

Включим все переменные этнического состава

LS HGC C ETHWHITE ETHBLACK ETHHISP ASVABC

Near singular matrix – «ловушка фиктивных переменных»

Так ETHWHITE+ETHBLACK+ETHHISP=1 включение полной группы фиктивных переменных вызвало совершенную мультиколлинеарность и сделало расчет невозможным

Надо всегда одну категорию опускать, делая ее эталонной

Сделаем эталонной ETHWHITE

LS HGC C ETHBLACK ETHHISP ASVABC

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	5.766301	0.516809	11.15750	0.0000
ETHBLACK	0.981012	0.306830	3.197244	0.0015
ETHHISP	0.857593	0.366618	2.339201	0.0197
ASVABC	0.153710	0.009878	15.56025	0.0000
R-squared	0.301359	Mean dependent var	13.64211

Все переменные значимы по крайней мере на 5% уровне (HISP)

HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC

ИНТЕРПРЕТАЦИЯ

HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC

5.766 – столько учится глупый белый

Любого черного держат почти на год 0.9810118722 больше при равных умственных способностях. И латиноса тоже держат чуть меньше чем на год 0.8575930591 больше

Дискриминация наоборот

Изменение эталонной категории

Что произойдет, если сделать негров эталоном

LS HGC C ETHWHITE ETHHISP ASVABC

HGC = 6.747313001 - 0.9810118722*ETHWHITE - 0.1234188132*ETHHISP + 0.1537102823*ASVABC

Сравним с прежним уравнением

HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC

Разница в том, что теперь глупого белого выгонят на те же - 0.9810118722 года раньше

Есть ли смысл менять эталонную категорию?

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	6.747313	0.504422	13.37631	0.0000
ETHWHITE	-0.981012	0.306830	-3.197244	0.0015
ETHHISP	-0.123419	0.448246	-0.275337	0.7832
ASVABC	0.153710	0.009878	15.56025	0.0000
R-squared	0.301359	Mean dependent var	13.64211

Есть смысл!

Теперь латины стали незначимы!!!

То есть есть разница между белым и латином, но нет значимой разницы между негром и латином – они оба цветные

Мы получили новую информацию

Понятно, что можно еще ввести переменные наклона (как раньше)

Мы не будем здесь этого делать

Попробуйте сами!!!!

ПОСЛЕДНЕЕ: КОМБИНИРОВАННЫЕ ФИКТИВНЫЕ ПЕРЕМЕННЫЕ

Одновременный анализ по полу и этносу

Снова белые – эталон

Дополнительно учтен пол

LS HGC C ETHBLACK ETHHISP MALE ASVABC

HGC = 5.728715429 + 0.9859502541*ETHBLACK + 0.8547307343*ETHHISP + 0.06154557337*MALE + 0.153754389*ASVABC

Теперь 5.728715429 – продолжительность образования глупой белой девочки

GENR MALEBLACK=MALE*ETHBLACK

GENR MALEHISP=MALE*ETHHISP

LS HGC C ETHBLACK ETHHISP MALE MALEBLACK MALEHISP ASVABC

Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	5.733525	0.531322	10.79106	0.0000
ETHBLACK	1.173206	0.429172	2.733647	0.0065
ETHHISP	0.620706	0.594889	1.043397	0.2972
MALE	0.075355	0.181385	0.415445	0.6780
MALEBLACK	-0.376935	0.588915	-0.640049	0.5224
MALEHISP	0.370703	0.746745	0.496424	0.6198
ASVABC	0.153507	0.009912	15.48758	0.0000