Сначала прочитайте 5 главу учебника!!!

Тема 8

ЭКОНОМЕТРИКА КАЧЕСТВЕННЫХ ДАННЫХ

ФИКТИВНЫЕ ПЕРЕМЕННЫЕ

Сначала прочитайте 5 главу учебника!!!

КАЧЕСТВЕННАЯ ПЕРЕМЕННАЯ = {категория1, категория2}

Пример – пол = {мальчик, девочка}

Это независимая (объясняющая) переменная

Экзамен = {сдал, не сдал}

Зависимая переменная

Для выражения качественных переменных используют:

Для объясняющих переменных – фиктивные переменные (dummy)

Пример MALE = {1 , 0} 1 = мальчик, 0 – девочка

Для зависимых переменных – бинарные переменные

Результат экзамена как функция числа часов подготовки

RESULT = 1, 0 = F(X – число часов, MALE )

Если число категорий более двух, то используется несколько фиктивных переменных

ПРАВИЛО: число фиктивных переменных = число категорий минус 1

Одна из категорий (для которых все фиктивные переменные равны нулю) называется эталонной (reference)

Включение фиктивных переменных в уравнение регрессии позволяет

учесть качественные факторы, выявить качественные различия,

найти структурные сдвиги.

С точки зрения формальной это обычные переменные,

компьютер оценивает их коэффициенты, они интерпретируются,

для них можно делать все обычные тесты.

Где смотреть: crow

Лекция 6, слайд 29 -30 и 27-28

Самое главное из теории

Регрессия без фиктивных переменных

X – независимая (обычная) переменная

Y – зависимая переменная (обычная – количественная)

Например, X – производственный стаж

Y - зарплата

Рассматривается регрессия

Y=С(1)+С(2)*X

Интерпретация: C(2) – предельный эффект X (стажа)

С(1) – значение Y при X=0

(если это возможно, в случае стажа это возможно)

С(1) – зарплата работника (любого пола) без стажа

Вводим фиктивную переменную D

Например D=0 для женщин, D=1 для мужчин

Тогда новая регрессия с этой переменной

Y=С(1)+С(2)*X+C(3)*D

C(3) показывает на сколько в среднем больше

значение Y для мужчин по сравнению с женщинами,

в предположении, что предельный эффект X одинаков

для мужчин и женщин

Иначе говоря – это добавка к константе для мужчин

То есть для женщин получается

В уравнении

Y=С(1)+С(2)*X+C(3)*D

положим D=0

Тогда для них (для женщин)

Y=С(1)+С(2)*X – старое уравнение, но с новым смыслом

C(2) – по прежнему общий (одинаковый)

предельный эффект X

а смысл константы изменился

C(1) в обоих последних уравнениях

теперь показывает зарплату ЖЕНЩИН БЕЗ СТАЖА X=0

Из того же уравнения

Y=С(1)+С(2)*X+C(3)*D

Можно найти зарплату МУЖЧИН БЕЗ СТАЖА

Для этого просто положим D=1.

Y=(С(1) +C(3))+С(2)*X

С(1) +C(3) - зарплата МУЖЧИН БЕЗ СТАЖА

Итак фиктивная переменная при таком подходе (если она одна)

влияет просто на СДВИГ

регрессии

Поэтому D – называется еще фиктивной переменной сдвига

Можно обычным образом (с помощью t-тестов, а потом и F-тестов)

проверять значимость коэффициентов при фиктивных переменных

Обратим внимание еще раз, что все это было справедливо

в условиях неявной (или явной) предпосылки, что

предельные эффекты стажа X равны для мужчин и женщин

Но это предположение может быть неверным

Тогда следует ввести фиктивную переменную наклона

(в случае нескольких количественных независимых переменных

вводится несколько фиктивных переменных наклона)

Фиктивная переменная наклона равна произведению

фиктивной переменной сдвига на количественную

независимую переменную

D1=D*X

Наличие такой переменной в уравнении

позволят дополнительно учесть различия

в коэффициенте наклона для разных категорий

Y=С(1) +С(2)*X+C(3)*D+C(4)*D1

или

Y=С(1)+С(2)*X+C(3)*D+C(4)*D*X

Для женщин получаем (D=0)

Y=С(1)+С(2)*X

Теперь изменилась интерпретация обоих коэффициентов

Теперь и C(1) и C(2) относятся только к женщинам

С(1) – зарплата женщин без стажа

С(2) – предельный эффект стажа для женщин

Для мужчин

Y=С(1)+С(2)*X+C(3)*D+C(4)*D*X

D=1

Значит

Y=С(1)+С(2)*X+C(3)+C(4)*X

или

Y=С(1)+C(3)+(C(2)+C(4))*X

С(1)+C(3) – зарплата мужчин без стажа

C(2) +C(4) – предельный эффект стажа для мужчин

ТЕПЕРЬ ПРАКТИКА!!!

Упражнение 1.

(Структурные сдвиги в моделях временных рядов)

Используйте файл EXPEND.WF1.

Целью исследования является изучение зависимости

расходов на продукты питания (переменная FOOD)

в миллиардах долларов от индекса относительных цен

(PRELFOOD, 100% for 1972), определяемым как

отношения индекса цен на продукты питания (PFOOD)

к индексу цен совокупных потребительских расходов (PTPE)

в процентах.

1, 2 Регрессия и ее график

LS FOOD C PRELFOOD

Variable Coefficient Std. Error t-Statistic Prob.
C -125.9042 42.08473 -2.991683 0.0065
PRELFOOD 2.461662 0.407230 6.044892 0.0000
R-squared 0.613710 Mean dependent var 128.0840

Приемлемый эр-квадрат, значимый,

но странно положительный коэффициент

График

DATA PRELFOOD FOOD

SCATTER

Сначала прочитайте 5 главу учебника!!! - student2.ru

Дело не в плохой спецификации, а в том, что данные неоднородны

obs PRELFOOD FOOD
97.73371 99.70000
97.07928 100.9000
97.24518 102.5000
96.87924 103.5000
96.79144 104.6000
97.10145 108.8000
97.79793 113.7000
100.0000 116.6000
98.28010 118.6000
98.22695 123.4000
98.98190 125.9000
100.0000 129.4000
98.34197 130.0000
100.0000 132.4000
108.1362 129.4000
112.4678 128.1000
111.9010 132.3000
108.8838 139.7000
107.3941 145.2000
110.5969 146.1000
112.2462 149.3000
109.8324 153.2000
109.6658 153.0000
107.8155 154.6000
106.0393 161.2000

Проблема в том, что до 73 года (кризис)

еда была относительно дешевой, потом

резко подорожала и начала немного дешеветь

только к концу периода

Наша регрессия ничего этого не видит, и показывает

средний рост потребления, механически соединяя центры

двух несвязанных множеств данных

Сначала прочитайте 5 главу учебника!!! - student2.ru

Мир до кризиса и после кризиса – два разных мира!

А был ли мальчик? Был ли кризис

Введем фиктивную переменную CRISIS = 0 для 1959-1972 г, и 1 – для 1973-1983

Как это сделать

1) лапками:

DATA CRISIS

2) Генерацией

GENR CRISIS=0

SMPL 1973 1983

GENR CRISIS=1

SMPL 1959 1983

LS FOOD C CRISIS PRELFOOD

Variable Coefficient Std. Error t-Statistic Prob.
C 65.30997 145.1591 0.449920 0.6572
CRISIS 23.98269 17.45406 1.374046 0.1833
PRELFOOD 0.506134 1.478222 0.342394 0.7353
R-squared 0.644240 Mean dependent var 128.0840

Переменная CRISIS незначима!!!

Проблема в том, что мы сейчас

пытаемся измерить только сдвиг

в уровне цены, считая наклон в кризисный

и докризисный период одинаковыми

(если чего-то не заметить, что неявно существует,

то оно не исчезнет)

PRELFOOD 0.506134

Сначала прочитайте 5 главу учебника!!! - student2.ru

На графике видно, что до кризиса он был

резко положительным,

и стал отрицательным после кризиса

DATA PRELFOOD FOOD

SMPL 1959 1972

SMPL 1973 1983

Сначала прочитайте 5 главу учебника!!! - student2.ru

Надо дополнительно учесть различие в наклоне

и рассматривать полную группу переменных,

связанных с кризисом

SMPL 1959 1983

Вводим фиктивную переменную наклона

GENR CRPR=CRISIS*PRELFOOD

DATA CRISIS CRPR PRELFOOD

obs CRISIS CRPR PRELFOOD
0.000000 0.000000 97.73371
0.000000 0.000000 97.07928
0.000000 0.000000 97.24518
0.000000 0.000000 96.87924
0.000000 0.000000 96.79144
0.000000 0.000000 97.10145
0.000000 0.000000 97.79793
0.000000 0.000000 100.0000
0.000000 0.000000 98.28010
0.000000 0.000000 98.22695
0.000000 0.000000 98.98190
0.000000 0.000000 100.0000
0.000000 0.000000 98.34197
0.000000 0.000000 100.0000
1.000000 108.1362 108.1362
1.000000 112.4678 112.4678
1.000000 111.9010 111.9010
1.000000 108.8838 108.8838
1.000000 107.3941 107.3941
1.000000 110.5969 110.5969
1.000000 112.2462 112.2462
1.000000 109.8324 109.8324
1.000000 109.6658 109.6658
1.000000 107.8155 107.8155
1.000000 106.0393 106.0393

Сначала прочитайте 5 главу учебника!!! - student2.ru

LS FOOD C CRISIS PRELFOOD CRPR

Variable Coefficient Std. Error t-Statistic Prob.
C -674.0985 203.1818 -3.317711 0.0033
CRISIS 1090.898 248.3744 4.392151 0.0003
PRELFOOD 8.037619 2.069438 3.883963 0.0009
CRPR -10.52122 2.445936 -4.301512 0.0003
R-squared 0.810876 Mean dependent var 128.0840

Все фиктивные переменные теперь значимые

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

FOOD = -674.1 + 1090.9*CRISIS + 8.0*PRELFOOD - 10.5*CRPR

Уравнение до кризиса (кладем все кризисные

переменные равными нулю)

FOOD = -674.1 + 8.0*PRELFOOD

Это уравнение показывает связь переменных цен и расходов

до кризиса

Рост потребления как и было на графике

Уравнение после кризиса (добавляем все кризисные переменные)

FOOD = -674.1 + 1090.9*CRISIS + 8.0*PRELFOOD - 10.5*CRPR

И кладем их равными единице

FOOD = -674.1 + 1090.9 + 8.0*PRELFOOD - 10.5* PRELFOOD

Новая константа

=-674.1 + 1090.9

=416.8

Новый коэффициент

=8.0 - 10.5

-2.5

Итак уравнение после кризиса

FOOD = 416.8 -2.5* PRELFOOD

Это можно проверить

Построим обычные регрессии по подвыборкам

(ПРИ ЭТОМ НИКАКИХ ФИКТИВНЫХ ПЕРЕМЕННЫХ

НЕ ИСПОЛЬЗУЕМ)

SMPL 1959 1972

LS FOOD C PRELFOOD

FOOD = -674.0985057 + 8.03761905*PRELFOOD

FOOD = -674.1 + 8.0*PRELFOOD

После кризиса

SMPL 1973 1983

LS FOOD C PRELFOOD

FOOD = 416.7993509 - 2.483605731*PRELFOOD

FOOD = 416.8 -2.5* PRELFOOD

МОРАЛЬ: АНАЛИЗ С ПОМОЩЬЮ ФИКТИВНЫХ

ПЕРЕМЕННЫХ ПОЗВОЛЯЕТ ДЕЛАТЬ ТО ЖЕ САМОЕ,

ЧТО И АНАЛИЗ ОТДЕЛЬНЫХ РЕГРЕССИЙ

ПО РАЗНЫМ ЧАСТЯМ ВЫБОРКИ

(с фиктивными переменными лучше – дает дополнительную информацию о значимости фиктивных переменных)

ИНТЕРПРЕТАЦИЯ КОЭФФИЦИЕНТОВ

ПРИ ВСЕХ ПЕРЕМЕННЫХ

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Константа в докризисной зависимости

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Коэффициент наклона в докризисной зависимости

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Добавка к константе, превращающая ее в константу в послекризисной зависимости

FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR

Добавка (здесь отрицательная) к коэф.наклона, превращающая его в коэффициент наклона в послекризисной зависимости

ЗНАЧИМОСТЬ (был ли кризис на самом деле?)

Значимость структурного сдвига – совместная значимость группы фиктивных переменных

Можно измерить с помощью различных F-тестов

ТРИ МЕТОДА

1. Тест на совместную значимость группы переменных

Измеряется по RSS или по эр-квадрат

(по RSS точнее!!!!)

Сравниваем RSS для уравнения без фиктивных переменных и уравнения с фиктивными переменными

Короткое уравнение по полной выборке

SMPL 1959 1983

LS FOOD C PRELFOOD

R-squared 0.613710
Adjusted R-squared 0.596915
S.E. of regression 11.93403
Sum squared resid 3275.685

Длинное уравнение тоже по полной выборке

LS FOOD C CRISIS PRELFOOD CRPR

R-squared 0.810876
Adjusted R-squared 0.783859
S.E. of regression 8.738913
Sum squared resid 1603.741

(RSS(short)-RSS(long)/2

F=--------------------------------------------

RSS(long)/ df(long)

F=(3275-1603)/2/1603*(25-4)

C(12)=(3275-1603)/2/1603*(25-4)

10.9519650655

Явно значимая f-статистика

F(crit, 1%, df1=2, df2=25-4=21)=5.78

То же самое по R2

(R2(long)-R2(short)/2

F=--------------------------------------------

(1 - R2(long))/ df(long)

(посчитайте сами)

ВТОРОЙ СПОСОБ – тест Вальда

Считаем длинную регрессию по всей выборке

LS FOOD C CRISIS PRELFOOD CRPR

И приравниваем к нулю коэффициенты кризисных переменных

C(2)=0, C(4)=0

Wald Test:
Equation: Untitled
Null Hypothesis: C(2)=0
  C(4)=0
F-statistic 10.94654   Probability 0.000554

Понятно, что F-статистика та же самая

Третий способ

ТЕСТ ЧОУ

НИКАКИХ ФИКТИВНЫХ ПЕРЕМЕННЫХ

ЭТО ПРЯМОЕ СРАВНЕНИЕ УРАВНЕНИЙ ПО

ОБЩЕЙ ВЫБОРКЕ И ПО ДВУМ ИЛИ БОЛЕЕ ПОДВЫБОРКАМ

СРАВНЕНИЕ RSS или R2 полной регрессии и двух регрессий по подвыборкам

Сначала прочитайте 5 главу учебника!!! - student2.ru

SMPL 1959 1983

LS FOOD C PRELFOOD

Sum squared resid 3275.685

Теперь по подвыборкам

SMPL 1959 1972

LS FOOD C PRELFOOD

Sum squared resid 657.6665

SMPL 1973 1983

LS FOOD C PRELFOOD

Sum squared resid 946.0742

Тест Чоу

(RSS(полный период)-RSS(до)-RSS(после))/2

F=-----------------------------------------------------------------------

(RSS(до)+RSS(после))/(25-2-2)

C(14)=( 3275-657-946)/2/(657+946)*(25-4)

10.9519650655

То же число, что и в прежнем тесте

Мораль: тест Чоу равносилен F-тесту на совместную

значимость полной группы фиктивных переменных.

Удобство теста Чоу в том, что он может быть сделан

Автоматически

Кроме того, он позволяет делить выборку на много частей (докриз, криз. Посткриз)

Полная выборка

SMPL 1959 1983

LS FOOD C PRELFOOD

View/Stability tests/Chow breakpoint test

Нужно указать точку начала кризиса

Chow Breakpoint Test: 1973
F-statistic 10.94654 Probability 0.000554

Можно проверить другие года

Может кризис начался позже, например в 1975 году?

Chow Breakpoint Test: 1975
F-statistic 7.613321

F стало меньше – это неверно.

Точка кризиса – та, при которой F максимально

УПРАЖНЕНИЕ 2

Гендерная дискриминация

Файл EAEF40

LS EARN C HGC

Variable Coefficient Std. Error t-Statistic Prob.
C -9.158012 2.182028 -4.197019 0.0000
HGC 1.674807 0.157613 10.62610 0.0000
R-squared 0.165827 Mean dependent var 13.68988

1.674807 - эффект образования

Каждый дополнительный год образования дает 1.67 доп.часового заработка

Переменная MALE уже есть

Включим ее в уравнение

LS EARN C MALE HGC

Variable Coefficient Std. Error t-Statistic Prob.
C -11.34626 2.166063 -5.238196 0.0000
MALE 3.998431 0.732135 5.461330 0.0000
HGC 1.668095 0.153764 10.84840 0.0000
R-squared 0.207514 Mean dependent var 13.68988

Переменная MALE значима

В предположении, что каждый доп.год образования дает одинаковый прирост заработка дл мужчин и женщин один только факт, что данный человек мужчина дает ему 3.998431= 4 доллара в час заработка больше, чем женщине с тем же уровнем образования

Формально -11.34626 – заработок необразованной женщины (не имеет смысла – в выборке нет необразованных женщин)

Попробуем снять предположение, что прирост дохода на лишний год образования одинаков для мужчин и женщин

GENR MALEHGC=MALE*HGC

LS EARN C MALE HGC MALEHGC

EARN = -12.03436704 + 5.102874352*MALE + 1.718615507*HGC - 0.08100225635*MALEHGC

- 0.08100225635 - у мужчин год образования дает на 8 центов в час меньше прирост заработка чем у женщин

Variable Coefficient Std. Error t-Statistic Prob.
C -12.03437 3.461386 -3.476748 0.0005
MALE 5.102874 4.392686 1.161675 0.2459
HGC 1.718616 0.250865 6.850762 0.0000
MALEHGC -0.081002 0.317655 -0.255001 0.7988
R-squared 0.207605 Mean dependent var 13.68988

Правда все переменные, связанные с полом, незначимы!!!!

Неужели дискриминации нет?

Нужно провести тест на совместную значимость гендерных переменных

Проще всего тест Вальда

EARN = -12.03436704 + 5.102874352*MALE + 1.718615507*HGC - 0.08100225635*MALEHGC

C(2)=0, C(4)=0

Wald Test:
Equation: Untitled
Null Hypothesis: C(2)=0
  C(4)=0
F-statistic 14.92099   Probability 0.000000

Обе гендерные переменные были незначимы, а их совместных вклад значим на любом уровне – дискриминация есть!!!!!

УПРАЖНЕНИЕ 3.

Этническая дискриминация

Поскольку этнических групп три, то согласно правилу нам потребуется две фиктивные переменные

Будем изучать зависимость продолжительности образования HGC от интеллектуальных способностей (результат теста ASVABC)

Сколько держат в учебном заведении человека определенных способностей

LS HGC C ASVABC

Variable Coefficient Std. Error t-Statistic Prob.
C 6.502261 0.482991 13.46249 0.0000
ASVABC 0.141762 0.009445 15.00960 0.0000
R-squared 0.283993 Mean dependent var 13.64211

Каждый дополнительный балл теста (в 100-балльной системе) стимулирует к продолжению образования в среднем на 0.14 года

Более умные склонны дольше учиться

Включим все переменные этнического состава

LS HGC C ETHWHITE ETHBLACK ETHHISP ASVABC

Near singular matrix – «ловушка фиктивных переменных»

Так ETHWHITE+ETHBLACK+ETHHISP=1 включение полной группы фиктивных переменных вызвало совершенную мультиколлинеарность и сделало расчет невозможным

Надо всегда одну категорию опускать, делая ее эталонной

Сделаем эталонной ETHWHITE

LS HGC C ETHBLACK ETHHISP ASVABC

Variable Coefficient Std. Error t-Statistic Prob.
C 5.766301 0.516809 11.15750 0.0000
ETHBLACK 0.981012 0.306830 3.197244 0.0015
ETHHISP 0.857593 0.366618 2.339201 0.0197
ASVABC 0.153710 0.009878 15.56025 0.0000
R-squared 0.301359 Mean dependent var 13.64211

Все переменные значимы по крайней мере на 5% уровне (HISP)

HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC

ИНТЕРПРЕТАЦИЯ

HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC

5.766 – столько учится глупый белый

Любого черного держат почти на год 0.9810118722 больше при равных умственных способностях. И латиноса тоже держат чуть меньше чем на год 0.8575930591 больше

Дискриминация наоборот

Изменение эталонной категории

Что произойдет, если сделать негров эталоном

LS HGC C ETHWHITE ETHHISP ASVABC

HGC = 6.747313001 - 0.9810118722*ETHWHITE - 0.1234188132*ETHHISP + 0.1537102823*ASVABC

Сравним с прежним уравнением

HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC

Разница в том, что теперь глупого белого выгонят на те же - 0.9810118722 года раньше

Есть ли смысл менять эталонную категорию?

Variable Coefficient Std. Error t-Statistic Prob.
C 6.747313 0.504422 13.37631 0.0000
ETHWHITE -0.981012 0.306830 -3.197244 0.0015
ETHHISP -0.123419 0.448246 -0.275337 0.7832
ASVABC 0.153710 0.009878 15.56025 0.0000
R-squared 0.301359 Mean dependent var 13.64211

Есть смысл!

Теперь латины стали незначимы!!!

То есть есть разница между белым и латином, но нет значимой разницы между негром и латином – они оба цветные

Мы получили новую информацию

Понятно, что можно еще ввести переменные наклона (как раньше)

Мы не будем здесь этого делать

Попробуйте сами!!!!

ПОСЛЕДНЕЕ: КОМБИНИРОВАННЫЕ ФИКТИВНЫЕ ПЕРЕМЕННЫЕ

Одновременный анализ по полу и этносу

Снова белые – эталон

Дополнительно учтен пол

LS HGC C ETHBLACK ETHHISP MALE ASVABC

HGC = 5.728715429 + 0.9859502541*ETHBLACK + 0.8547307343*ETHHISP + 0.06154557337*MALE + 0.153754389*ASVABC

Теперь 5.728715429 – продолжительность образования глупой белой девочки

GENR MALEBLACK=MALE*ETHBLACK

GENR MALEHISP=MALE*ETHHISP

LS HGC C ETHBLACK ETHHISP MALE MALEBLACK MALEHISP ASVABC

Variable Coefficient Std. Error t-Statistic Prob.
C 5.733525 0.531322 10.79106 0.0000
ETHBLACK 1.173206 0.429172 2.733647 0.0065
ETHHISP 0.620706 0.594889 1.043397 0.2972
MALE 0.075355 0.181385 0.415445 0.6780
MALEBLACK -0.376935 0.588915 -0.640049 0.5224
MALEHISP 0.370703 0.746745 0.496424 0.6198
ASVABC 0.153507 0.009912 15.48758 0.0000

HGC = 5.733525343 + 1.173205548*ETHBLACK + 0.6207058348*ETHHISP + 0.07535538246*MALE

- 0.3769345109*MALEBLACK + 0.3707025308*MALEHISP + 0.1535072629*ASVABC

Например черный мальчик учится на 0.3769345109 года меньше чем черная девочка

Или наоборот, если мальчик черный, то он учится на то же число лет меньше белого мальчика

Смысл – черные девочки – паиньки – их все любят и жалеют, даже если они глупые

А негритята такие шебутные, что есть тенденция их гнать несмотря на их цвет кожи

Иначе говоря все преимущества цвета кожи достигаются за счет черных девочек

Это новая информация, которой мы не видели в предыдущем уравнении

Отсюда польза перекрестных комбинированных фиктивных переменных.

Наши рекомендации