Использование фиктивных переменных при построении классической регрессии

Построение регрессионной модели с фиктивными переменными не чем не отличается от построения множественной регрессионной модели

Для иллюстрации использования фиктивных переменных в пространственных моделях обратимся к приложению Р (таблица Р.1), при этом представленный материал содержит две фиктивные переменные:

D1 – характеризует этаж квартире, при этом 0 присваивается квартире с первым или последним этажом, 1 в противном случае;

D2 – характеризует категорию дома, при этом если дом кирпичный то объекту присваивается 1, цифра 0 в противном случае.

Шаг 1. Запускаем модуль Multiple regression далее в окне Multiple Linear Regression установим галочку в опции Review descriptive statistics, correlation matrix. В окне Review Descriptive Statistic необходимо выбрать вкладку Advanced и нажать кнопку Correlations, в результате чего получаем:

Таблица 9.1 – Матрица парных коэффициентов корреляции

	X1	X2	X3	X4	X5	D1	D2	Y
X1	1,000	-0,212	-0,203	0,045	-0,344	0,108	-0,677	-0,440
X2	-0,212	1,000	0,080	0,010	0,012	-0,281	0,104	-0,012
X3	-0,203	0,080	1,000	0,620	0,712	-0,064	0,312	0,743
X4	0,045	0,010	0,620	1,000	0,265	0,049	0,005	0,518
X5	-0,344	0,012	0,712	0,265	1,000	0,107	0,282	0,562
D1	0,108	-0,281	-0,064	0,049	0,107	1,000	-0,075	0,141
D2	-0,677	0,104	0,312	0,005	0,282	-0,075	1,000	0,599
Y	-0,440	-0,012	0,743	0,518	0,562	0,141	0,599	1,000

Согласно приведенной таблице получаем, что наибольшее влияние на зависимую переменную Y (см. столбец Y) оказывают показатели X3 (r_X₂_Y=0,743), X4 (r_X₄_Y=0,518), X5 (r_X₅_Y=0,562)и D2 (r_D₂_Y=0,599). При этом необходимо указать на присутствие мультиколлениарности в данных.

Шаг 2. Переходим в стартовое окно модуля и устанавливаем галочку в опции Advanced options. Выбираем кнопку Variables в качестве зависимой переменной указываем Y в качестве независимых указываем X3, X4, X5 и D2.

Шаг 3.В окне Model Definition в прокрутке Methodвыберем Backward stepwise (Метод пошагового исключения) и нажмем ОК. Получаем следующие результаты:

Таблица 9.2 – Показатели адекватности множественного уравнения регрессии с фиктивными переменными

	Value
Multiple R	0,837
Multiple R?	0,701
Adjusted R?	0,692
F(2,66)	77,444
p	0,000
Std.Err. of Estimate	5,573

Таблица 9.3 – Результаты оценки множественной линейной регрессии с фиктивными переменными

	Beta	Std.Err. of Betta	B	Std.Err. of B	t(66)	p-level
Intercept			-5,480	4,817	-1,138	0,259
X3	0,616	0,071	1,202	0,138	8,697	0,000
D2	0,407	0,071	8,944	1,556	5,748	0,000

Согласно данным, приведенным в таблицах 9.2 и 9.3, оцененная модель статистически значима по F-критерию Фишера, при этом R² = 0,701 и указывает на высокую адекватность модели.

Согласно параметрам уравнения получаем, что при увеличении общей площади квартиры на 1 м² цен увеличивается на 1,202 тыс. USD.

Проинтерпретировать параметр при фиктивной переменной можно следующим образом – цена за 1 м² в кирпичных домах по сравнению с остальными в среднем выше на 8,94 тыс. USD. Т.е. можно сделать вывод о том, что категория дома оказывает достаточно сильное влияние на стоимость квартиры.

Отобразим на графике линии регрессии квартир в кирпичных домах и остальных, для этого в исходной таблице образуем две новых переменных Y1 и Y2. При этом в поле Long name вносим следующие выражения:

- для Y1 внесем=-5,48+1,202*v3 (выровненные значения для квартир не в кирпичных домах)

- для Y2 внесем=-5,48+1,202*v3+8,944 (выровненные значения для квартир в кирпичных домах)

Дале в главном меню Graphs®2D Graphs®Scatterplots в появившемся окне 2D Scatterplots выберем кнопку Variables и укажем в поле X: - X3, а в поле Y: - Y1- Y2. Также в этом окне группе Graph Type укажем Multiple, получаем следующий результат:

Использование фиктивных переменных при построении классической регрессии - student2.ru

Рисунок 9.1. – Линии регрессии для моделей зависимости цены квартиры от типа дома

Как видим, приведенные уравнения отличаются друг от друга только свободным членом, а линии регрессии параллельны.

9.4. Выявление сезонности с использованием сезонных фиктивных переменных в модуле Multiple regression

Для выявления описания сезонных колебаний на практике используют фиктивные переменные. При этом модель имеет следующий вид:

Использование фиктивных переменных при построении классической регрессии - student2.ru = а₀ + а₁t + c₂Z₂ + c₃Z₃ + c₄Z₄ + e_t (9.1)

где:

Использование фиктивных переменных при построении классической регрессии - student2.ru

а₀, а₁, с₂, с₃, с₄ - коэффициенты модели;

В приведенной формуле 1-й квартал взят в качестве эталонной категории, а фиктивные переменные позволят оценить разницу в уровнях сезонности между эталонным кварталом и остальными.

Регрессионная модель, описывающая динамику уровней ряда, относящихся к эталонному 1-му кварталу, примет вид:

y_t=a₀+а₁t

соответственно для наблюдений

2-го квартала y_t=a₀+ а₁t +c₂;

3-го квартала y_t= a₀+ а₁t +c₃;

4-го квартала y_t= a₀+ а₁t +c₄;

Переход из одного квартала в другой будет отражаться лишь в изменении свободного члена регрессионного уравнения и не будет касаться значения параметра b, определяющего угол наклона линейного тренда и характеризующего средний абсолютный прирост уровней ряда под воздействием тенденции.

Найденные значения коэффициентов с₂, с₃, с₄ позволяют оценить «сдвиги» в уровнях за счет фактора сезонности относительно i-го, эталонного квартала. Можно усреднить четыре полученные линии регрессии:

Использование фиктивных переменных при построении классической регрессии - student2.ru (9.2)

Тогда расстояние между отдельной регрессионной прямой для любого квартала и усредненной моделью, даст оценку сезонных отклонений в этом квартале. Очевидно, что для аддитивной модели сумма сезонных отклонений будет равна нулю.

Рассмотрим реализацию применения фиктивных переменных для моделирования сезонных колебаний в пакете STATISTICA.

В качестве исходных данных используем квартальный ряд динамики ВВП (приложение Р, таблица Р.2) с 1 квартала 1999 г. до 4 квартала 2004 г.

Шаг 1. Для начала проведем визуализацию ряда, для этого в главном меню программы выберем Graphs ® 2D Graphs®Line Plots (Variables). После выбора переменной (кнопка Variables) на основе которой необходимо построить график (в данном случае это переменная Y), получаем следующий результат:

Использование фиктивных переменных при построении классической регрессии - student2.ru

Рисунок 9.2 - Динамика ВВП России 1 квартала 1999г-4 квартал 2004г

Согласно приведенному графику наблюдается значительный рост показателя за анализируемый период, а также сезонность с пиком в каждом 3 квартале года.

Шаг 2. Для описания сезонных колебаний создадим 4 фиктивных переменных. Для этого переходим в рабочую таблицу и образуем, переменную t – характеризующую моменты (периоды) времени переменные и переменные Z2, Z3 и Z4 – характеризующие сезонность в анализируемом ряду:

Использование фиктивных переменных при построении классической регрессии - student2.ru

Рисунок 9.3 – Рабочая таблица с набором фиктивных переменных (приведена часть исходного окна)

Шаг 3. В главном меню выберем: Statistics ® Multiple Regression (Статистика ® Множественная регрессия). В появившемся окне Multiple Linear Regression необходимо нажать кнопку Variables (Переменные) и указать в качестве зависимой переменной (Dependent var.) Y, а в качестве не зависимых (Independent var.) переменных - t, Z2, Z3 и Z4.

Нажав кнопку ОК, перейдем в следующее окно, содержащее результаты построения модели.

Шаг 4. В появившемся окне Multiple Regression Results выберемкнопку Summary: Regression results (Итоги: Результаты построения регрессии) перейдем к двум таблицам содержащим оцененные параметры модели и основные показатели адекватности построения регрессии.

Таблица 9.4 – Показатели адекватности модели

Statistic	Value
Multiple R	0,989
Multiple R?	0,977
Adjusted R?	0,973
F(11,144)	204,893
p	0,000
Std.Err. of Estimate	174,096

Согласно данным, приведенным в таблице 9.5 полученная модель статистически значима по F-критерию Фишера, но параметр при фиктивной переменной Z2 не проходит тест на статистическую значимость по t-критерию Стьюдента.

Таблица 9.5 – Результаты оценивания сезонной модели

	Beta	Std.Err. of Beta	B	Std.Err. of B	t(19)	p-level
Intercept			606,006	91,247	6,641	0,000
t	0,956	0,035	142,156	5,202	27,327	0,000
Z2	0,043	0,042	101,828	100,649	1,012	0,324
Z3	0,168	0,043	398,189	101,051	3,940	0,001
Z4	0,125	0,043	296,600	101,718	2,916	0,009

В общем, опираясь на построенную модель можно сказать, что в анализируемом ряду присутствует сезонность, с максимум в 3 квартале каждого года, т.к. b-коэффициент при Z3 имеет наибольшее значение.

Тест (критерий) Г. Чоу

Для выявления структурных изменений в ряду динамики на практике можно прибегнуть к проведению теста Чоу (тесты на устойчивость). Существует несколько модификаций теста Чоу, это тест на обоснованность объединения двух выборок при оценки регрессии и тест на неудачу предсказания. В первом случае тестируется предсказательная способность модели, во втором определяется, происходит ли сдвиг параметров в период предсказания.

В данном случае нас интересует первый подход, рассмотрим механизм его приведения подробнее.

Методика проведения данного теста сводится к следующему: на основе имеющихся данных оценивается уравнение регрессии сначала по всему ряду, а затем уравнения по кусочно-линейной модели.

Далее определяется фактическое значении F-статистики Фишера по формуле:

Использование фиктивных переменных при построении классической регрессии - student2.ru (9.3)

где RSS_Р – остаточная сумма квадратов модели построенной на основе всего ряда;

RSS_А- остаточная сумма квадратов первой модели построенной на основе ряда до момента t* (предполагаемый (или реальный) момент наступления события повлекший структурные изменения ряда);

RSS_В- остаточная сумма квадратов второй модели построенной на основе ряда после момента t*;

k_Р, k_А, k_В – число параметров в регрессии по всему ряду и в первой и второй регрессиях;

Т – число уровней ряда.

Далее с помощью F-статистики тестируется гипотеза H₀ о структурной стабильности тенденции изучаемого временного ряда. Для этого найденное значение F_факт сравнивается с табличным полученным при уровне значимости a и степенями свободы v₁=m; v₂=T-k-1. Если F_факт>F_табл, то гипотеза отклоняется, а влияние структурных изменений на динамику изучаемого показателя признается значимым.

Для иллюстрации описанной процедуры воспользуемся динамическим рядом ВВП России за период с 1 квартала 1994г. по 4 квартал 2004 года (приложение Р, таблица Р.2).

Шаг 1. Вначале построим уравнение регрессии на основе всей сосвокупности данных. Перед этим необходимо образовать переменную t₁ (t₁=0 в 4 квартале 1993 года). Далее запускаем процедуру Multiple Regression.

Шаг 2. В окне результатов оценки модели Multiple Regression Results необходимо выбрать вкладку Advanced и кнопку ANOVA (Overall goodness of fit), тем самым на экран будет выведена таблица с результатами дисперсионного анализа (необходимо заметить, что модель статистически значима по F-критерию Фишера и t-критерию Стьюдента).

Таблица 9.6 – Результаты дисперсионного анализа общей регрессионной модели

	Sums of Squares	df	Mean Squares	F	p-level
Regress.				433,83	0,000
Residual
Total

Для оценки F-критерия Фишера (тест Чоу) из данной таблицы понадобится остаточная сумма квадратов, которая находится на пересечении столбца Sums of Squares и строки Residual, т.е. значение 6682327.

Шаг 3. Последовательно оценим две кусочно-линейные модели, первая до 4 квартала 1999г., вторая после данного периода.

Выбор 4 квартала 1999г. как предполагаемый момент наступления события повлекший структурные изменения ряда неслучаен, так как в 1998г. в Россию потряс финансовый кризис который и стал причиной изменения механизма генерации макроэкономических рядов, т.е. начиная с 1999г. (в результате инерционности экономики) имеем совершенно иной динамический ряд который не сопоставим с предыдущей динамикой.

Перед тем как приступить к оценки моделей необходимо ввести две переменные t₂ (равна единице в 1 квартале 1994г.) и t₃ (равна единице в 1 квартале 1999г.). При построении кусочно-линейных моделей необходимо выбрать кнопку Select Cases и в первом случае указать v0<21, во втором случае указать v0>20 (тем самым будут заданы диапазоны для оценки регрессионных уравнений).

В результате оценки будут получены следующие результаты:

Таблица 9.7 – Результаты дисперсионного анализа первой кусочно-линейной регрессионной модели (до 1 кв. 1999г.)

	Sums of Squares	df	Mean Squares	F	p-level
Regress.	681651,4		681651,4	200,03	0,0000
Residual	61339,9		3407,8
Total	742991,2

Таблица 9.8 – Результаты дисперсионного анализа первой кусочно-линейной регрессионной модели (до 1 кв. 1999г.)

	Sums of Squares	df	Mean Squares	F	p-level
Regress.				462,40	0,000
Residual
Total

Шаг 4. Находим расчетное значение F-критерия Фишера:

Использование фиктивных переменных при построении классической регрессии - student2.ru =-2706000,12

По таблице находим табличное значение F-критерия Фишера при степенях значимости v₁=m=2; v₂=T-k-1=44-2-1=41, т.е. получаем 3,23.

Сравнивая расчетное значение с табличным, получаем F_факт>F_табл, отсюда можно сделать вывод, что подтверждается предположение о значительных изменениях в механизме генерации ряда инвестиций в основной капитал под влиянием финансового кризиса 1998г.

Тесты для самоконтроля

1) Если качественный признак, который необходимо отразить в регрессионной модели имеет четыре градации, то в уравнение включается:

а) четыре фиктивные переменные

б) пять фиктивных переменных

в) одна фиктивная переменная

г) три фиктивная переменная

2) Если качественный признак, который необходимо отразить в регрессионной модели имеет две градации, то в уравнение включается:

а) одна фиктивная переменная

б) две фиктивных переменных

в) три фиктивная переменная

г) нельзя включать качественные переменные в уравнение

3) Приведенный пример расстановки фиктивных переменных используется для:

Дата	y_t	t	t'
1998г.	y₁		-3
1999г.	y₂		-2
2000г.	y₃		-1
2001г.	y₄
2002г.	y₅
2003г.	y₆
2004г.	y₈

а) элиминирования линейного временного тренда

б) элиминирования тренда в виде параболы второго порядка

в) выделения сезонной составляющей

4) Приведенный пример расстановки фиктивных переменных используется для:

Дата	y_t	t₁	t₂	t₃
1996г.	y₁
1997г.	y₂
1998г.	y₃
1999г.	y₄
2000г.	y₅
2001г.	y₆
2002г.	y₈
2003г.	y₉
2004г.	y₁₀

а) выделения двух прямых, точка пересечения которых известна

б) выделения двух прямых, точка пересечения которых не известна

в) выделения линейного временного тренда

5) Приведенный пример расстановки фиктивных переменных используется для:

Дата	y_t	t₁	t₂
1996г.	y₁	-4
1997г.	y₂	-3
1998г.	y₃	-2
1999г.	y₄	-1
2000г.	y₅
2001г.	y₆
2002г.	y₈
2003г.	y₉
2004г.	y₁₀

а) выделения двух прямых, точка пересечения которых известна

б) выделения двух прямых, точка пересечения которых не известна

в) выделения линейного временного тренда

6) Приведенное выражение Использование фиктивных переменных при построении классической регрессии - student2.ru = а₀ + а₁t + c₂Z₂ + c₃Z₃ + c₄Z₄ + e_t используют при:

а) построении парного линейного уравнения регрессии

б) описании сезонных колебаний

в) построении нелинейного уравнения

7) Приведенная формула Использование фиктивных переменных при построении классической регрессии - student2.ru используется при:

а) проверке гипотезы о статистической значимости регрессионного уравнения

б) проверке гипотезы о статистической значимости параметров регрессионного уравнения

в) проверке гипотезы о гетероскедостичности случайных отклонений

г) проверке гипотезы о адекватности линейного тренда построенного на основе всей совокупности

8) Приведенная таблица используется при:

Периоды	Число наблюдений в совокупности	Остаточная сумма квадратов	Число параметров в уравнении	Число степеней свободы остаточной дисперсии
Первое уравнение	n₁	S¹_ост	m₁	n₁-m₁
Второе уравнение	n₂	S²_ост	m₂	n₂-m₂
Объединенное уравнение	n	S³_ост	m₃	n - m₃= =(n₁+n₂)-m₃