Фиктивные переменные в регрессионной модели 2 страница

3. Как было показано в пункте 1, факторы Х₁ и Х₃ являются коллинеарными и фактически дублируют друг друга. Их одновременное включение в модель приведет к неправильной интерпретации соответствующих коэффициентов уравнения регрессии. Поэтому модель с полным перечнем факторов, построенная при выполнении предыдущего пункта, не вполне корректна. Из указанных коллинеарных факторов фактор Х₃ имеет больший по абсолютной величине коэффициент корреляции с результатом Y: Фиктивные переменные в регрессионной модели 2 страница - student2.ru ; ; (см. табл. 3.3). Кроме того, в уравнении регрессии с полным перечнем факторов t‑статистика коэффициента при факторе Х₃ ( Фиктивные переменные в регрессионной модели 2 страница - student2.ru ) больше по абсолютной величине t-статистики коэффициента при факторе Х₁ ( ). Все это свидетельствует о более сильном влиянии фактора Х₃ на изменение зависимой переменной Y. Фактор Х₁, таким образом, исключается из рассмотрения и вторая модель будет содержать факторы X₂, X₃, X₄, X₅ и X₆. По аналогии с пунктом 2 строим второе уравнение регрессии (табл. 3.5):

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Уравнение регрессии признается статистически значимым, так как вероятность его случайного формирования (8,80×10^-6) существенно ниже принятого уровня значимости a=0,05. Вероятности случайного формирования коэффициентов при факторах Х₃, Х₄, Х₆ ниже уровня a=0,05, что свидетельствует об их статистической значимости (см. табл. 3.5). Что касается факторов Х₂ и Х₅ (выделены в табл. 3.5 заливкой), то «P‑Значение» их коэффициентов выше уровня a=0,05. Эти коэффициенты не признаются значимыми.

Таблица	3.5
Результаты регрессионного анализа модели Y(X₂, X₃, X₄, X₅, X₆)

Регрессионная статистика
Множественный R	0,868
R-квадрат	0,753
Нормированный R-квадрат	0,694
Стандартная ошибка	242,3
Наблюдения
Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия		3749838,2	749967,6	12,78	8,80E-06
Остаток		1232466,8	58688,9
Итого		4982305,0
Уравнение регрессии
	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	487,5	641,4	0,760	0,456
X2	-0,0456	0,0373	-1,224	0,235
X3	0,1043	0,0194	5,375	0,00002
X4	-0,0965	0,0263	-3,674	0,001
X5	2,528	6,323	0,400	0,693
X6	248,2	113,0	2,197	0,039

4. По результатам выполнения предыдущего пункта строим новую регрессионную модель, содержащую только информативные факторы. Такими факторами считаются те, у коэффициентов которых t‑статистика превышает по абсолютной величине единицу, т.е. абсолютная величина коэффициента больше его стандартной ошибки — факторы X₂, Х₃, Х₄, Х₆. Фактор X₅ исключается из рассмотрения как неинформативный ( Фиктивные переменные в регрессионной модели 2 страница - student2.ru ). Результаты регрессионного анализа приведены в табл. 3.6. Само уравнение регрессии имеет вид:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Статистически значимыми являются уравнение регрессии в целом и коэффициенты при факторах Х₃, Х₄, Х₆ (см. табл. 3.6). Это свидетельствует о существенном влиянии данных факторов на изменение годовой прибыли Y.

Коэффициент при факторе Х₂ не является статистически значимым (выделен в табл. 3.6 заливкой). Однако этот фактор можно считать информативным, так как t‑статистика его коэффициента превышает по абсолютной величине единицу, хотя к дальнейшим выводам относительно Х₂ следует относиться с некоторой осторожностью.

Таблица	3.6
Результаты регрессионного анализа модели Y(X₂, X₃, X₄, X₆)

Регрессионная статистика
Множественный R	0,866
R-квадрат	0,751
Нормированный R-квадрат	0,705
Стандартная ошибка	237,6
Наблюдения
Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия		3740456,2	935114,1	16,57	2,14E-06
Остаток		1241848,7	56447,7
Итого		4982305,0
Уравнение регрессии
	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	712,2	303,0	2,351	0,028
X2	-0,0541	0,0300	-1,806	0,085
X3	0,1032	0,0188	5,476	0,00002
X4	-0,1017	0,0223	-4,560	0,00015
X6	227,5	98,5	2,310	0,031

5. В таблице результатов регрессионного анализа имеются и другие статистические характеристики уравнения регрессия, в частности, множественный коэффициент детерминации Фиктивные переменные в регрессионной модели 2 страница - student2.ru , скорректированный (нормированный) коэффициент детерминации и стандартная ошибка регрессии тыс. руб. (см. «Регрессионную статистику» в табл. 3.6).

Значение коэффициента детерминации R² показывает, что регрессионная модель объясняет 75,1 % вариации годовой прибыли Y страховой компании, причем эта вариация обусловлена изменчивостью включенных в модель факторов X₂, X₃, X₄ и X₆. Скорректированный коэффициент детерминации Фиктивные переменные в регрессионной модели 2 страница - student2.ru превышает 0,5, что свидетельствует об удовлетворительном качестве модели.

Оценим точность уравнения регрессии через среднюю относительную ошибку аппроксимации, определяемую по приближенной формуле

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ,

где Фиктивные переменные в регрессионной модели 2 страница - student2.ru тыс. руб. — среднее значение прибыли (функция «СРЗНАЧ»).

Значение Е_отн показывает, что предсказанные уравнением регрессии значения результата Y отличаются от фактических значений в среднем на 26,7 %. Точность последней модели — удовлетворительная ( Фиктивные переменные в регрессионной модели 2 страница - student2.ru ).

6. Дадим экономическую интерпретацию коэффициентам уравнения регрессии. Для удобства сведем в таблицу средние значения и стандартные отклонения переменных Y, X₂, X₃, X₄, X₆ в исходных данных (табл. 3.7). Средние значения определялись с помощью встроенной функции «СРЗНАЧ», а стандартные отклонения — с помощью функции «СТАНДОТКЛОН».

Таблица	3.7
Средние значения и стандартные отклонения переменных Y, X₂, X₃, X₄, X₆

Переменная	Y	X₂	X₃	X₄	X₆
Среднее	713,0	5980,6	7334,0	5327,6	0,481
Стандартное отклонение	437,8	1575,7	2671,9	2120,5	0,509

1) Фактор X₂ (годовой размер страховых резервов)

Значение коэффициента b₂=–0,0541 показывает, что рост годового размера страховых резервов на 1 тыс. руб. приводит к снижению годовой прибыли страховой компании в среднем на 0,0541 тыс. руб.

Средний коэффициент эластичности фактораX₂ имеет значение

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Это означает, что при увеличении годового размера страховых резервов на 1 % годовая прибыль уменьшается в среднем на 0,454 %.

2) Фактор X₃ (годовой размер страховых премий)

Коэффициент b₃=0,1032 показывает, что рост годового размера страховых премий на 1 тыс. руб. приводит к увеличению годовой прибыли в среднем на 0,1032 тыс. руб.

Средний коэффициент эластичности

Фиктивные переменные в регрессионной модели 2 страница - student2.ru

показывает, что при увеличении годового размера страховых премий на 1 % годовая прибыль увеличивается в среднем на 1,062 %.

3) Фактор X₄ (годовой размер страховых выплат)

Значение коэффициента b₄=–0,1017 показывает, что рост годового размера страховых выплат на 1 тыс. руб. приводит к уменьшению годовой прибыли в среднем на 0,1017 тыс. руб.

Средний коэффициент эластичности фактораX₄ равен

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Значение E₄ показывает, что при увеличении годового размера страховых выплат на 1 % годовая прибыль уменьшается в среднем на 0,760 %.

4) Фактор X₆ (форма собственности)

Коэффициент b₆=227,5 тыс. руб. при фиктивной переменной X₆ (форма собственности: 0 — государственная, 1 — частная) статистически значим на уровне значимости a=0,05. Это свидетельствует о существенной разнице в размере годовой прибыли государственных и частных компаний. В среднем годовая прибыль у частных компаний при прочих равных условиях на 227,5 тыс. руб. больше, чем у государственных. Средний коэффициент эластичности для фиктивной переменной лишен смысла, поэтому и не рассчитывается.

Сравним между собой силу влияния включенных в модель факторов на годовую прибыль, для чего определим их бета–коэффициенты:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ;

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Сравнивая их по абсолютной величине, можно сделать вывод, что на изменение годовой прибыли Y сильнее всего влияет изменение годового размера страховых премий Х₃, далее по степени влияния следуют годовой размер страховых выплат Х₄, форма собственности X₆ и размер страховых резервов X₂.

Определим квадраты бета-коэффициентов:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ;

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Они показывают, что чистая вариация только годового размера страховых резервов X₂ объясняет 3,8 % вариации годовой прибыли Y, чистая вариация годового размера страховых премий Х₃ — 39,7 % вариации Y, а чистая вариация годового размера страховых выплат Х₄ — 24,3 % вариации Y. Форма собственности объясняет 6,9 % вариации годовой прибыли Y.

Определим дельта–коэффициенты факторов:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ;

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ,

где Фиктивные переменные в регрессионной модели 2 страница - student2.ru ; ; ; — парные коэффициенты корреляции между переменными (см. табл. 3.3).

Сумма дельта-коэффициентов факторов, включенных в модель должна быть равна единице. Небольшое неравенство вызвано погрешностями промежуточных округлений. Таким образом, в суммарном влиянии на годовую прибыль Y всех факторов, включенных в модель, доля влияния годового размера страховых резервов X₂ составляет 7,1 %, размера страховых премий Х₃ — 51,2 %, размера страховых выплат Х₄ — 37,5 %, формы собственности Х₆ — 4,1 %.

7. При проведении регрессионного анализа в EXCEL можно получить предсказанные уравнением регрессии значения результата Y, остатки и стандартизированные (стандартные) остатки (табл. 3.8).

Таблица	3.8
Вывод остатка

Наблюдение	Предсказанное Y	Остатки	Стандартные остатки
	1442,3	-430,3	-1,969
	547,6	-85,6	-0,392
	1827,0	219,0	1,002
	505,7	22,3	0,102
	500,0	-82,0	-0,375
	668,1	145,9	0,667
	503,3	24,7	0,113
	723,2	178,8	0,818
	527,4	-32,4	-0,148
	529,3	-23,3	-0,107
	704,6	10,4	0,048
	439,0	-120,0	-0,549
	544,6	-170,6	-0,781
	1060,2	-334,2	-1,529
	929,4	104,6	0,479
	773,5	-289,5	-1,325
	1509,3	558,7	2,556
	446,0	104,0	0,476
	725,8	-285,8	-1,308
	666,5	169,5	0,776
	501,7	48,3	0,221
	758,5	165,5	0,757
	155,9	361,1	1,652
	710,3	-182,3	-0,834
	925,4	-188,4	-0,862
	184,5	156,5	0,716
	440,9	-44,9	-0,206

На рис. 3.6 показан график остатков e_i от предсказанных уравнением регрессии значений результата Фиктивные переменные в регрессионной модели 2 страница - student2.ru (i=1, 2, …, n), построенный с помощью надстройки «Мастер диаграмма» EXCEL (см. § 5.1).

Фиктивные переменные в регрессионной модели 2 страница - student2.ru

рис. 3.6. График остатков

Проверим выполнение предпосылок метода наименьших квадратов.

1) Случайный характер остатков. Проверим исходные данные на наличие аномальных наблюдений годовой прибыли Y (выбросов). С этой целю сравним абсолютные величиныстандартных остатковс табличным значением t-критерия Стьюдента для уровня значимости a=0,05 и числа степеней свободы остатка регрессии Фиктивные переменные в регрессионной модели 2 страница - student2.ru , которое составляет t_таб=2,074.

Видно, что только стандартный остаток, соответствующий наблюдению 17 (компания «С») превышает по абсолютной величинетабличное значение t‑критерия. Вполне возможно, что это наблюдение является выбросом, и следовало бы попробовать построить модель регрессии без этого наблюдения.

Визуальный анализ графика остатков не выявляет в них какой-либо явной закономерности.

2) Нулевая средняя величина остатков. Данная предпосылка всегда выполняется для линейных моделей со свободным коэффициентом b₀, параметры которых оцениваются обычным методом наименьших квадратов.

3) Одинаковая дисперсия (гомоскедастичность) остатков. Выполнение данной предпосылки проверим методом Глейзера в предположении линейной зависимости среднего квадратического отклонения возмущений s(e_i) от предсказанных уравнением регрессии значений результата Фиктивные переменные в регрессионной модели 2 страница - student2.ru (i=1, 2, …, n). Для этого рассчитаем коэффициент корреляции между абсолютными величинами остатков и значениями Фиктивные переменные в регрессионной модели 2 страница - student2.ru (i=1, 2, …, n) с помощью выражения, составленного из встроенных функций:

=КОРРЕЛ(ABS(Остатки);Предсказанное_Y)

Этот коэффициент корреляции оказался равным Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Критическое значение коэффициента корреляции для уровня значимости a=0,05 и числа степеней свободы Фиктивные переменные в регрессионной модели 2 страница - student2.ru составляет r_кр=0,381. Видно, что коэффициент корреляции превышает по абсолютной величине критическое значение, и статистическая гипотеза об одинаковой дисперсии остатков отклоняется на уровне значимости a=0,05. Положительное значение коэффициента корреляции указывает на то, что годовая прибыль более крупных компаний имеет существенно большую вариацию.

Невыполнение предпосылки об одинаковой дисперсии остатков свидетельствует о том, что данная модель не вполне адекватна, а оценки параметров модели обычным методом наименьших квадратов могут не быть эффективными. Вполне возможно, что если из исходных данных удалить наблюдение 17, которое, как указывалось выше, может быть выбросом, то предпосылка будет выполнена (попробуйте проверить это самостоятельно).=).

4) Отсутствие автокорреляции остатков.Выполнение данной предпосылки проверим методом Дарбина–Уотсона. Предварительно ряд остатков на рабочем листе EXCEL упорядочивается в зависимости от последовательно возрастающих значений Y, предсказанных уравнением регрессии. Для этой цели в «Выводе остатка» выделяется любая ячейка в столбце «Предсказанное Y», и на панели инструментов нажимается кнопка «Сортировка по возрастанию».

Для расчета d‑статистики используется выражение, составленное из встроенных функций «СУММКВРАЗН» и «СУММКВ»:

=СУММКВРАЗН(«Остатки 2, …, n»;«Остатки 1, …, n–1»)/СУММКВ(«Остатки 1, …, n»)

В результате получим d=2,01. Критические границы d‑статистики для числа наблюдений n=27, числа факторов p=4 и уровня значимости a=0,05 составляют: d₁=1,08; d₂=1,76. Так как выполняется условие

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ,

статистическая гипотеза об отсутствии автокорреляции в остатках не отклоняется на уровне значимости a=0,05.

Проверим отсутствие автокорреляции в остатках также и по коэффициенту автокорреляции остатков первого порядка, для расчета которого в EXCEL может использоваться следующее выражение:

=СУММПРОИЗВ(«Остатки 2,…, n»;«Остатки 1,…, n–1»)/СУММКВ(«Остатки 1, …, n»)

Ряд остатков упорядочен в той же самой последовательности, что и при расчете d‑статистики. Коэффициент автокорреляции остатков первого порядка равен r₍₁₎=–0,078. Критическое значение коэффициента автокорреляции для числа наблюдений n=27 и уровня значимости a=0,05 составляет r_(1)кр=0,381. Так как r₍₁₎ не превышает по абсолютной величине критическое значение, то это еще раз указывает на отсутствие автокорреляции в остатках.

5) Нормальный закон распределения остатков. Выполнение этой предпосылки проверяем с помощью R/S-критерия

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ,

где e_max=558,7 тыс. руб.; e_min=–430,3 тыс. руб. — наибольший и наименьший остатки соответственно (определялись с помощью встроенных функций «МАКС» и «МИН»); S_e=218,5 тыс. руб. — стандартное отклонение ряда остатков (определено с помощью встроенной функции «СТАНДОТКЛОН»).

Критические границы R/S-критерия для числа наблюдений n=27 и уровня значимости a=0,05 имеют значения: (R/S)₁=3,34 и (R/S)₂=4,71. Так как R/S‑критерий попадает в интервал между критическими границами, то это означает, что статистическая гипотеза о нормальном законе распределения остатков не отклоняется на уровне значимости a=0,05.

Таким образом, выполняются четыре из пяти предпосылок обычного метода наименьших квадратов. Это говорит о том, что регрессионная модель не вполне адекватна исследуемому экономическому явлению, и использовать ее для целей анализа и прогнозирования годовой прибыли страховой компании следует с некоторой долей осторожности.

8. Рассчитаем прогнозное значение годовой прибыли, если прогнозные значения факторов составят 75 % от своих максимальных значений в исходных данных. Максимальные значения определяем с помощью встроенной функции EXCEL «МАКС». Прогнозные значения рассчитываем только для количественных факторов X₂, X₃, X₄:

· фактор Х₂: Фиктивные переменные в регрессионной модели 2 страница - student2.ru тыс. руб.;

· фактор Х₃: Фиктивные переменные в регрессионной модели 2 страница - student2.ru тыс. руб.;

· фактор Х₄: Фиктивные переменные в регрессионной модели 2 страница - student2.ru тыс. руб.

Среднее прогнозируемое значение годовой прибыли государственных компаний (x₀₆=0) равно:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru

Для частных компаний (x₀₆=1) этот показатель равен

Фиктивные переменные в регрессионной модели 2 страница - student2.ru

9. Построим доверительный интервал прогноза фактического значения годовой прибылиc надежностью 80 %.

Стандартная ошибка прогноза фактического значения годовой прибыли y₀ для определенных в предыдущем пункте прогнозных значений факторов рассчитывается по формуле

Фиктивные переменные в регрессионной модели 2 страница - student2.ru .

Так как фиктивная переменная Х₆ может принимать два значения — 0 или 1, то Фиктивные переменные в регрессионной модели 2 страница - student2.ru определим для обоих случаев:

– для государственных компаний (x₀₆=0):

Фиктивные переменные в регрессионной модели 2 страница - student2.ru

– для частных компаний (x₀₆=1):

Фиктивные переменные в регрессионной модели 2 страница - student2.ru

Построим доверительные интервалы прогноза фактического значения результата y₀ с доверительной вероятностью g=0,8 (уровень значимости a=0,2):

Фиктивные переменные в регрессионной модели 2 страница - student2.ru ,

где t_таб — табличное значение t-критерия Стьюдента при уровне значимости a=0,2 и числе степеней свободы Фиктивные переменные в регрессионной модели 2 страница - student2.ru составляет t_таб=1,321.

Интервальный прогноз для государственных компаний имеет вид:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru тыс. руб.

Таким образом, с вероятностью 80 % годовая прибыль государственных компаний будет находиться в интервале от 272,4 до 945,4 тыс. руб.

Для частных компаний интервальный прогноз:

Фиктивные переменные в регрессионной модели 2 страница - student2.ru тыс. руб.

С вероятностью 80 % годовая прибыль частных компаний будет находиться в интервале от 499,1 до 1173,7 тыс. руб.

Пример 3.2

Исследуется зависимость доходности акций компании (зависимая переменная Y, %) от доходности рынка (фактор X₁, %). Имеются данные за пятнадцать кварталов:

Наши рекомендации

Фиктивные переменные в регрессионной модели 1 страница

Фиктивные переменные в регрессионной модели 5 страница

Фиктивные переменные в регрессионной модели 4 страница

Фиктивные переменные в регрессионной модели 3 страница

Фиктивные переменные в регрессионной модели 6 страница

Фиктивные переменные в регрессионной модели 7 страница

Регрессионные модели с переменной структурой (фиктивные переменные)

Замещающие переменные. Фиктивные переменные

Тема 16. Фиктивные переменные в модели множественной регрессии

← Предыдущая страница | Следующая страница →