Фиктивные переменные в регрессионной модели 3 страница
Квартал | Y | X1 |
4,3 | 6,8 | |
2,8 | 0,1 | |
1,2 | 11,7 | |
4,2 | 5,1 | |
-3,2 | 4,6 | |
-4,2 | -8,9 | |
6,9 | 10,2 | |
6,4 | 5,1 | |
6,5 | 6,2 | |
9,4 | 1,2 | |
3,2 | -3,5 | |
-3,6 | -3,1 | |
6,2 | 4,2 | |
7,5 | 6,5 | |
12,3 | 5,6 |
Требуется:
1. Построить линейную регрессионную модель доходности акций компании, включив в нее в качестве фактора фактор времени. Оценить параметры этой модели.
2. Проверить статистическую значимость уравнения регрессии и его коэффициентов на уровне значимости a=0,05.
3. Проверить временной ряд остатков на наличие автокорреляции.
Решение
1. Регрессионная модель строится по временным рядам переменных, которые могут иметь свои тенденции. Для исключения «ложной» корреляции между переменными целесообразно номер квартала (первый столбец таблицы исходных данных) считать независимой переменной t.
Проверим факторы X1 и t на коллинеарность, для чего с помощью EXCEL строим матрицу парных коэффициентов корреляции (табл. 3.9).
Таблица | 3.9 |
Результаты корреляционного анализа в EXCEL |
Y | X1 | t | |
Y | |||
X1 | 0,490 | ||
t | 0,413 | -0,142 |
Коэффициент корреляции между Х1 и t не превышает по абсолютной величине 0,8, что свидетельствует об отсутствии коллинеарности. Поэтому можно попробовать построить двухфакторную модель (табл. 3.10).
Таблица | 3.10 |
Результаты регрессионного анализа в EXCEL |
Регрессионная статистика | |||||||||
Множественный R | 0,691 | ||||||||
R-квадрат | 0,478 | ||||||||
Нормированный R-квадрат | 0,391 | ||||||||
Стандартная ошибка | 3,75 | ||||||||
Наблюдения | |||||||||
Дисперсионный анализ | |||||||||
df | SS | MS | F | Значимость F | |||||
Регрессия | 154,0 | 77,0 | 5,49 | 0,0203 | |||||
Остаток | 168,4 | 14,0 | |||||||
Итого | 322,4 | ||||||||
Уравнение регрессии | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||
Y-пересечение | -1,94 | 2,23 | -0,872 | 0,400 | |||||
X1 | 0,495 | 0,186 | 2,658 | 0,021 | |||||
t | 0,528 | 0,226 | 2,336 | 0,038 | |||||
Уравнение регрессии имеет вид:
.
2. Коэффициент детерминации R2=0,478 показывает, что 47,8 % вариации годовой прибыли Y объясняется изменчивостью включенных в модель факторов X1 и t. Дисперсионный анализ уравнения регрессии свидетельствует о его статистической значимости в целом на уровне a=0,05. Статистически значимыми являются и коэффициенты уравнения при факторах Х1 и t (см. табл. 3.10).
Значение коэффициента при Х1, показывает, что при увеличении доходности рынка на 1 % доходность акций увеличивается в среднем на 0,495 %. Статистическая значимость коэффициента при факторе времени t свидетельствует о наличии тенденции во временном ряду переменной Y: воздействие всех факторов, кроме доходности рынка, на доходность акций приводит к ее среднему приросту за квартал на 0,528 %.
3. Проверим отсутствие автокорреляции во временном ряду остатков методом Дарбина–Уотсона. В табл. 3.11 приводятся временные ряды предсказанных уравнением регрессии значений результата Y, остатков и стандартизированных (стандартных) остатков (получены в EXCEL при проведении регрессионного анализа).
Предварительно проверим остатки на наличие выбросов. Видно, что ни один из стандартных остатков не превышает по абсолютной величинетабличное значение t-критерия Стьюдента для уровня значимости a=0,05 и числа степеней свободы остатка регрессии , которое составляет tтаб=2,179.
Таблица | 3.11 |
Вывод остатка |
Наблюдение | Предсказанное Y | Остатки | Стандартные остатки |
1,95 | 2,35 | 0,678 | |
-0,84 | 3,64 | 1,048 | |
5,43 | -4,23 | -1,220 | |
2,69 | 1,51 | 0,434 | |
2,98 | -6,18 | -1,781 | |
-3,17 | -1,03 | -0,296 | |
6,80 | 0,10 | 0,028 | |
4,81 | 1,59 | 0,459 | |
5,88 | 0,62 | 0,179 | |
3,94 | 5,46 | 1,576 | |
2,14 | 1,06 | 0,306 | |
2,87 | -6,47 | -1,864 | |
7,00 | -0,80 | -0,232 | |
8,67 | -1,17 | -0,337 | |
8,75 | 3,55 | 1,023 |
При расчете d‑статистики остатки остаются упорядоченными по времени. d‑статистика определяется с помощью выражения, приведенного в предыдущем примере. Она оказалась равной d=2,02. Критические значения d‑статистики для числа наблюдений n=15, числа факторов p=2 и уровня значимости a=0,05 составляют: d1=0,95; d2=1,54. Так как выполняется условие
,
статистическая гипотеза об отсутствии автокорреляции в остатках не отклоняется на уровне значимости a=0,05.
Автокорреляция возмущений модели, как указывалось в § 3.8, может быть вызвана и неправильным выбором формы регрессионной зависимости. Поэтому d‑статистику целесообразно рассчитать ипо ряду остатков, упорядоченному в зависимости от последовательно возрастающих значений Y, предсказанных уравнением регрессии. В этом случае d‑статистика будет равна d=1,90, и статистическая гипотеза об отсутствии автокорреляции в остатках также не отклоняется.
Пример 3.3
Имеется временной ряд прибыли предприятия за девять лет (переменная Y, млн. руб.):
Год | |||||||||
t | |||||||||
yt |
Требуется:
1. Построить трендовую линейную модель прогнозирования прибыли.
2. Проверить статистическую значимость уравнения регрессии и его коэффициентов на уровне значимости a=0,05.
3. Проверить временной ряд остатков на отсутствие выбросов, автокорреляции и соответствие нормальному закону распределения.
4. Оценить точность уравнения регрессии.
5. Спрогнозировать значение прибыли предприятия на 1 год вперед с надежностью 90 %.
Решение
1. Независимой переменной в трендовой модели является фактор времени t (здесь — номер года). Уравнение регрессии строим с помощью EXCEL (табл. 3.12). Оно имеет вид:
.
Таблица | 3.12 |
Результаты регрессионного анализа в EXCEL |
Регрессионная статистика | |||||||||
Множественный R | 0,940 | ||||||||
R-квадрат | 0,884 | ||||||||
Нормированный R-квадрат | 0,868 | ||||||||
Стандартная ошибка | 4,537 | ||||||||
Наблюдения | |||||||||
Дисперсионный анализ | |||||||||
df | SS | MS | F | Значимость F | |||||
Регрессия | 1100,8 | 1100,8 | 53,49 | 0,00016 | |||||
Остаток | 144,1 | 20,6 | |||||||
Итого | 1244,9 | ||||||||
Уравнение регрессии | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||
Y-пересечение | 34,47 | 3,30 | 10,459 | 1,590E-05 | |||||
t | 4,283 | 0,586 | 7,313 | 1,609E-04 | |||||
2. Уравнение регрессии статистически значимо на уровне a=0,05. Это свидетельствует о наличии наличие линейного тренда во временном ряду. Коэффициент детерминации R2=0,884 показывает, что изменение во времени прибыли предприятия на 88,4 % описывается линейной моделью. Статистически значимыми оказались и оба коэффициента уравнения регрессии. Коэффициент при факторе времени показывает, что за один год прибыль предприятия увеличивается в среднем на 4,283 млн. руб. (см. табл. 3.12).
3. При проведении регрессионного анализа в EXCEL были получены предсказанные уравнением регрессии значения Y, остатки и стандартные остатки (табл. 3.15).
Таблица | 3.13 |
Вывод остатка |
Наблюдение | Предсказанное Y | Остатки | Стандартные остатки |
38,76 | -1,76 | -0,414 | |
43,04 | -4,04 | -0,952 | |
47,32 | 6,68 | 1,574 | |
51,61 | 4,39 | 1,036 | |
55,89 | -1,89 | -0,445 | |
60,17 | -5,17 | -1,219 | |
64,46 | 3,54 | 0,835 | |
68,74 | -3,74 | -0,881 | |
73,02 | 1,98 | 0,466 |
Ни один из стандартных остатков не превышает по абсолютной величине табличное значение t-критерия Стьюдента tтаб=2,365 (a=0,05 и ), что свидетельствует об отсутствии аномальных наблюдений (выбросов).
d‑статистика Дарбина–Уотсона имеет значение d=2,34. Критические значения d‑статистики для числа наблюдений n=9 и уровня значимости a=0,05 составляют: d1=0,82; d2=1,32. Так как выполняется условие
,
то статистическая гипотеза об отсутствии автокорреляции в остатках не отклоняется на уровне значимости a=0,05.
R/S‑критерий определяется по формуле
,
где emax=6,68 млн. руб.; emin=–5,17 млн. руб. — наибольший и наименьший остатки соответственно; Se=4,24 млн. руб. — стандартное отклонение ряда остатков (определено с помощью встроенной функции «СТАНДОТКЛОН»).
Критические границы R/S-критерия для числа наблюдений n=9 и уровня значимости a=0,05 имеют значения: (R/S)1=2,59 и (R/S)2=3,55. Видно, что расчетное R/S-критерий попадает в интервал между критическими границами, и статистическая гипотеза о нормальном законе распределения остатков, таким образом, не отклоняется на уровне значимости a=0,05.
4. Оценим точность модели через стандартную ошибку регрессии Sрег=4,537 млн. руб. (см. табл. 3.12). Средняя относительная ошибка аппроксимации равна
%,
где млн. руб. — средний уровень временного ряда переменной Y.
Точность модели — достаточно высокая: предсказанные уравнением регрессии значения прибыли отличаются от фактических значений в среднем на 6,5 %.
5. Построим точечный и интервальный прогнозы прибыли предприятия на 1 год вперед (период упреждения k=1). Среднее прогнозируемое значение прибыли предприятия в следующем году составляет:
млн. руб.
Интервальный прогноз с доверительной вероятностью 0,9 имеет вид:
где tтаб=1,895 — табличное значение t-критерия Стьюдента для a=0,1 и .
С вероятностью 90 % фактическое значение прибыли предприятия в следующем году будет находиться в интервале от 66,67 (оптимистический прогноз) до 87,93 млн. руб. (пессимистический прогноз).
Пример 3.4
По тринадцати предприятиям ЖКХ города исследуется зависимость годовой прибыли (зависимая переменная Y, тыс. у.е.) от числа обслуживаемых участков (фактор X1), количества рабочих высокой квалификации (фактор X2, чел.) и формы собственности:
Номер предприятия | Y | X1 | X2 | Форма собственности |
частная | ||||
частная | ||||
муниципальная | ||||
муниципальная | ||||
муниципальная | ||||
муниципальная | ||||
частная | ||||
частная | ||||
частная | ||||
муниципальная | ||||
муниципальная | ||||
муниципальная | ||||
муниципальная |
Требуется:
1. Построить линейную регрессионную модель годовой прибыли предприятия. Оценить параметры модели.
2. Проверить статистическую значимость уравнения регрессии и его коэффициентов на уровне значимости a=0,05.
3. Установить, существенна ли разница в размере годовой прибыли муниципальных и частных предприятий.
Решение
1. Для учета формы собственности введем фиктивную бинарную переменную Z1. Предварительно предполагаем, что частные предприятия более эффективны и поэтому имеют при прочих равных условиях в среднем большую годовую прибыль, чем муниципальные. Поэтому фиктивной переменной Z1 присваиваем следующие значения: z1=1 — если предприятие частное и z1=0 — если муниципальное. Эти значения вносим в графу «Форма собственности» таблицы исходных данных вместо слов «частная» и «муниципальная» соответственно.
Для выявления коллинеарных факторов с помощью табличного процессора EXCEL была получена матрица парных коэффициентов корреляции между всеми переменными (табл. 3.14).
Таблица | 3.14 |
Результаты корреляционного анализа в EXCEL |
Y | X1 | X2 | Z1 | |
Y | ||||
X1 | 0,731 | |||
X2 | 0,455 | 0,239 | ||
Z1 | 0,656 | 0,505 | -0,075 |
Анализ коэффициентов корреляции между парами факторов Х1, Х2, Z1 показывает, что ни один из них не превышает по абсолютной величине 0,8. Коллинеарных факторов, таким образом, не выявлено.
Результаты регрессионного анализа в EXCEL приведены в табл. 3.15. Уравнение регрессии имеет вид:
.
2. Коэффициент детерминации R2=0,787 показывает, что 78,7 % вариации годовой прибыли Y объясняется изменчивостью включенных в модель факторов X1, X2 и Z1. Дисперсионный анализ уравнения регрессии показывает, что оно статистически значимо в целом на уровне a=0,05. Статистически значимыми являются коэффициенты при факторах Х2 и Z1. Хотя коэффициент при Х1 и оказался незначимым, его t-статистика превышает по абсолютной величине единицу, поэтому фактор Х1 можно оставить в модели (см. табл. 3.15).
Таблица | 3.15 |
Результаты регрессионного анализа в EXCEL |
Регрессионная статистика | |||||||||
Множественный R | 0,887 | ||||||||
R-квадрат | 0,787 | ||||||||
Нормированный R-квадрат | 0,716 | ||||||||
Стандартная ошибка | 83,1 | ||||||||
Наблюдения | |||||||||
Дисперсионный анализ | |||||||||
df | SS | MS | F | Значимость F | |||||
Регрессия | 229652,1 | 76550,7 | 11,08 | 0,00224 | |||||
Остаток | 62182,7 | 6909,2 | |||||||
Итого | 291834,8 | ||||||||
Уравнение регрессии | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||
Y-пересечение | 61,8 | 117,3 | 0,527 | 0,611 | |||||
X1 | 15,58 | 7,56 | 2,061 | 0,069 | |||||
X2 | 5,078 | 2,072 | 2,450 | 0,037 | |||||
Z1 | 150,9 | 56,5 | 2,672 | 0,026 | |||||
3. Значимость коэффициента при фиктивной переменной Z1 свидетельствует о том, что разница в прибыли частных и муниципальных предприятий существенна. Положительный знак коэффициента подтверждает наше предположение о том, что частные предприятия имеют в среднем большую годовую прибыль, чем муниципальные — на 150,9 тыс. у.е.
Значения коэффициентов уравнения регрессии при факторах Х1 и Х2 показывают, что каждый дополнительный обслуживаемый участок приносит предприятию в среднем 15,58 тыс. у.е. прибыли, а дополнительный рабочий высокой квалификации — в среднем 5,078 тыс. у.е.
Заметим, что если не учитывать различий, связанных с формой собственности, то это ухудшит качество регрессионной модели. Так уравнение регрессии без фиктивной переменной
имеет существенно меньший коэффициент детерминации — R2=0,618. Разница между скорректированными коэффициентами детерминации также значительная: 0,716 для модели с фиктивной переменной и 0,542 для модели без нее.
Пример 3.5
По торговой фирме исследуется влияние стажа работы в торговле (фактор X1, лет) и уровня образования менеджера по продаже на размер дохода от реализации товаров (зависимая переменная Y, млн. руб.), принесенного фирме за год. Имеются сведения по пятнадцати менеджерам:
Менеджер | Y | X1 | Образование |
1. Иванова | 44,3 | высшее | |
2. Петров | 14,3 | общее среднее | |
3. Кузнецов | 18,7 | среднее специальное | |
4. Светлова | 19,3 | общее среднее | |
5. Сидоренко | 36,2 | общее среднее | |
6. Калинин | 35,2 | среднее специальное | |
7. Крымова | 15,4 | общее среднее | |
8. Жуков | 40,3 | высшее | |
9. Баранова | 18,7 | общее среднее | |
10. Семенов | 24,2 | среднее специальное | |
11. Симонова | 63,2 | общее среднее | |
12. Москалев | 74,3 | высшее | |
13. Щукин | 63,5 | высшее | |
14. Теплова | 65,3 | среднее специальное | |
15. Сазонова | 75,5 | высшее |
Требуется:
1. Построить линейную регрессионную модель дохода менеджера. Оценить параметры модели.
2. Проверить статистическую значимость уравнения регрессии и его коэффициентов на уровне значимости a=0,05.
3. Установить, существенна ли разница в доходе менеджеров с разным уровнем образования.
Решение
1. Качественный фактор «Образование» имеет три градации (k=3): высшее, среднее специальное и общее среднее образование. Для содержательной интерпретации коэффициентов уравнения регрессии введем в модель бинарные переменные Z11 и Z12, принимающие значения: z11=1 — если менеджер имеет высшее образование, z11=0 — во всех остальных случаях; z12=1 — если менеджер имеет среднее специальное образование, z12=0 — во всех остальных случаях. Еслименеджер имеет общее среднее образование, то это будет отражено парой значений z11=0 и z12=0 (табл. 3.16).
В табл. 3.17 приводятся результаты корреляционного анализа в EXCEL. Анализ значений парных коэффициентов корреляции между факторами Х1, Z11, Z12 свидетельствует об отсутствии коллинеарности. Следовательно, можно попробовать построить модель линейной регрессии со всеми этими факторами.
Таблица | 3.16 |
Исходные данные с фиктивными переменными |
Менеджер | Y | X1 | Z11 | Z12 |
1. Иванова | 44,3 | |||
2. Петров | 14,3 | |||
3. Кузнецов | 18,7 | |||
4. Светлова | 19,3 | |||
5. Сидоренко | 36,2 | |||
6. Калинин | 35,2 | |||
7. Крымова | 15,4 | |||
8. Жуков | 40,3 | |||
9. Баранова | 18,7 | |||
10. Семенов | 24,2 | |||
11. Симонова | 63,2 | |||
12. Москалев | 74,3 | |||
13. Щукин | 63,5 | |||
14. Теплова | 65,3 | |||
15. Сазонова | 75,5 |
Таблица | 3.17 |
Результаты корреляционного анализа в EXCEL |
Y | X1 | Z11 | Z12 | |
Y | ||||
X1 | 0,810 | |||
Z11 | 0,619 | 0,410 | ||
Z12 | -0,131 | -0,150 | -0,426 |
Результаты регрессионного анализа в EXCEL приведены в табл. 3.18. Уравнение регрессии имеет вид: