Фиктивные переменные в регрессионной модели 4 страница
.
2. Коэффициент детерминации R2=0,772 показывает, что 77,2 % вариации годовой прибыли Y объясняется изменчивостью включенных в модель факторов X1, Z11 и Z12. Дисперсионный анализ уравнения регрессии показывает, что оно статистически значимо в целом на уровне a=0,05. Из коэффициентов уравнения регрессии при факторах статистически значимыми являются только коэффициенты при X1 и Z11 (см. табл. 3.18).
3. Значимость коэффициента при Z11 и незначимость коэффициента при Z12 свидетельствует о том, что существенная разница в доходе имеется только для менеджеров с высшим образованием. Более того, t-статистика коэффициента при Z12 меньше по абсолютной величине единицы. Поэтому фиктивную переменную Z12 следует исключить из модели, в результате чего в ней останется только одна фиктивная переменная — Z11 (z11=1 — если менеджер имеет высшее образование, z11=0 — во всех остальных случаях). Повторно проводим регрессионный анализ в EXCEL (табл. 3.19).
Таблица | 3.18 |
Результаты регрессионного анализа в EXCEL |
Регрессионная статистика | |||||||||
Множественный R | 0,879 | ||||||||
R-квадрат | 0,772 | ||||||||
Нормированный R-квадрат | 0,710 | ||||||||
Стандартная ошибка | 12,11 | ||||||||
Наблюдения | |||||||||
Дисперсионный анализ | |||||||||
df | SS | MS | F | Значимость F | |||||
Регрессия | 5457,1 | 1819,0 | 12,41 | 0,000748 | |||||
Остаток | 1612,7 | 146,6 | |||||||
Итого | 7069,8 | ||||||||
Уравнение регрессии | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||
Y-пересечение | -0,97 | 8,45 | -0,115 | 0,9103 | |||||
X1 | 5,96 | 1,42 | 4,203 | 0,0015 | |||||
Z11 | 18,81 | 7,95 | 2,366 | 0,0374 | |||||
Z12 | 7,01 | 7,82 | 0,896 | 0,3895 | |||||
Уравнение регрессии второй модели будет иметь вид:
.
Коэффициент детерминации R2=0,755 показывает, что 75,5 % вариации годовой прибыли Y объясняется изменчивостью включенных в модель факторов X1 и Z11. Скорректированный (нормированный) коэффициент детерминации второй модели выше, чем первой: 0,714 против 0,710, что указывает на обоснованность исключения из модели фиктивной переменной Z12.
Дисперсионный анализ второго уравнения регрессии показывает, что оно статистически значимо в целом на уровне a=0,05. Статистически значимы на уровне a=0,05 и коэффициенты уравнения регрессии при факторах X1, Z11 (см. табл. 3.19).
Значимость коэффициента при Z11 свидетельствует о том, что имеется существенная разница в годовом доходе, приносимом фирме менеджерами с высшим образованием. В среднем их объем реализации превышает этот показатель для менеджеров со средним образованием на 15,93 млн. руб. Что касается фактора X1, то значение коэффициента при нем показывает, что каждый дополнительный год работы менеджера в торговле способствует росту годового объема реализации в среднем на 6,00 млн. руб.
Таблица | 3.19 |
Результаты регрессионного анализа в EXCEL |
Регрессионная статистика | |||||||||
Множественный R | 0,869 | ||||||||
R-квадрат | 0,755 | ||||||||
Нормированный R-квадрат | 0,714 | ||||||||
Стандартная ошибка | 12,01 | ||||||||
Наблюдения | |||||||||
Дисперсионный анализ | |||||||||
df | SS | MS | F | Значимость F | |||||
Регрессия | 5339,4 | 2669,7 | 18,51 | 0,000215 | |||||
Остаток | 1730,4 | 144,2 | |||||||
Итого | 7069,8 | ||||||||
Уравнение регрессии | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||
Y-пересечение | 1,64 | 7,87 | 0,208 | 0,8384 | |||||
X1 | 6,00 | 1,41 | 4,268 | 0,0011 | |||||
Z11 | 15,93 | 7,21 | 2,209 | 0,0474 | |||||
Пример 3.6
Исследуются различия в средней стоимости квадратного метра общей площади квартиры (переменная Y, у.е.) в зависимости от района города (фиктивная переменная Z1: z1=1 — центральный район, z1=0 — периферийные районы), типа дома (фиктивная переменная Z2: z2=1 — кирпичный дом, z2=0 — панельный дом) и этажа (фиктивная переменная Z3: z3=1 — квартира расположена на средних этажах, z3=0 — квартира расположена на крайних этажах). Имеются данные по двадцати однородным квартирам:
Номер квартиры | Y | Z1 | Z2 | Z3 |
Требуется:
1. Построить линейную регрессионную модель стоимости квадратного метра квартиры. Оценить параметры модели.
2. Проверить статистическую значимость уравнения регрессии и его коэффициентов на уровне значимости a=0,05.
3. Установить, существенна ли разница в стоимости квадратного метра квартиры в зависимости от района города, типа дома и этажа.
Решение
1. Матрица парных коэффициентов корреляции между всеми исследуемыми переменными приведена в табл. 3.20. Ее анализ указывает на отсутствие коллинеарных факторов.
Таблица | 3.20 |
Результаты корреляционного анализа в EXCEL |
Y | Z1 | Z2 | Z3 | |
Y | ||||
Z1 | 0,592 | |||
Z2 | 0,451 | -0,010 | ||
Z3 | 0,235 | 0,101 | -0,101 |
Результаты регрессионного анализа приведены в табл. 3.21. Уравнение регрессии имеет вид:
.
2. Коэффициент детерминации R2=0,609 показывает, что 60,9 % вариации стоимости квадратного метра Y объясняется изменчивостью включенных в модель качественных факторов Z1, Z2 и Z3. Уравнение регрессии статистически значимо в целом на уровне a=0,05. Статистически значимыми являются и коэффициенты при фиктивных переменных Z1 и Z2. Коэффициент при Z3 оказался незначимым на уровне a=0,05. Однако его t-статистика превышает по абсолютной величине единицу, что позволяет считать фактор Z3 в некотором смысле информативным (см. табл. 3.21).
Таблица | 3.21 |
Результаты регрессионного анализа в EXCEL |
Регрессионная статистика | |||||||||
Множественный R | 0,780 | ||||||||
R-квадрат | 0,609 | ||||||||
Нормированный R-квадрат | 0,535 | ||||||||
Стандартная ошибка | 115,9 | ||||||||
Наблюдения | |||||||||
Дисперсионный анализ | |||||||||
df | SS | MS | F | Значимость F | |||||
Регрессия | 334288,3 | 111429,4 | 8,30 | 0,0015 | |||||
Остаток | 214890,7 | 13430,7 | |||||||
Итого | 549179,0 | ||||||||
Уравнение регрессии | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||
Y-пересечение | 517,2 | 49,7 | 10,414 | 1,56E-08 | |||||
Z1 | 191,2 | 52,4 | 3,653 | 0,002 | |||||
Z2 | 159,6 | 52,4 | 3,048 | 0,008 | |||||
Z3 | 74,7 | 52,4 | 1,427 | 0,173 | |||||
3. Значимость коэффициентов при Z1 и Z2 свидетельствует о том, что имеется существенная разница в стоимости квадратного метра квартиры в зависимости от района города и типа дома. При прочих равных условиях стоимость квадратного метра квартир, расположенных в центральном районе, в среднем на 191,2 у.е. выше, чем квартир в периферийных районах. В кирпичных домах стоимость квадратного метра больше в среднем на 159,6 у.е., чем в панельных.
Средняя стоимость квадратного метра квартиры, расположенной на одном из средних этажей, на 74,7 у.е. выше чем у квартир на крайних этажах, хотя данный вывод и не вполне надежен из-за статистической незначимости коэффициента при Z3.
Следует обратить внимание и на интерпретацию свободного коэффициента уравнения регрессии, который оказался статистически значимым (см. «Y‑пересечение» в табл. 3.21). Его значение показывает, что средняя стоимость квадратного метра квартиры на крайних этажах (z3=0) в панельном доме (z2=0), расположенном в периферийном районе города (z1=0) составляет 517,2 у.е.
Контрольные задания
В приведенных задачах там, где это специально не указано, уровень значимости принять равным a=0,05.
Задача 3.1
Исследуется зависимость курса доллара США от курсов евро, японской иены и английского фунта стерлингов. Имеются данные об официальных курсах валют, установленных Центральным Банком России, за двенадцать дней:
День | Доллар США (руб./долл.) | Евро (руб./евро) | Японская иена (руб./100 иен) | Английский фунт (руб./фунт) |
28,12 | 36,13 | 26,97 | 52,63 | |
28,18 | 35,97 | 26,80 | 52,32 | |
28,13 | 35,97 | 26,77 | 52,26 | |
28,08 | 36,00 | 26,63 | 52,28 | |
28,06 | 36,13 | 26,53 | 52,43 | |
28,03 | 36,28 | 26,70 | 52,58 | |
28,02 | 36,34 | 26,67 | 52,90 | |
28,00 | 36,47 | 26,63 | 52,99 | |
27,99 | 36,54 | 26,60 | 52,81 | |
27,93 | 36,50 | 26,50 | 52,89 | |
27,95 | 36,52 | 26,55 | 52,62 | |
27,97 | 36,54 | 26,52 | 52,67 |
Требуется:
1. Построить линейную регрессионную модель курса доллара США, не содержащую коллинеарных факторов. Оценить параметры модели.
2. Значимо ли статистически уравнение регрессии?
3. Изменение курсов каких валют существенно влияет на изменение курса доллара США?
4. Присутствует ли в остатках регрессии автокорреляция первого порядка?
5. Спрогнозировать с доверительной вероятностью 90 % курс доллара, если предполагается, что курсы евро, иены и фунта составят соответственно: 36,38 руб./евро; 26,65 руб./100 иен и 52,73 руб./фунт.
Задача 3.2
По одиннадцати металлообрабатывающим цехам машиностроительного предприятия изучается зависимость фактических затрат на 1 рубль валовой продукции от среднего уровня производительности труда (отношение объема продукции в денежном выражении к затратам труда на ее изготовление) и средней энергоотдачи(отношение объема продукции в денежном выражении к затратам электроэнергии на ее изготовление). Имеются данные за один квартал:
№ цеха | Затраты на 1 рубль валовой продукции (руб.) | Уровень производительности труда (руб./чел.‑ч) | Энергоотдача (руб./кВт×ч) |
0,38 | |||
0,53 | |||
0,49 | |||
0,35 | |||
0,23 | |||
0,52 | |||
0,44 | |||
0,34 | |||
0,42 | |||
0,48 | |||
0,53 |
Требуется:
1. Построить все возможные линейные регрессионные модели затрат, оценить параметры моделей и выбрать наиболее точную из них в качестве лучшей.
2. Приемлема ли точность лучшей модели?
3. Значимо ли статистически уравнение регрессии лучшей модели?
4. По лучшей модели спрогнозировать с доверительной вероятностью 80 % затраты на 1 рубль валовой продукции, если прогнозные значения факторов на 25 % превышают свои средние значения.
Задача 3.3
По заводу безалкогольных напитков изучается зависимость месячного объема реализованной продукции от затрат в предыдущем месяце на теле-, радио-, газетную и наружную рекламу. Имеются данные за двенадцать месяцев:
Месяц | Объем реализации (тыс. руб.) | Затраты на рекламу (тыс. руб.) | |||
телерекламу | радиорекламу | газетную рекламу | наружную рекламу | ||
Требуется:
1. Построить линейную регрессионную модель объема реализованной продукции, не содержащую коллинеарных факторов. Оценить параметры модели.
2. Присутствует ли в остатках регрессии автокорреляция первого порядка?
3. Как влияет на изменение объема реализованной продукции изменение затрат на каждый вид рекламы?
4. Изменение затрат на какой вид рекламы сильнее всего влияет на изменение объема реализованной продукции?
Задача 3.4
По хлебобулочному предприятию исследуется зависимость месячного объема реализованной продукции от затрат в предыдущем месяце на теле-, радио-, газетную и наружную рекламу. Имеются данные за двенадцать месяцев:
Месяц | Объем реализованной продукции (тыс. руб.) | Затраты на рекламу (тыс. руб.) | |||
телерекламу | радиорекламу | газетную рекламу | наружную рекламу | ||
Требуется:
1. Построить линейную регрессионную модель объема реализованной продукции, не содержащую коллинеарных факторов. Оценить параметры модели.
2. Какая доля вариации объема реализованной продукции объясняется вариацией факторов, включенных в модель регрессии?
3. Присутствует ли в остатках регрессии автокорреляция первого порядка?
4. Приемлема ли точность регрессионной модели?
5. Спрогнозировать среднее значение объема реализованной продукции, если прогнозные значения факторов на 25 % превышают свои средние значения.
Задача 3.5
По четырнадцати страховым компаниям исследуется зависимость месячной прибыли от численности страховых агентов, затрат на рекламу и расположения офиса компании (центральный или периферийный районы города):
№ компании | Прибыль (тыс. руб.) | Численность страховых агентов (чел.) | Затраты на рекламу (тыс. руб.) | Район расположения |
периферийный | ||||
центральный | ||||
периферийный | ||||
периферийный | ||||
периферийный | ||||
периферийный | ||||
центральный | ||||
периферийный | ||||
центральный | ||||
периферийный | ||||
периферийный | ||||
периферийный | ||||
периферийный | ||||
центральный |
Требуется:
1. Построить линейную регрессионную модель прибыли страховой компании, не содержащую коллинеарных факторов. Оценить параметры модели.
2. Значимо ли статистически уравнение регрессии?
3. Имеют ли остатки регрессии одинаковую дисперсию?
4. Существенна ли разница в прибыли компаний, офисы которых расположены в центральном и периферийных районах города?
5. Спрогнозировать среднюю месячную прибыль страховой компании, если прогнозные значения факторов равны своим средним значениям, а офис расположен: а) в центре города; б) на окраине.
Задача 3.6
Исследуется зависимость цены системного блока компьютера от тактовой частоты процессора, размера оперативной памяти и наличия DVD-накопителя. Имеются данные по тринадцати компьютерам:
№ компьютера | Цена системного блока (руб.) | Тактовая частота процессора (МГц) | Оперативная память (Мбайт) | DVD-накопитель |
отсутствует | ||||
имеется | ||||
отсутствует | ||||
отсутствует | ||||
имеется | ||||
отсутствует | ||||
отсутствует | ||||
имеется | ||||
отсутствует | ||||
имеется | ||||
отсутствует | ||||
отсутствует | ||||
отсутствует |
Требуется:
1. Построить линейную регрессионную модель цены системного блока, не содержащую коллинеарных факторов. Оценить параметры модели.
2. Какая доля вариации цены системного блока объясняется вариацией факторов, включенных в модель регрессии?
3. Имеют ли остатки регрессии одинаковую дисперсию?
4. Существенно ли влияет на цену системного блока тактовая частота процессора, размер оперативной памяти, наличие или отсутствие DVD-накопителя? Дать количественные соотношения.
5. Спрогнозировать среднюю стоимость системного блока, если тактовая частота процессора составляет 3000 МГц, оперативная память — 256 Мбайт, а DVD-накопитель: а) имеется; б) отсутствует.
Задача 3.7
Исследуется зависимость цены квартиры от размера ее общей площади, типа дома (кирпичный или панельный) и этажа, на котором расположена квартира (средний или крайний). Имеются данные по шестнадцати квартирам в домах, расположенных в одном и том же районе города:
№ квартиры | Цена квартиры (долл. США) | Общая площадь (м2) | Тип дома | Этаж |
панельный | крайний | |||
кирпичный | крайний | |||
кирпичный | крайний | |||
панельный | крайний | |||
кирпичный | средний | |||
кирпичный | крайний | |||
кирпичный | крайний | |||
панельный | средний | |||
кирпичный | крайний | |||
кирпичный | средний | |||
кирпичный | крайний | |||
панельный | крайний | |||
кирпичный | средний | |||
кирпичный | средний | |||
кирпичный | средний | |||
панельный | крайний |
Требуется:
1. Построить линейную регрессионную модель цены квартиры, не содержащую коллинеарных факторов. Оценить параметры модели.
2. Какая доля вариации цены квартиры объясняется вариацией факторов, включенных в модель регрессии?
3. Имеют ли остатки регрессии одинаковую дисперсию?
4. Что сильнее влияет на изменение цены квартиры — тип дома или этаж, на котором она расположена?
5. Спрогнозировать среднюю цену квартиры общей площадью 80 м2, расположенной в панельном доме на одном из крайних этажей.
Задача 3.8
Строится модель цены автомобиля на вторичном рынке в зависимости от пробега, срока эксплуатации и объема двигателя. Имеются данные по пятнадцати автомобилям одной и той же модели:
№ автомобиля | Цена автомобиля (долл. США) | Пробег (тыс. км) | Срок эксплуатации (лет) | Объем двигателя (л) |
2,3 | ||||
1,9 | ||||
1,8 | ||||
2,1 | ||||
2,6 | ||||
1,7 | ||||
2,4 | ||||
1,9 | ||||
1,9 | ||||
1,7 | ||||
2,2 | ||||
2,4 | ||||
2,3 | ||||
2,5 | ||||
2,6 |
Требуется: