Лабораторна робота: Dummy-змінні
Освоїти загальну методику введення dummy-змінних для обліку в регресійній моделі якісних факторів.
Dummy у перекладі – макет, і деякі автори вживають словосполучення “макетні змінні”, але частіше використовується неправильна термінологія “фіктивні змінні”. Фіктивною є “змінна” Х0 º 1, яку вводять, щоб у матричній формі врахувати в моделі наявність вільного члена. На відміну від Х0, dummy-змінні дійсно варіюють і тому не повинні називатися “фіктивними”. Найбільш близьким за змістом є назва “індикаторні змінні”.
Dummy-змінні призначені для обліку в моделі якісних ознак, які вимірюються в так званій шкалі імен і не можуть бути охарактеризовані одним числом. Різні рівні якісної ознаки прийнято називати “категоріями”. Приклади: стать – чоловіча або жіноча, стан економіки – до нафтової кризи або пізніше, сезон – зимовий, весняний, літній, осінній, тощо.
Уявимо, треба врахувати якісну ознаку, що має кілька різних категорій. Вводимо таку ж кількість dummy-змінних, кожна з яких дорівнює одиниці для спостережень конкретної категорії і нулю – для всіх інших категорій. У сумі всі dummy-змінні утворять Х0 º 1, тому не можна включати в модель одразу всі dummy-змінні (або ж не треба включати в модель вільний член). Звичайно одну з категорій вибирають як еталон і у модель не включають еталонну dummy-змінну. У результаті одержують модель для еталонної категорії з виправленнями на усі інші категорії. Значимості цих виправлень за критерієм Ст’юдента є значимостями відмінностей кожної категорії від еталонної.
В розглянутому нижче прикладі (витрати на газ і електроенергію в США за 1977–1982 р.) вивчається типова ситуація, коли, бажаючи збільшити обсяг вибірки, замість середньорічних використали квартальні дані. Хоча вибірка при цьому збільшилася в чотири рази, значимість моделі різко знизилася, а коефіцієнт детермінації впав майже до нуля. Причина виявилася в тому, що при переході до квартальних даних були привнесені сезонні коливання, на інтенсивному фоні яких зовсім втратився досліджуваний ефект – часовий лінійний тренд. Тому для обліку різниці за кварталами варто ввести чотири додаткові “індикаторні” змінні: Z1 = 1 – для 1-го кварталу і Z1 = 0 – для всіх інших кварталів; Z2 = 1 – для 2-го кварталу і Z2 = 0 – для всіх інших кварталів; Z3 = 1 – для 3-го кварталу і Z3 = 0 – для всіх інших кварталів; Z4 = 1 – для 4-го кварталу і Z4 = 0 – для всіх інших кварталів. Якщо за еталон прийняти 1-й квартал, то змінну Z1 не слід включати в модель. У результаті розрахунків буде отримане рівняння регресії для еталонної категорії з виправленнями до вільного члена для інших категорій. Можна підключити в модель одразу всі dummy-змінні, але тоді з моделі треба виключити вільний член. У результаті таких розрахунків будуть отримані рівняння регресії для кожної категорії окремо, будуть правильно підраховані всі статистичні характеристики, за винятком статистики Фішера, яка буде занижена в (m+1)/m = 5/4 разів. При цих різних підходах за критерієм Ст’юдента оцінюються різні ефекти якісного фактору. За другою методикою оцінюється значимість ефекту кожної категорії, а по першою (що рекомендується) – значимість розходжень кожної категорії від еталонної.
Зараз неявно передбачається, що для кожної сукупності даних (для кожної категорії) зберігаються незмінними усі закономірності в залежностях від кількісних змінних, а вплив якісної ознаки проявляється тільки у виправленнях довільного члена. Бувають і більш складні ситуації, коли для різних категорій виявляються різними ефекти кількісних факторів. Тоді в моделі слід враховувати також члени із взаємодією.
Роботу виконуємо в наступному порядку.
а) до таблиці вихідних даних (стовпці Т та Y) додаємо стовпці індикаторних змінних Z1, Z2, Z3, Z4;
б) за допомогою функції ЛИНЕЙН розраховуємо параметри лінійної моделі
Yp = (b0 + b2*Z2 + b3*Z3 + b4*Z4) + b5*T (1-й квартал – еталон);
г) обчислюємо розрахункові значення (стовпець Yp);
д) будуємо графіки залежності спостережуваних і розрахункових значень;
е) відбіраємо з таблиці вибірки, що відносяться до різних кварталів;
ж) додаємо на графіку лінії регресії для кожного кварталу.
A | B | C | D | E | F | G | H | I | J | K | |
Робота № 9. Dummy – змінні 1 | |||||||||||
T - Номер кварталу, починаючи з 1977 по 1982 включно | |||||||||||
Y - витрати на газ і електроенергію в США, млрд доларів | |||||||||||
Z1=1 для кварталу I, і Z1=0 для інших кварталів (еталон) | |||||||||||
Z2=1 для кварталу II, і Z2=0 для інших кварталів | |||||||||||
Z3=1 для кварталу III, і Z3=0 для інших кварталів | |||||||||||
Z4=1 для кварталу IV, і Z4=0 для інших кварталів | Критерії відбору | ||||||||||
Z1 | Z2 | Z3 | Z4 | T | Y | Yp | Z1 | Z2 | Z3 | Z4 | |
7,33 | 7,5141 | ||||||||||
4,7 | 4,7691 | ||||||||||
5,1 | 4,9991 | 1-й квартал | 2-й квартал | ||||||||
5,46 | 5,4158 | T | Yp | T | Yp | ||||||
7,65 | 7,6405 | 7,5141 | 4,7691 | ||||||||
4,92 | 4,8955 | 7,6405 | 4,8955 | ||||||||
5,15 | 5,1255 | 7,7668 | 5,0218 | ||||||||
5,55 | 5,5421 | 7,8932 | 5,1482 | ||||||||
7,96 | 7,7668 | 8,0195 | 5,2745 | ||||||||
5,01 | 5,0218 | 8,1459 | 5,4009 | ||||||||
5,05 | 5,2518 | 3-й квартал | 4-й квартал | ||||||||
5,59 | 5,6685 | T | Yp | T | Yp | ||||||
7,74 | 7,8932 | 4,9991 | 5,4158 | ||||||||
5,1 | 5,1482 | 5,1255 | 5,5421 | ||||||||
5,67 | 5,3782 | 5,2518 | 5,6685 | ||||||||
5,92 | 5,7948 | 5,3782 | 5,7948 | ||||||||
8,04 | 8,0195 | 5,5045 | 5,9212 | ||||||||
5,27 | 5,2745 | 5,6309 | 6,0476 | ||||||||
5,51 | 5,5045 | ||||||||||
6,04 | 5,9212 | ||||||||||
8,26 | 8,1459 | ||||||||||
5,51 | 5,4009 | ||||||||||
5,41 | 5,6309 | ||||||||||
5,83 | 6,0476 | ||||||||||
b0 | b2 | b3 | b4 | b5 | |||||||
7,4825 | -2,777 | -2,578 | -2,193 | 0,0316 | |||||||
b5 | b4 | b3 | b2 | b0 | T | Z4 | Z3 | Z2 | |||
7,2975 | -25,91 | -30,66 | -33,15 | 98,546 | tb4 | tb3 | tb2 | tb1 | tb0 | ||
0,0316 | -2,193 | -2,578 | -2,777 | 7,4825 | b4 | b3 | b2 | b1 | b0 | ||
0,0043 | 0,0846 | 0,0841 | 0,0838 | 0,0759 | Sb4 | Sb3 | Sb2 | Sb1 | Sb0 | ||
0,9867 | 0,1449 | #Н/Д | #Н/Д | #Н/Д | R2 | Se | |||||
351,16 | #Н/Д | #Н/Д | #Н/Д | F | df | ||||||
29,480 | 0,3988 | #Н/Д | #Н/Д | #Н/Д | SSR | SSE |
Рис. 35. Звіт до лабораторної роботи № 10
Усі розрахунки зроблені за допомогою функції ЛИНЕЙН, блок результатів якої доповнений зверху рядком статистик Ст’юдента і рядком заголовків. Поруч у блоці такого ж розміру наведені пояснення до результатів функції ЛИНЕЙН. Під таблицею даних розташований рядок заголовків b0, b2, b3, b4, b5 у потрібному порядку і нижче функцією ГПР наведені відповідні коефіцієнти регресії. Так, у клітинці А34 записана формула =ГПР(A33;$A$36:$E$39;3;0), яка далі скопійована у сусідні клітинки B34, C34, D34, E34. Тут $A$36:$E$39 – блок результатів функції ЛИНЕЙН, з якого витягується значення коефіцієнта регресії з ім'ям, записаним в А33; у діапазон цього блоку необхідно обов'язково включати рядок заголовків; адреси діапазону повинні бути абсолютними (F4), щоб ці адреси не змінювалися при копіюванні; числове значення витягується з 3-го рядка блоку (1-й рядок – заголовки, 2-й рядок – статистики Ст’юдента, 3-й рядок – коефіцієнти регресії, 4-й рядок – стандартні похибки коефіцієнтів регресії); нарешті, останній операнд формули ГПР прийнятий рівним нулю (НЕПРАВДА), що означає вимогу точної відповідності чисел зазначеному заголовку.
Розрахункові значення Yp обчислені за допомогою функції СУММПРОИЗВ. Так, для 1-го спостереження у клітинці G9 записана формула:
=$A$34+СУММПРОИЗВ($B$34:$E$34;B9:E9) .
Праворуч від таблиці даних зроблені вибірки розрахункових значень витрат на газ і електроенергію за кожним кварталом. Вибірки з таблиці можна зробити різними способами, наприклад, за допомогою розширеного фільтру. Першим рядком бази даних (таблиці, з якої витягаються дані) завжди повинен бути рядок заголовків стовпців. У блоці критеріїв відбору (у нас таких чотири блоки з адресами H8:H9, I8:I9, J8:J9, K8:K9) у першому рядку повинен бути заголовок хоча б одного стовпця бази даних, у наступних рядках блоку критеріїв записуються умови відбору (в 1-му блоці задана умова Z1=1).
Діапазон обраних записів повинен також починатися рядком заголовків стовпців таблиці, що нас цікавлять. Усі чотири діапазони відбору записів (H12:I18, J12:K18, H20:I26, J20:K26) містять однакові заголовки T і Yp. Встановлюємо табличний курсор у будь-яке місце таблиці і через меню Данные, Фильтр, Расширенный фильтр викликаємо панель розширеного фільтра, на якій поле Исходный диапазон вже заповнено за замовчуванням.
Включаємо умову скопировать результат на другое место, заповнюємо поля Диапазон условий і Поместить результат в діапазон;нарешті натискуємо кнопку ОК. |
Попередження: У кожний із цих діапазонів має бути включений рядок заголовків. Не припустимі ніякі помилки при завданні діапазону умов (блоку критеріїв). Якщо виділити діапазон із зайвим рядком (порожнім), буде обрана вся таблиця, а якщо захопити зайвий стовпець – не буде обраний жодний запис. Справа в тому, що умови в декількох рядках поєднуються логічною операцією АБО, а в декількох стовпцях – операцією I.
Далі будуємо діаграму із графіками досліджуваної залежності. За допомогою графічних опцій Добавить тренд, Показать уравнение і R2 додаємо на графіку лінійний тренд, його рівняння і коефіцієнт детермінації.
Рис. 37. Помісячна динаміка витрат
Варто виділити в таблиці стовпці Т, Y, Yp разом із заголовками і викликати Майстер Діаграм, тоді в легенді автоматично будуть зазначені назви рядів Y і Yp. Після цього можна додати графіки для кожного кварталу наступним чином. Клацаємо правою кнопкою по області діаграми і у контекстному меню вибираємо Исходные данные, Ряд, Добавить.
У поле Имя заносимо I (1-й квартал); це ім'я автоматично замінюється на ="I". У поле Значения Х указуємо діапазон Т і в поле Значения Y – діапазон Yр для 1-го кварталу.
Саме так додаємо графіки для 2-го, 3-го і 4-го кварталів. Нарешті, на діаграмі до ряду Y додаємо лінійний тренд, його рівняння і коефіцієнт детермінації R2.
На фоні інтенсивних сезонних коливань значимість досліджуваного лінійного тренда виявилася заниженою практично до нуля (R2 = 0,0086), оцінка кутового коефіцієнта занижена більш ніж у два рази.
Контрольне запитання: А якої величини були коефіцієнт регресії і коефіцієнт детермінації за 6-ю середнєрічними спостереженнями?
За допомогою всього трьох додаткових dummy-змінних Z2, Z3, Z4 дуже добре описана вся залежність разом із сезонними коливаннями. Помітимо, що спроби описати ці коливання аналітичним вираженням у вигляді трьох гармонік (з періодами рік, півроку, квартал) будуть неощадливими і зажадають 6-и додаткових параметрів (по два параметра на кожну гармоніку).
З блоку результатів функції ЛИНЕЙН виписуємо рівняння регресії:
Yp = 7,4825 – 2,777*Z2 – 2,278*Z3 – 2,193*Z4 + 0,0316*T
(tb) (98,5) (33,2) (30,7) (25,9) (7,3) .
Всі члени цієї моделі значимі за критерієм Ст’юдента (всі tb > t01 = 2,9), модель значима в цілому за критерієм Фішера F = 351,2 (F > F01 = 4,5); коефіцієнт детермінації дорівнює R2 = 0,9867, тобто модель із dummy-змінними пояснює практично всю мінливість даних.
Значимості коефіцієнтів регресії перед Z2, Z3, Z4 у цій моделі показують, що витрати на газ і електроенергію в еталонному 1-му кварталі істотно відрізняються від витрат в інших кварталах.
Наводимо рівняння регресії для кожного кварталу:
Yp(I) = 7,4825 + 0,0316*T (Z1 = 1),
Yp(II) = 7,4825 – 2,777 + 0,0316*T = 4,7059 + 0,0316*T (Z2 = 1),
Yp(III) = 7,4825 – 2,278 + 0,0316*T = 4,9034 + 0,0316*T (Z3 = 1),
Yp(IV) = 7,4825 – 2,193 + 0,0316*T = 5,2894 + 0,0316*T (Z4 = 1).
Вище вже вказувалося, що можна в модель включити одразу всі dummy-змінні, але тоді модель не повинна містити вільного члена. За допомогою функції ЛИНЕЙН розраховуємо параметри лінійної моделі (рис. 39):
Yp = (b1*Z1 + b2*Z2 + b3*Z3 + b4*Z4) + b5*T (Константа – відсутня).
T | Z4 | Z3 | Z2 | Z1 |
7,2975 | 62,464 | 60,075 | 59,784 | 98,546 |
0,0316 | 5,2894 | 4,9043 | 4,7059 | 7,4825 |
0,0043 | 0,0847 | 0,0816 | 0,0787 | 0,0759 |
0,9867 | 0,1449 | #Н/Д | #Н/Д | #Н/Д |
280,93 | #Н/Д | #Н/Д | #Н/Д | |
29,4795 | 0,3988 | #Н/Д | #Н/Д | #Н/Д |
Рис. 39. Блок функції ЛИНЕЙН |
В результаті будуть отримані одразу всі рівняння для кожного кварталу – не потрібно перераховувати вільний член (див. блок висновків функції ЛИНЕЙН на рис. 39). Але тепер статистики Ст’юдента будуть оцінювати відхилення середнього рівня витрат у кожному кварталі від нуля, а не від обраного еталона. Всі характеристики (крім F) вийдуть тими ж самими, лише статистику Фішера треба буде збільшити в (m+1)/m = 5/4 разів: F = 280,93*5/4 = 351,16.
Контрольні запитання
1. Що таке "dummy-змінні"? З якою метою вони застосовуються? Які є пропозіції щодо найближчого перекладу назви цих змінних на українську мову?
2. В "коваріаційному аналізі", який є подальшою модіфікацією дисперсійного аналізу, крім середніх за групами спостережень оцінюється також лінійний ефект кількісної змінної. Чи не можна вважати модель коваріаціного аналізу єквівалентним частинним випадком регресійного аналізу з dummy-змінними? Для яких умов?
3. Яку роль відіграють члени взаємодій кількісних змінних з dummy-змінними?
4. В якому випадку анліз з dummy-змінними буде еквіваленим серії звичайних регресійних аналізів окремо для кожної категорії якісної змінної?
5. Як оцініти значущість членів моделі з dummy-змінними?