Змістовий модуль і. лінійні моделі множинної регресії
Завдання 1
Знайти оцінки параметрів моделі методом найменших квадратів, якщо задані вектори Х та У. Обчислить дисперсію залишків цієї моделі, середнє квадратичне відхилення, коефіцієнт кореляції, коефіцієнт еластичності.
У | ||||||||||
Х |
На основі моделі попередньої задачі виконати наступне:
- перевірити гіпотезу про значущість коефіцієнта кореляції, оцінок параметрів моделі (за допомогою t – тест Стюдента);
- знайти інтервал довіри для параметра кутового коефіцієнта регресії, надійні межі для вільного члена;
- перевірити модель на адекватність статистичним даним (F – тест, значущість 95%)
- знайти точковий прогноз та інтервал довіри окремого значення Упр та для математичного сподівання значення Упр якщо Хпр=15.
Рішення
Нехай залежність між Х та У описується прямою лінією , де u - залишки (збурення моделі). Розрахункові значення (Ур) обчислимо, користуючись такою моделлю:
(1)
Для обчислень можна використовувати таку допоміжну таблицю. Для перевірки таблиця вже має заповнені стовпці.
Таблиця 1
№ | У | Х | Х2 | ХУ | Х-Хср | У-Уср | (Х-Хср)2 | (Х-Хср) * ( У-Уср) | (У-Уср)2 | Ур | U= У-Ур | U2 |
-3,80 | -6,90 | 14,44 | 26,22 | 47,61 | 10,44 | -0,44 | 0,19 | |||||
-2,80 | -5,90 | 7,84 | 16,52 | 34,81 | 12,14 | -1,14 | 1,29 | |||||
-2,80 | -4,90 | 7,84 | 13,72 | 24,01 | 12,14 | -0,14 | 0,02 | |||||
-1,80 | -1,90 | 3,24 | 3,42 | 3,61 | 13,84 | 1,16 | 1,35 | |||||
-0,80 | -0,90 | 0,64 | 0,72 | 0,81 | 15,54 | 0,46 | 0,21 | |||||
0,20 | 1,10 | 0,04 | 0,22 | 1,21 | 17,24 | 0,76 | 0,58 | |||||
2,20 | 3,10 | 4,84 | 6,82 | 9,61 | 20,64 | -0,64 | 0,41 | |||||
2,20 | 4,10 | 4,84 | 9,02 | 16,81 | 20,64 | 0,36 | 0,13 | |||||
3,20 | 6,10 | 10,24 | 19,52 | 37,21 | 22,34 | 0,66 | 0,43 | |||||
4,20 | 6,10 | 17,64 | 25,62 | 37,21 | 24,04 | -1,04 | 1,09 | |||||
Σ | 0,00 | 0,00 | 71,60 | 121,80 | 212,90 | 169,00 | 0,00 | 5,70 |
Обчислимо значення оцінок параметрів моделі за допомогою відхилень середніх арифметичних , за формулою:
=1,7
та
Що дорівнює відповідно 5,33.
Обчислимо значення Ур (розрахункове) використовую формулу .
Обчислимо залишки за формулою = У-Ур та їх квадрати, та відповідні суми стовпців.
Обчислимо не зсунену оцінку дисперсії залишків . Вона дорівнює 0,71 та середнє квадратичне відхилення . використовуючи формулу
Коефіцієнт кореляції обчислимо за формулою (2), він дорівнює 0,986
(2)
Коефіцієнт еластичності для парної регресії обчислимо за формулою:
=0,68 (3)
Для перевірки гіпотези про значущості коефіцієнта кореляції застосуємо формулу:
=17,047 , де r – вже обчислений нами раніше коефіцієнт кореляції.
Порівняємо це значення з табличним значенням t (статистичні таблиці) якій дорівнює 2,306 и зробимо висновок.
Для перевірки гіпотези про значущість оцінок параметрів моделі застуємо формулу:
де (4)
Отже маємо:
Порівняємо ці значення з табличним значенням критерію Стюдента (2,306) – зробимо висновки.
Довірчий інтервал прогнозу будується на основі загального співвідношення:
ŷ , (5)
де — гранична помилка прогнозу.
Воно є базовим і використовується для визначення довірчих інтервалів прогнозу, побудованих за допомогою будь-яких моделей лінійної регресії, знайдених за методом найменших квадратів.
Доведено, що для парної лінійної моделі гранична помилка прогнозу з достовірністю % має вигляд:
. (6)
При цьому застосовується табличне значення t – критерію Стьюдента з рівнем значущості ( i k=N-1)ступенями вільності у випадку двосторонньої перевірки.
Отже кутовий коефіцієнт нашої моделі знаходиться в межах (1,696; 1,7934), а вільний член попадає в інтервал довіри: (4,109; 6,56).
Для розрахунку F критерію скористуємося формулою:
(7)
Порівнюючи отримане значення з табличним значенням критерію Фішера =3,4, (так як воно більше ніж розрахункове) , робимо висновок про адекватність моделі статистичним даним.
Для розрахунку прогнозного значення У підставте прогнозне значення х=15 в отриману формулу регресії ( з завдання 1) :
.
Маємо =30,84
Тоді надійний інтервал для математичного сподівання прогнозного значення дорівнює:
значення t критерію не змінюється =2,34. Середнє квадратичне відхилення, обчислене в попередньому завданні та інші складові формули знайдіть в рядку Сум в таблиці 9.1 з відповідними стовпцями. І в розрахунках вашої роботи.
Завдання 2
(загальна лінійна моделі та обчислення в табличному процесорі)
За даними ТОВ «Стальканат» ввелася гіпотеза про наявність кореляційного зв’язку між наступними показниками:
— логістичні витрати, тис. грн.;
— виробничі запаси катанки, тис. грн.;
— запаси незавершеного виробництва волочильного відділення, тис. грн.;
— запаси незавершеного виробництва дільниці випалу, тис. грн.;
— запаси незавершеного виробництва дільниці оміднення, тис. грн.;
— запаси незавершеного виробництва дільниці пакування, тис. грн.;
— товарні запаси стального дроту, тис. грн.
Вхідні дані подані у таблиці:
Таблиця 2
Результати господарської діяльності та рівень матеріальних запасів ТОВ «Стальканат»
(станом на 1 число кожного календарного місяця 2011 р.)
(тис. грн.)
Термін | Результати господарської діяльності | Матеріальні запаси | |||||
логістичні витрати | Виробничі запаи катанки | волочильне відділення | дільниця випалу | дільниця оміднення | дільниця пакування | товарні | |
1.01 | 267,4 | ||||||
1.02 | 276,0 | ||||||
1.03 | 363,0 | ||||||
1.04 | 352,0 | ||||||
1.05 | 276,8 | ||||||
1.06 | 223,9 | ||||||
1.07 | 284,8 | ||||||
1.08 | 210,5 | ||||||
1.09 | 206,5 | ||||||
1.10 | 92,0 | ||||||
1.11 | 111,1 | ||||||
1.12 | 207,1 | ||||||
Середнє . | 239,2583 | 1995,0 | 229,66 | 409,16 | 71,25 | 303,25 | 672,66 |
Середнєквадратичне відхилення | 79,01886 | 2113,4 | 89,987 | 151,79 | 54,02 | 209,25 | 189,86 |
Дослідити вплив матеріальних запасів на логістичні витрати ввівши лінійну гіпотезу про математичну форму зв’язку між результативними та чинниковими змінними, провівши:
- канонічний аналіз;
- регресійний аналіз;
- дисперсійний аналіз;
- економічний аналіз.
На основі вхідних даних рівняння множинної лінійної регресії впливу матеріальних витрат на логістичні витрати підприємства
Рішення
1. Канонічний аналіз
Для канонічного аналізу скористуємось вбудованою програмою табличного процесора Excel Пакет Аналізу. Для цього в меню Сервіс виконаємо наступну послідовність дій: Сервіс - Аналіз Даних – Кореляція і виділимо всі стопці вхідних даних. В результаті отримаємо таблицю парних коефіцієнтів кореляції для вхідних стовпців.
Таблиця 3
Матриця парних коефіцієнтів кореляції завдання
Показники | логістичні витрати | виробничі | волочильне відділення | дільниця випалу | дільниця обміднення | дільниця пакування | товарні запаси |
логістичні витрати | |||||||
виробничі | 0,61383236 | ||||||
волочильне відділення | 0,72924435 | 0,43824498 | |||||
дільниця випалу | 0,76716434 | 0,50748806 | 0,660817446 | ||||
дільниця обміднення | 0,36964965 | 0,40283843 | 0,353587493 | 0,3820764 | |||
дільниця пакування | 0,66112864 | 0,77496759 | 0,638337026 | 0,66427369 | 0,118881 | ||
товарні запаси | 0,50707378 | 0,09327439 | 0,202636042 | 0,70808275 | -0,16057 | 0,340684 |
Аналіз парних коефіцієнтів кореляції дозволить обрати серед факторів майбутньої моделі найбільш суттєві.
Коефіцієнт парної кореляції тлумачиться наступним чином:
1) при 0 £ | | £ 0,3 слабкий зв’язок;
2) при 0,3 < | | £ 0,7 середній зв’язок;
3) при 0,7 < | | £ 1 тісний зв’язок.
Крім матеріальних запасів на дільниці обміднення необхідно перевірити гіпотезу про значущість даних коефіцієнтів кореляції. Табличне значення t – критерію дорівнює (для ймовірності 95%) 1,77. Фактичне значення значущості коефіцієнт розраховуємо за формулою:
Беремо тільки парні коефіцієнти кореляції для стовпця «Логістичні витрати». Розрахунки представлені у таблиці 4
Таблиця 14
Фактичні значення для t – критерію для парних коефіццєнтів кореляції
Витрати | Логістичні витрати |
Виробничі запаси катанки | 2,45885335 |
волочильне відділення | 3,37020349 |
дільниця випалу | 3,78203191 |
дільниця оміднення | 1,25804032 |
дільниця пакування | 2,78655041 |
товарні запаси | 1,86042832 |
Аналізуючи дані таблиць 10.2 та 10.3 можна зробити висновок, що значущими коефіцієнтами парної кореляції є коефіцієнти між логістичними витратами та виробничими, волочильного відділення, дільниці випалу та дільниці пакування. Враховуючи, що серед цих пар всі коефіцієнти більше 0,6 то в майбутній регресії залишаться змінні:
— логістичні витрати, тис. грн.;
— виробничі запаси катанки, тис. грн.;
— запаси незавершеного виробництва волочильного відділення, тис. грн.;
— запаси незавершеного виробництва дільниці випалу, тис. грн.;
— запаси незавершеного виробництва дільниці пакування, тис. грн.;
2. Регресійний та дисперсійний аналіз.
В загальному регресійна модель буде мати вигляд:
,
Розглянемо розрахунок коефіцієнтів множинної лінійної регресії за даними, що характеризують залежність величини логістичних витрат від рівня матеріальних запасів.
В межах теорії регресійного аналізу зі застосуванням редактора Excel можна запропонувати метод побудови рівняння регресії на основі вбудованого блока Пакет Аналізу. Для цього виконуються команди:
«Сервіс» — «Надстройки» — активізувати «Пакет аналізу» (в меню «Сервіс» з’являється опція «Аналіз даних») і знову «Сервіс» — «Аналіз даних» — «Регресія» — «ОК». В електронній таблиці виникає діалогове вікно, в якому вказуються вихідні дані: адреса комірок ;адреса комірок ( ); рівень надійності (95%); вивід результатів на новий робочий лист (активізувати). Після команди «ОК» на новому робочому листі книги Excel з’являється розрахункова таблиця 5
Таблиця 5
Результати регресійного дисперсійного аналізу моделі
Регресійна статистика | ||||||
Множинний R | 0,852 | |||||
R-квадрат | 0,726 | |||||
Нормований R-квадрат | 0,570 | |||||
Стандартна помилка | 54,136 | |||||
Спостереження | 12,000 | |||||
Дисперсійний аналіз | ||||||
df | SS | MS | F | Значущість F | ||
Регресія | 4,000 | 54412,448 | 13603,112 | 4,641 | 0,038 | |
Остаток | 7,000 | 20515,321 | 2930,760 | |||
Усього | 11,000 | 74927,769 | ||||
Коефіцієнти | Стандартна помилка | t-статистика | P-Значення | Нижня межа 95% | Верхня межа 95% | |
Y-перетин | 60,543 | 49,673 | 1,219 | 0,262 | -56,916 | 178,002 |
Змінна X 1 | 0,012 | 0,012 | 0,999 | 0,351 | -0,016 | 0,040 |
Змінна X 2 | 0,330 | 0,249 | 1,324 | 0,227 | -0,260 | 0,920 |
Змінна X 3 | 0,225 | 0,151 | 1,487 | 0,181 | -0,133 | 0,582 |
Змінна X 5 | -0,041 | 0,145 | -0,286 | 0,783 | -0,384 | 0,301 |
Аналіз залишків | ||||||
Спостереження | Розрахункове Y | Остатки | Стандартні остатки | |||
245,146 | 22,254 | 0,515 | ||||
239,051 | 36,949 | 0,856 | ||||
324,252 | 38,748 | 0,897 | ||||
315,699 | 36,301 | 0,841 | ||||
299,856 | -23,056 | -0,534 | ||||
304,555 | -80,655 | -1,868 | ||||
236,871 | 47,929 | 1,110 | ||||
265,454 | -54,954 | -1,272 | ||||
228,851 | -22,351 | -0,518 | ||||
112,432 | -20,432 | -0,473 | ||||
135,958 | -24,858 | -0,576 | ||||
162,976 | 44,124 | 1,022 |
Регресійний аналіз побудованої у ході КРА множинної регресійної моделі здійснюється за допомогою наступних показників:
· тісноти кореляційного зв’язку; точності; надійності;
Тіснота кореляційного зв’язку. Статистичний аналіз побудованої у ході КРА множинної регресійної моделі показує, що спостерігається досить тісний кореляційний зв’язок між результативною та чинниковими ознаками, оскільки коефіцієнт множинної кореляції близький до одиниці (R=0,85).
Точність. Абсолютною мірою точності побудованої парної моделі служить середня квадратична (стандартна) помилка регресії ( ).
Для нашого рівняння вона розраховується автоматично в процесі знаходження коефіцієнтів регресії =54,13 — табл.5, рядок «Стандартна помилка»). Можна дати таку рекомендацію по тлумаченню величини ( ): для одних і тих же вихідних даних менша стандартна помилка відповідає більш точній моделі. Середня квадратична (стандартна) помилка регресії (1) не дуже велика, тобто отримана модель є точною.
Для парної лінійної моделі ( = ), тобто коефіцієнт детермінації дорівнює квадрату коефіцієнта парної кореляції і показує частку варіації результативної ознаки ( ), що пояснюється чинником ( ). Для рівняння регресії коефіцієнт детермінації теж розраховується автоматично в процесі знаходження коефіцієнтів регресії ( =0,726 — табл.5., рядок «R-квадрат». Він показує, що 72,6% варіації логістичних витрат пояснюється зміною матеріальних запасів ( . На долю чинників, які не увійшли до рівняння (10.1), приходиться 22,8% варіації результативної ознаки ( ).
Для малих вибірок (N<20) при побудові будь-яких регресійних моделей знаходиться також нормований коефіцієнт детермінації ( ). Він завжди нижче за ( ) і враховує співвідношення числа спостережень (N) і кількості коефіцієнтів рівняння регресії (m). Для рівняння нашої регресії вибірка дійсно мала (N=12), тому доцільно розглянути нормований коефіцієнт детермінації. Його величина знаходиться автоматично в процесі знаходження коефіцієнтів регресії ( =0,57 — (табл. 5), рядок «Нормований R-квадрат»). Величина ( ) показує, що, не зважаючи на малу вибірку, регресійна модель (1) є досить точною: з урахуванням співвідношення (N і m) більше 58% варіації логістичних витрат пояснюється зміною величини трьох видів матеріальних запасів.
Надійність. Надійність побудованої моделі визначається надійністю множинних кореляційних зв’язків та надійністю окремих коефіцієнтів регресії.
Перевірка надійності окремих коефіцієнтів регресії проводилася в процесі виключення незначущих чинників по t-критерію Стьюдента при канонічному аналізі, тому всі змінні, що увійшли до рівняння, є надійними, суттєво відмінними від нуля.
Перевірка F критерію (стовпці «F критерій», значущість F). Фактичне значення цього критерію дорівнюватиме 4,6 . Адекватність моделі підтверджується двома фактами:
Перше, це значення менше ніж табличне 3,1, по-друге значущість по таблиці дорівнює 0, 038, що менше ніж 0,05 (95% ймовірність), отже модель адекватна статистичним даним.
Далі розраховуються %-ві нижні та верхні довірчі інтервали коефіцієнтів регресії ( ). Звичайно розглядаються 95%-ві довірчі інтервали коефіцієнтів, які наводяться у стовпчиках «Нижні 95%» і «Верхні 95%» (табл.5.
Після побудови рівняння регресії, що адекватно описує економічний об’єкт дослідження, перейдемо до його економічного аналізу.
Економічний аналіз
1) Оскільки значення ( , тобто нульові матеріальні запаси) в сучасних економічних умовах явище практично неможливе, тобто не входить в область визначення чинників, то величина коефіцієнта економічного змісту не має. Вона може тлумачитися тільки геометрично — це точка перетину гіперплощини регресії з віссю ОY.
2) Коефіцієнти регресії ( ) показують, як зі зміною відповідних матеріальних запасів на одну тисячу гривень змінюються в середньому логістичні витрати (у, тис. грн.). Так, ріст виробничих запасів катанки на 1 тис. грн. призводить до підвищення логістичних витрат в середньому на 12 грн., зростання запасів незавершеного виробництва волочильного відділення на 1 тис. грн. призводить до підвищення логістичних витрат в середньому на 300 грн., зміна товарних запасів дільниці випалу на 1 тис. грн. призводить до зміни логістичних витрат в середньому на 22,5грн, зміна товарних запасів дільниці незавершеного виробництва на 1 тис. грн. призводить до зменшення логістичних витрат в середньому на 41 грн. Тобто максимальний абсолютний вплив на величину логістичних витрат має розмір запасів незавершеного виробництва волочильного відділення.
3) Коефіцієнт еластичності показує, на скільки відсотків у середньому змінюється результативна ознака ( ) зі зміною чинника ( ) на один відсоток (у 1,01 рази). Розрахуємо коефіцієнти еластичності моделі:
100%=9,82%; 100%=31,68%
(2)
100%=38,44%; 100%=-5,250%.
Знайдені коефіцієнти еластичності показують, що зі зміною запасів катанки на 1% логістичні витрати змінюються в середньому на 9,8%, зростання запасів незавершеного виробництва волочильного відділення на 1% призводить до підвищення логістичних витрат в середньому на 31,68%, зміна товарних запасів дільниці випалу на 1% веде до зміни логістичних витрат в середньому на 38,44%, зміна товарних запасів товарів на 1% веде до зміни логістичних витрат в середньому на -5,25%. Тобто максимальний відносний вплив на величину логістичних витрат має розмір товарних запасів дільник випалу.
4) Щоб визначити середній вплив чинника ( ) на результативну ознаку ( ) з урахуванням ступеню коливання змінної ( ) розраховують бета-коефіцієнт ( ). Він показує, на скільки середніх квадратичних відхилень в середньому змінюється результативна ознака ( ) зі зміною чинника ( ) на одне своє середнє квадратичне відхилення.
Розрахуємо бета-коефіцієнти моделі :
(13)
Знайдені бета-коефіцієнти показують, що зі зміною запасів катанки на одне своє середньоквадратичне відхилення логістичні витрати змінюються в середньому на 0,315 своїх середньоквадратичних відхилень. Зростання запасів незавершеного виробництва волочильного відділення на одне своє середньоквадратичне відхилення призводить до підвищення логістичних витрат в середньому на 0,37 своїх середньоквадратичних відхилень. Зміна товарних запасів дільниці випалу на одне своє середньоквадратичне відхилення веде до зміни логістичних витрат в середньому на 0,43 своїх середньоквадратичних відхилень. Зміна товарних запасів дільниці незавершеного виробництва на одне своє середньоквадратичне відхилення веде до зміни логістичних витрат в середньому на -0,01 своїх середньоквадратичних відхилень Це означає, що на «Стальканаті» існують певні резерви зниження логістичних витрат за рахунок чинників, котрі моделюються. Причому максимальний резерв зниження величини логістичних витрат прихований у матеріальних запасів дільниці випалу.
Задача 3
. (мультіколінеарність)
Перевірити факторні дані про матеріальні запаси катанки, волочильного відділення, дільниці випалу та обміднення (Задача 2) на наявність мультіколінеарності.
Рішення
Крок 1. нормалізація змінних , які обчислюємо за формулою: .
Отримані дані занесемо у таблицю 18.5.
Таблиця 6
Х1 | Х2 | Х3 | Х4 |
-0,5630359 | -0,0072 | 0,434418 | -0,94013 |
-0,534518 | 0,230461 | 0,242292 | -0,77819 |
0,6710511 | 1,602423 | 0,607331 | 2,226622 |
1,4212545 | 0,554546 | 0,876308 | 0,337367 |
2,2620711 | 0,122432 | 0,37678 | 0,535289 |
0,6204549 | 0,748998 | 0,991583 | -0,11246 |
-0,2456598 | -0,28808 | 0,626544 | -0,58027 |
-0,707465 | 1,44038 | 0,088591 | -0,22041 |
-0,6798671 | -0,89304 | 0,645757 | 1,147048 |
-0,8288958 | -1,71405 | -1,79424 | -1,06608 |
-0,8712126 | -1,30354 | -1,50605 | 0,589268 |
-0,53595 | -0,48587 | -1,56529 | -0,9391 |
Крок 2. Знайдемо кореляційну матрицю
0,41 | 0,48 | |
0,41 | 0,62 | |
0,48 | 0,62 |
Крок 3. Обчислимо кси-критерій.
Кожен елемент цієї матриці характеризує тісноту зв’язку однієї незалежної змінної з іншою. Але щоб більш конкретніше відповісти на це питання знайдемо статистичні критерії оцінки мультіколінеарності за методом Фаррара -Глобера. Обчислимо детермінант кореляційної матриці та "кси" критерій. За допомогою функції МОБР табличного процесора знайшли , що визначник кореляційної матриці дорівнює 2,17.
Фактичне значення "кси" критерію знаходять за формулою:
, (3)
-3,051,41.
Табличне значення критерію дорівнює 5,22. Отже робимо висновок про наявність явища мультіколінеарності.
Крок 4. Визначення оберненої матриці:
1,41 | -0,21 | -0,43 |
-0,21 | 1,71 | -0,91 |
-0,43 | -0,91 | 1,85 |
Крок 5. Обчислення F-критеріїв:
, (4)
де Сkk — діагональні елементи матриці С. Фактичні значення критеріїв порівнюються з табличними при п - т і т - 1 ступенях свободи і рівні значущості . Якщо Fфакт > Fтабл, то відповідна k-та незалежна змінна мультиколінеарна з іншими. Маємо
F1 | 1,103665 |
F2 | 1,887724 |
F3 | 2,256417 |
F4 | 0,652149 |
Табличне значення критерію Фишера для імовірності 0,95 та ступенів вільності 4,07 дорівнює 19,43 . Висновок для кожної змінної існує явище мультіколінеарності.
змінна Х1 колінеарна з змінною Х2 або Х3 або Х4 |
змінна Х2 колінеарна з змінною Х1 або Х3 або Х4 |
змінна Х3 колінеарна з Х1 або Х2 або з Х4 |
змінна Х4 колінеарна з Х1 або Х2 або з Х3 |
Крок 6. Знаходження частинних коефіцієнтів кореляції:
, (5)
де Сkj — елемент матриці С, що міститься в k-му рядку і j-мy стовпці; Сkk і Сjj— діагональні елементи матриці С, Маємо
R12 | 0,135348 |
R13 | 0,268871 |
R14 | 0,234541 |
R23 | 0,510651 |
R24 | 0,111953 |
R34 | 0,130778 |
Крок 7. Обчислення t-критеріїв:
.
Фактичні значення критеріїв t порівнюються з табличними при n - m ступенях свободи і рівні значущості . Якщо tkjфaкт >tтабл, томіж незалежними змінними хk і хj існує мультиколінеарність. Фактичні значення критеріїв дорівнюють:
T12 | 0,386376 |
T13 | 0,789555 |
T14 | 0,682417 |
Т23 | 1,679876 |
Т24 | 0,318653 |
Т34 | 0,3731 |
Табличне значення критерію для заданої імовірності 0,95м та ступенів вільності 8 дорівнює 1,8 тому робимо висновок:
незалежна зміна Х1 мультіколінеарна з Х2 |
незалежна змінна Х1мультіколінеарна з Х3 |
незалежна зміна Х1 мультіколінеарна з Х4 |
незалежна зміна Х2 мультіколінеарна з Х3 |
незалежна зміна Х2 мультіколінеарна з Х4 |
незалежна зміна Х3 мультіколінеарна з Х4 |
Задача . 4
(автокореляція гетероскедастичність)
Перевірити для регресії завдання 3 наявність явищ гетерскедастичності та автокореляції залишків.
Рішення
Застосовуємо Критерий Дарбина-Уотсона (Дані представлені у таблиці)
Знайдемо оцінку критерію Дарбіна-Уотсона.
=0,018 (6)
Порівнюємо значення DW з табличним значенням критерію для рівня P=0,05 та n=12
DW1 табл=0,9 DW2 табл=1,35. Висновки робляться наступним чином. Якщо залишки не мають автокореляції. Якщо питання залишається відкритим. Якщо залишки мають автокореляцію. Висновок: залишки не автокорелювані.
Таблиця 7
Залишки | U2 | Ut-U(t-1) | (Ut-U(t-1))2 | Ut*U(t-1) |
22,25 | 495,23 | 0,00 | 0,00 | 0,00 |
36,95 | 1365,20 | 14,69 | 215,94 | 822,25 |
38,75 | 1501,44 | 1,80 | 3,24 | 1431,70 |
36,30 | 1317,80 | -2,45 | 5,99 | 1406,62 |
-23,06 | 531,58 | -59,36 | 3523,30 | -836,96 |
-80,65 | 6505,19 | -57,60 | 3317,62 | 1859,57 |
47,93 | 2297,14 | 128,58 | 16533,65 | -3865,66 |
-54,95 | 3019,90 | -102,88 | 10584,72 | -2633,84 |
-22,35 | 499,55 | 32,60 | 1062,96 | 1228,24 |
-20,43 | 417,45 | 1,92 | 3,68 | 456,66 |
-24,86 | 617,93 | -4,43 | 19,59 | 507,90 |
44,12 | 1946,92 | 68,98 | 4758,54 | -1096,84 |
0,00 | 20515,32 | 21,87 | 40029,24 | -720,38 |
Перевіримо на наявність гетероскедастичності за допомогою "мю" - критерію.
Крок 1. Вихідні дані залежної змінної У розбиваються на 3 груп (r=1,k) відповідно до зміни рівня величини Y.
№ групи | Група 1 | Група 2 | Група 3 |
210,5 | 276,8 | ||
111,1 | 223,9 | 284,8 | |
206,5 | 267,4 | ||
207,1 |
Крок 2. За кожною групою даних обчислюється сума квадратів відхилень:
. (7)
Ці значення для по кожній групі відповідно дорівнюють:
260,15 | 3097,01 | 5975,39 |
Крок 3. Визначається сума квадратів відхилень у цілому по всій сукупності спостережень:
(8)
=20332,55
Крок 4. Обчислюється параметр альфа:
(9)
де 12 — загальна сукупність спостережень;4 — кількість спостережень r-ї групи.
Крок 7. Обчислюється критерій:
m = -2lna.=1,6
Він наближено відповідатиме розподілу при ступені свободи 3-1=2, коли дисперсія всіх спостережень однорідна. Тобто якщо значення m не менше за табличне значення при вибраному рівні довіри і ступені свободи k -1, то спостерігається гетероскедастичність. =5,9 Висновок: гетероскедастичність не спостерігається.