Дослідження наявнoстi мультиколінеарності у масиві змінних
Завдання: Визначити вплив на ціну легкового автомобіля (Y) таких факторів як вік автомашини (Х1), об’єм двигуна (Х2) та пробіг (Х3).
Кількість пояснюючих змінних m>1, постає питання про те, щоб виконувалась передумова застосування методу найменших квадратів - відсутність зв’язку між регресорами. Тому перед побудовою моделі проведемо тест на наявність мультиколінеарності.
№ п/п ( i ) | Ціна автомобіля (Y), тис.дол..США | Вік автомобіля (X1), Роки | Об’єм двигуна автомобіля (X2), дм3 | Пробіг Автомобіля (X3), тис.км |
3,2 | 1,3 | |||
8,7 | 1,8 | |||
1,6 | 1,8 | |||
2,4 | ||||
18,9 | ||||
15,8 | ||||
1,6 | ||||
2,6 | ||||
22,7 | 2,1 | |||
13,9 | ||||
10,9 | 1,5 | |||
9,5 | 2,6 | |||
2,2 | ||||
1,8 | ||||
5,8 | 1,6 | |||
2,8 | 1,6 | |||
2,2 | ||||
10,5 | ||||
16,9 | 2,3 | |||
3,4 | 1,5 | |||
1,4 | ||||
1,8 | ||||
Середнє | 13,0240 | 5,8800 | 2,1640 | 94,8400 |
Дисперсія | 55,9244 | 13,5267 | 0,5157 | 2606,2233 |
σ | 7,4783 | 3,6779 | 0,7181 | 51,0512 |
Необхідно:
1) нормалізувати статистичну інформацію;
2) обчислити кореляційну матрицю та вектор коефіцієнтів парної кореляції;
3) розрахувати визначник кореляційної матриці та перевірити його відмінність від нуля;
4) знайти матрицю, обернену до кореляційної, і на основі її елементів:
a) розрахувати часткові коефіцієнти парної кореляції та перевірити їх статистичну значущість за t-критерієм;
b) за F-критерієм перевірити суттєвість зв’язку кожної пояснюючої змінної з рештою регресорів;
5) визначити змінні, між якими відсутній зв’язок і які можна включити до моделі в якості незалежних змінних.
І. Дослідження моделі на мультиколінеарність
· Нормалізуємо вхідну інформацію: .
Нормалізовані дані записані в таблиці
№ п/п | Y* | X* 1 | X*2 | X*3 |
-0,2707 | 0,0326 | 1,1641 | 0,6691 | |
-1,3137 | 1,1202 | -1,2031 | 1,0805 | |
-0,5782 | 1,1202 | -0,5069 | 0,8258 | |
-1,5276 | 2,7516 | -0,5069 | 2,0795 | |
0,5317 | -1,0550 | 0,3286 | -0,6825 | |
0,7857 | -0,5112 | 2,5566 | 0,3361 | |
0,3712 | -0,7831 | -0,2284 | -0,4082 | |
0,6654 | 0,0326 | 1,1641 | 1,3743 | |
0,7991 | -0,7831 | 2,5566 | -0,6433 | |
-0,9393 | 0,0326 | -0,7854 | 0,1011 | |
-0,0032 | 0,0326 | 0,6071 | -0,9959 | |
1,2939 | -0,2393 | -0,0891 | 0,1207 | |
0,1171 | -0,7831 | -0,2284 | 0,1011 | |
-0,2840 | -0,7831 | -0,9246 | -0,7412 | |
-0,4712 | 0,5764 | 0,6071 | 1,4135 | |
2,0026 | -0,7831 | 0,0501 | -0,8196 | |
-0,9393 | 0,5764 | -0,5069 | 0,4928 | |
-0,9660 | 0,8483 | -0,7854 | -0,1144 | |
-1,3672 | 1,3921 | -0,7854 | -1,2701 | |
1,7352 | -1,3269 | 0,0501 | -1,5443 | |
-0,3375 | 0,0326 | -0,2284 | 0,4341 | |
0,5183 | 0,3045 | 0,1894 | 1,0609 | |
-1,2869 | 0,8483 | -0,9246 | 0,1011 | |
0,1305 | -1,3269 | -1,0639 | -1,7010 | |
1,3340 | -1,3269 | -0,5069 | -1,2701 |
На основі нормалізованих даних обчислимо кореляційну матрицю r та вектор коефіцієнтів парної кореляції : .
Маємо: .
· Перевіримо наявність мультиколінеарності серед пояснюючих змінних.
Спочатку обчислимо визначник кореляційної матриці det(r) :
det(r) =0,4344.
Визначник не дорівнює нулю, таким чином, між регресорами відсутній лінійний зв’язок. Переконаємося також у відсутності тісного кореляційного зв’язку між змінними .
Якщо визначник кореляційної матриці наближається до одиниці, можемо говорити про відсутність мультиколінеарності та незалежність факторів, включених до моделі. Статистична оцінка відсутності зв’язку між регресорами може бути перевірена за допомогою гіпотези про незалежність змінних, на основі яких розраховано кореляційну матрицю, . Доведено, що величина:
має приблизний розподіл c2 з ступенями свободи. Якщо статистичне значення менше за табличне (критичне) значення <c2a,k., то гіпотеза приймається.
Для визначника обчисленої кореляційної матриці c2=18,48. Порівняємо c2 із табличним значенням c2a,k з ступенями свободи при рівні значущості a = 0,05. Так як m = 3, то c2a,k = 7,81. Отже, c2>c2a,k. Це означає, що треба відхилити нульову гіпотезу , і визначник кореляційної матриці суттєво відрізняється від 1, що, в свою чергу, свідчить про наявность мультиколінеарності пояснюючих змінних.
· Далі обчислимо матрицю, обернену до кореляційної матриці r:
.
За елементами матриці С розрахуємо часткові коефіцієнти парної кореляції: .
Перевіримо статистичну значущість часткових коефіцієнтів парної кореляції на основі t–критерію. .
.
Табличне значення критерію ta/2,k. = 2,069 при рівні значущості a = 0,05 та ступені свободи k = n-m =23: > ta/2,k, > ta/2,k,
що дозволяє відхилити нульову гіпотезу про рівність нулю часткових коефіцієнтів парної кореляції і ; < ta/2,k,
у даному випадку приймаємо нульову гіпотезу про рівність нулю часткового коефіцієнта парної кореляції .
Таким чином, між змінними X1 і X2 та X1 і X3 існує тісний кореляційний зв’язок, що свідчить про наявність мультиколінеаності.
· Якщо кореляційна матриця r відмінна від одиничної, то й обернена до неї матриця C також відмінна від одиничної. Розглянемо величину
,
де - діагональний елемент матриці C, n – кількість спостережень; m - число пояснюючих змінних. Ця величина має розподіл Фішера з k1 = m-1 та k2 = n – m ступенями свободи. Обчислення величини аналогічне перевірці суттєвості зв’язку в моделі, в якій залежною змінною буде змінна , а пояснюючими змінними – решта (m - 1) факторів : . При рівні значущості a = 0,05 Fa = 3,42.
> Fa,k1,.k2 > Fa,k1.k2, що означає суттєву залежність першої пояснюючої змінної від другої та третьої (віку автомобіля від об’єму двигуна та пробігу); третьої від першої та другої (пробігу від віку автомашини та об’єму двигуна).
< Fa,k1,.k2, тобто така змінна як об’єм двигуна не корелює із змінними, які визначають вік автомобіля та його пробіг. Змінну X2 включаємо до моделі.
· Аналізуючи елементи вектора парних коефіцієнтів кореляції бачимо, що найбільший вплив на Y серед пояснюючих змінних мають змінні X1 та X2.
Змінна X3 найменше впливає на результативний фактор, крім того, корелює X1 та X2. Доцільно не включати як пояснюючий фактор X3 до моделі.
ІІ. Таким чином, можна записати наступну економетричну модель без фактора X3:
. (1)
Переконаємося в тому, що пояснюючі змінні цієї моделі не колінеарні між собою. Для цього сформуємо кореляційну матрицю: .
Визначимо детермінант кореляційної матриці та розрахуємо критерій c2:
det(r) = 0,9322; c2 = 1,5801.
Табличне значення c2a,k = 3,84 при a = 0,05 та ступені свободи =1. Порівнявши дві величини, бачимо: c2<c2a,k,
що свідчить про несуттєву відмінність визначника кореляційної матриці від одиниці.
Можемо стверджувати, що пояснюючі змінні X1 та X2 є незалежними.
III. Порівняємо оцінки параметрів моделей, обчислених без та з урахуванням мультиколінеарності.
1. За методом найменших квадратів знайдемо статистичні оцінки параметрів моделі
(2)
без урахування зв’язків між пояснюючими змінними. Одержуємо наступне рівняння зв’язку:
2. Для цієї моделі:
* коефіцієнт множинної детермінації R2 = 0,6749;
* критерій Фішера: F = 14,5297, табличне значення Fa,k1,.k2 = 3,07 при рівні значущості a = 0,05 та із ступенями свободи (n-m-1) = 21 та m = 3.
F >Fa,,k1,.k2, що підтверджує суттєвість зв’язку між залежною та пояснюючими змінними моделі
.
3. Для знайдених статистичних оцінок параметрів маємо такі середньоквадратичні похибки: .
Перевіримо значущість оцінок параметрів за критерієм Стьюдента: ;
.
Табличне значення критерію ta/2,k. = 2,080 при рівні значущості a = 0,05 та ступені свободи n-m-1 = 21. Таким чином,
> ta/2,k, > ta/2,k, < ta/2,k, < ta/2,k.
Оцінки параметрів при змінних X2 та X3 несуттєво відрізняються від нуля, тобто, якщо не аналізувати дані на мультиколінеарність, ці змінні як такі, що не мають впливу на залежну змінну, слід виключити з моделі (2).
4. Розглянемо модель (1), з якої виключено змінну X3, яка корелює із змінною X1 та X2 .Знайдемо оцінки параметрів:
Для такої моделі
* коефіцієнт множинної детермінації R2=0,6736;
* критерій Фішера F = 22,7032, табличне значення Fa,k1,.k2 = 3,44 при рівні значущості a = 0,05 та із ступенями свободи k1 = m = 2 та k2 = (n – m -1) = 22.
F >Fa,k1,.k2, що підтверджує суттєвість впливу пояснюючих змінних моделі на залежний фактор.
Для знайдених статистичних оцінок параметрів маємо такі середньоквадратичні похибки: .
Перевіримо значущість оцінок параметрів за критерієм Стьюдента:
табличне значення ta/2.k =2,074 при рівні значущості a = 0,05 та ступені свободи k = n - m- 1= 22: > ta/2.k, > ta/2.k, > ta/2.k,
Статистичні оцінки параметрів для моделі (1) суттєво відрізняються від нуля.
Крім того, порівняння двох моделей показує, що середні похибки, а, отже, і дисперсії оцінок параметрів першої моделі менші за аналогічні для другої моделі. Таким чином, можна зробити висновок, що перша модель надійніша в користуванні за другу.