Дослідження наявнoстi мультиколінеарності у масиві змінних

Завдання: Визначити вплив на ціну легкового автомобіля (Y) таких факторів як вік автомашини (Х1), об’єм двигуна (Х2) та пробіг (Х3).

Кількість пояснюючих змінних m>1, постає питання про те, щоб виконувалась передумова застосування методу найменших квадратів - відсутність зв’язку між регресорами. Тому перед побудовою моделі проведемо тест на наявність мультиколінеарності.

№ п/п ( i )   Ціна автомобіля (Y), тис.дол..США   Вік автомобіля (X1), Роки Об’єм двигуна автомобіля (X2), дм3 Пробіг Автомобіля (X3), тис.км
3,2 1,3
8,7 1,8
1,6 1,8
2,4
18,9
15,8
1,6
2,6
22,7 2,1
13,9
10,9 1,5
9,5 2,6
2,2
1,8
5,8 1,6
2,8 1,6
2,2
10,5
16,9 2,3
3,4 1,5
1,4
1,8
    Середнє 13,0240 5,8800 2,1640 94,8400
    Дисперсія 55,9244 13,5267 0,5157 2606,2233
σ 7,4783 3,6779 0,7181 51,0512

Необхідно:

1) нормалізувати статистичну інформацію;

2) обчислити кореляційну матрицю та вектор коефіцієнтів парної кореляції;

3) розрахувати визначник кореляційної матриці та перевірити його відмінність від нуля;

4) знайти матрицю, обернену до кореляційної, і на основі її елементів:

a) розрахувати часткові коефіцієнти парної кореляції та перевірити їх статистичну значущість за t-критерієм;

b) за F-критерієм перевірити суттєвість зв’язку кожної пояснюючої змінної з рештою регресорів;

5) визначити змінні, між якими відсутній зв’язок і які можна включити до моделі в якості незалежних змінних.

І. Дослідження моделі на мультиколінеарність

· Нормалізуємо вхідну інформацію: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Нормалізовані дані записані в таблиці

№ п/п Y* X* 1 X*2 X*3
-0,2707 0,0326 1,1641 0,6691
-1,3137 1,1202 -1,2031 1,0805
-0,5782 1,1202 -0,5069 0,8258
-1,5276 2,7516 -0,5069 2,0795
0,5317 -1,0550 0,3286 -0,6825
0,7857 -0,5112 2,5566 0,3361
0,3712 -0,7831 -0,2284 -0,4082
0,6654 0,0326 1,1641 1,3743
0,7991 -0,7831 2,5566 -0,6433
-0,9393 0,0326 -0,7854 0,1011
-0,0032 0,0326 0,6071 -0,9959
1,2939 -0,2393 -0,0891 0,1207
0,1171 -0,7831 -0,2284 0,1011
-0,2840 -0,7831 -0,9246 -0,7412
-0,4712 0,5764 0,6071 1,4135
2,0026 -0,7831 0,0501 -0,8196
-0,9393 0,5764 -0,5069 0,4928
-0,9660 0,8483 -0,7854 -0,1144
-1,3672 1,3921 -0,7854 -1,2701
1,7352 -1,3269 0,0501 -1,5443
-0,3375 0,0326 -0,2284 0,4341
0,5183 0,3045 0,1894 1,0609
-1,2869 0,8483 -0,9246 0,1011
0,1305 -1,3269 -1,0639 -1,7010
1,3340 -1,3269 -0,5069 -1,2701

На основі нормалізованих даних обчислимо кореляційну матрицю r та вектор коефіцієнтів парної кореляції Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru : Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Маємо: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

· Перевіримо наявність мультиколінеарності серед пояснюючих змінних.

Спочатку обчислимо визначник кореляційної матриці det(r) :

det(r) =0,4344.

Визначник не дорівнює нулю, таким чином, між регресорами відсутній лінійний зв’язок. Переконаємося також у відсутності тісного кореляційного зв’язку між змінними .

Якщо визначник кореляційної матриці наближається до одиниці, можемо говорити про відсутність мультиколінеарності та незалежність факторів, включених до моделі. Статистична оцінка відсутності зв’язку між регресорами може бути перевірена за допомогою гіпотези про незалежність змінних, на основі яких розраховано кореляційну матрицю, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru . Доведено, що величина:

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

має приблизний розподіл c2 з Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru ступенями свободи. Якщо статистичне значення Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru менше за табличне (критичне) значення Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru <c2a,k., то гіпотеза Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru приймається.

Для визначника обчисленої кореляційної матриці c2=18,48. Порівняємо c2 із табличним значенням c2a,k з Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru ступенями свободи при рівні значущості a = 0,05. Так як m = 3, то c2a,k = 7,81. Отже, c2>c2a,k. Це означає, що треба відхилити нульову гіпотезу Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru , і визначник кореляційної матриці суттєво відрізняється від 1, що, в свою чергу, свідчить про наявность мультиколінеарності пояснюючих змінних.

· Далі обчислимо матрицю, обернену до кореляційної матриці r:

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

За елементами матриці С розрахуємо часткові коефіцієнти парної кореляції: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

Перевіримо статистичну значущість часткових коефіцієнтів парної кореляції на основі t–критерію. Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru . Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru Табличне значення критерію ta/2,k. = 2,069 при рівні значущості a = 0,05 та ступені свободи k = n-m =23: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2,k, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2,k,

що дозволяє відхилити нульову гіпотезу про рівність нулю часткових коефіцієнтів парної кореляції Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru і Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru ; Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru < ta/2,k,

у даному випадку приймаємо нульову гіпотезу про рівність нулю часткового коефіцієнта парної кореляції Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Таким чином, між змінними X1 і X2 та X1 і X3 існує тісний кореляційний зв’язок, що свідчить про наявність мультиколінеаності.

· Якщо кореляційна матриця r відмінна від одиничної, то й обернена до неї матриця C також відмінна від одиничної. Розглянемо величину

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru ,

де Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru - діагональний елемент матриці C, n – кількість спостережень; m - число пояснюючих змінних. Ця величина має розподіл Фішера з k1 = m-1 та k2 = n – m ступенями свободи. Обчислення величини Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru аналогічне перевірці суттєвості зв’язку в моделі, в якій залежною змінною буде змінна Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru , а пояснюючими змінними – решта (m - 1) факторів : Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru . При рівні значущості a = 0,05 Fa = 3,42.

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > Fa,k1,.k2 Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > Fa,k1.k2, що означає суттєву залежність першої пояснюючої змінної від другої та третьої (віку автомобіля від об’єму двигуна та пробігу); третьої від першої та другої (пробігу від віку автомашини та об’єму двигуна).

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru < Fa,k1,.k2, тобто така змінна як об’єм двигуна не корелює із змінними, які визначають вік автомобіля та його пробіг. Змінну X2 включаємо до моделі.

· Аналізуючи елементи вектора парних коефіцієнтів кореляції Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru бачимо, що найбільший вплив на Y серед пояснюючих змінних мають змінні X1 та X2.

Змінна X3 найменше впливає на результативний фактор, крім того, корелює X1 та X2. Доцільно не включати як пояснюючий фактор X3 до моделі.

ІІ. Таким чином, можна записати наступну економетричну модель без фактора X3:

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru . (1)

Переконаємося в тому, що пояснюючі змінні цієї моделі не колінеарні між собою. Для цього сформуємо кореляційну матрицю: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Визначимо детермінант кореляційної матриці та розрахуємо критерій c2:

det(r) = 0,9322; c2 = 1,5801.

Табличне значення c2a,k = 3,84 при a = 0,05 та ступені свободи Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru =1. Порівнявши дві величини, бачимо: c2<c2a,k,

що свідчить про несуттєву відмінність визначника кореляційної матриці від одиниці.

Можемо стверджувати, що пояснюючі змінні X1 та X2 є незалежними.

III. Порівняємо оцінки параметрів моделей, обчислених без та з урахуванням мультиколінеарності.

1. За методом найменших квадратів знайдемо статистичні оцінки параметрів моделі

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru (2)

без урахування зв’язків між пояснюючими змінними. Одержуємо наступне рівняння зв’язку: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

2. Для цієї моделі:

* коефіцієнт множинної детермінації R2 = 0,6749;

* критерій Фішера: F = 14,5297, табличне значення Fa,k1,.k2 = 3,07 при рівні значущості a = 0,05 та із ступенями свободи (n-m-1) = 21 та m = 3.

F >Fa,,k1,.k2, що підтверджує суттєвість зв’язку між залежною та пояснюючими змінними моделі

.

3. Для знайдених статистичних оцінок параметрів маємо такі середньоквадратичні похибки: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Перевіримо значущість оцінок параметрів за критерієм Стьюдента: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru ;

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Табличне значення критерію ta/2,k. = 2,080 при рівні значущості a = 0,05 та ступені свободи n-m-1 = 21. Таким чином,

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2,k, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2,k, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru < ta/2,k, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru < ta/2,k.

Оцінки параметрів при змінних X2 та X3 несуттєво відрізняються від нуля, тобто, якщо не аналізувати дані на мультиколінеарність, ці змінні як такі, що не мають впливу на залежну змінну, слід виключити з моделі (2).

4. Розглянемо модель (1), з якої виключено змінну X3, яка корелює із змінною X1 та X2 .Знайдемо оцінки параметрів: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

Для такої моделі

* коефіцієнт множинної детермінації R2=0,6736;

* критерій Фішера F = 22,7032, табличне значення Fa,k1,.k2 = 3,44 при рівні значущості a = 0,05 та із ступенями свободи k1 = m = 2 та k2 = (n – m -1) = 22.

F >Fa,k1,.k2, що підтверджує суттєвість впливу пояснюючих змінних моделі на залежний фактор.

Для знайдених статистичних оцінок параметрів маємо такі середньоквадратичні похибки: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru .

Перевіримо значущість оцінок параметрів за критерієм Стьюдента:

Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru

табличне значення ta/2.k =2,074 при рівні значущості a = 0,05 та ступені свободи k = n - m- 1= 22: Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2.k, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2.k, Дослідження наявнoстi мультиколінеарності у масиві змінних - student2.ru > ta/2.k,

Статистичні оцінки параметрів для моделі (1) суттєво відрізняються від нуля.

Крім того, порівняння двох моделей показує, що середні похибки, а, отже, і дисперсії оцінок параметрів першої моделі менші за аналогічні для другої моделі. Таким чином, можна зробити висновок, що перша модель надійніша в користуванні за другу.

Наши рекомендации