Кореляційно-регресійний аналіз
Головною характеристикою кореляційного зв'язку є лінія регресії. Лінія регресії х на у - це функція, яка зв'язує середні значення ознаки у зі значеннями ознаки х. Залежно від форми лінії регресії розрізняють лінійний і нелінійний зв'язки. Лінія регресії може бути представлена таблично, графічно, аналітичне. У кореляційно-регресійному аналізі (КРА) оцінка лінії регресії здійснюється не в окремих точках, як в аналітичному групуванні, а в кожній точці інтервалу зміни фактичної ознаки х. Лінія регресії при цьому безперервна і зображується у вигляді певної функції Y = f(x), яка зветься рівнянням регресії, a Y -це теоретичні значення результативної ознаки.
Пояснимо суть КРА на простому прикладі (всі числові значення умовні). Якщо ми знаємо, що відрізок металевої рейки певного правильного профілю довжиною 1 м важить 10 кг, то можемо назвати точну вагу, а точніше, масу будь-якого відрізку того ж профілю. Якщо ж ми маємо кілька відрізків, тобто статистичну сукупність, то можемо виміряти довжину кожного відрізка і обчислити його масу за формулою у = mх, де m -- маса відрізку довжиною 1 метр; х — довжина відрізку в метрах. Якщо нанести на графік точки з відповідними для кожного відрізка рейки координатами, то вони будуть знаходитися на одній прямій — зв'язок функціональний, лінійний (рис. 5.3).
Рис. 5.3. Точки графіка залежності маси рейки від її довжини.
Візьмемо другу сукупність — велику групу чоловіків у віці 20—45 років, про яких можна сказати, що вони мають звичайну, нормальну фігуру, тобто не дуже низькі або високі; товсті або худі (тобто являють собою однорідну сукупність). Тепер знайдемо для кожного з них відповідну точку в системі координат «зріст - маса»
Якщо при збільшенні чисельності сукупності рейок на рис. 5.3 все виразніше буде вимальовуватись пряма лінія з'являється так зване «кореляційне поле» — щось витягнуте, схоже на еліпс. При цьому цілком очевидно, що для певного значення ознаки «зріст» (назвемо її факторною), скажімо в 180 см відповідає множиназначень результативної ознаки «Маса»..
Виявилось, що всі хлопці, які мають однаковий зріст (наприклад, 180 см), мають різну масу, в нашому прикладі від 65 кг до 95 кг, або десь 80 ± 15 кг; можна і доцільно вести мову про середнє значенняїх маси. Тут ми маємо умовний розподіл результативної ознаки «маса». Він, як і будь-який ряд розподілу кількісної ознаки, характеризується параметрами та ін. Деякі з них ми вже визначили візуально, інші можемо обчислити. Припустимо: х = 80 кг; а = 5 кг.
Цікаво відмітити, що коли компанія хлопців буде досить великою, то їх розподіл за масою буде близьким до нормального. В природі масових явищ нормальний розподіл дуже поширений. Багато прикладів можна навести з біології, коли мова йдеться про норму, а не патологію. Нормально розвинені люди, наприклад, нормально розподілені за зростом, масою, артеріальним тиском, життєвим об'ємом легень і т. д. Навпаки, в соціально-економічних явищах нормальний розподіл зусрічається значно рідше. Можна уявити собі розподіл населення України за рівнем доходів, який має довгий «правий хвіст». Слід пам'ятати, що від форми розподілу залежить вибір методів статистичного аналізу, особливо коли йдеться про перевірку гіпотез та вивчення зв'язку. Але повернемось до нашого прикладу і зробимо наступний висновок.
Між ознаками «зріст — маса» існує статистичний, кореляційний прямий зв'язок: при збільшенні значення результативної ознаки «зріст» зростає середнє імовірнезначення ознаки «маса». Таким чином, задаючи конкретне значення фактора, ми можемо визначити імовірнезначення результата.
Якщо кореляційне поле досить витягнуте, його можна уявити і змоделювати у вигляді певної функції, в нашому прикладі лінійного рівняння (рівняння регресії):
Y=f(x),
де У— теоретичні значення результативної ознаки.
Тепер спробуємо собі уявити кореляційне поле, якщо раптом ми розглядаємо взаємозв'язок між ознаками «зріст—поверх». Мабуть, воно буде подібне до того, що зображене на рис. 5.5. Неважко дійти висновку: при відсутності зв'язку між ознаками кореляційне поле не має певної форми. По мірі зростання тіснотизв'язку окремі точки стягуються ближче до деякої уявної лінії — лінії регресії (див.рис.5.4)
Рис. 5.5. Кореляційне поле прикладу «зріст—поверх».
Кореляційно-регресійний аналіз складається із таких етапів:
• вибір форми регресії;
• визначення параметрів рівняння;
• оцінка тісноти зв'язку;
• перевірка істотності зв'язку.
При виборі функції використовують графіки, аналітичні групування, теоретичне обгрунтування. Можливий перебір функцій, коли обчислюють рівняння регресії різних видів і з них вибирають найкраще.
Найбільш поширена у статистичному аналізі лінійна функція
Y = a+bx.
Параметр b називають коефіцієнтом регресії. Він показує, на скільки одиниць власного виміру в середньому змінюється значення ознаки Y при збільшенні значення ознаки х на одиницю.Параметр а — це значення Y при х = 0.
Якщо х не може приймати нульового значення, то а економічно не інтерпретується і як вільний член рівняння регресії має тільки розрахункове значення.
Ми пропонуємо читачеві, спираючись на свій життєвий досвід, певні реальні значення параметрів для рівняння залежності маси людини від зросту. Іноді суть явища, яке вивчається, приводить до необхідності використання нелінійних рівнянь регресії. При цьому переважно використовують степеневу функцію:
Y = axb; або гіперболу Y = a+b/x
Визначення параметрів рівняння регресії проводиться методом найменших квадратів, основною умовою якого є мінімізація суми квадратів відхилень емпіричних значень від теоретичних; це дає можливість ; отримати найкращі оцінки параметрів а і Ь:
Для їх обчислення складають ,і розв'язують систему нормальних рівнянь:
na+b
a
Для рішення системи використовують метод детермінантів:
a=
b=
Визначення тісноти зв'язку в КРА, як і в методі дисперсійного аналізу, грунтується на правилі складання дисперсій, але якщо оцінками лінії регресії в першому методі були значення середніх групових, результативної ознаки, то в КРА - теоретичні значення останньої. Дисперcію теоретичних значень називають факторною і обчислюють за формулою
Вона характеризує варіацію результативної ознаки, пов'язану з варіацією факторної ознаки. Замість середньої з групових дисперсій обчислюють залишкову, випадкову дисперсію:
Тоді загальна дисперсія розраховується за формулою
або
І де уi — фактичне значення результативної ознаки; Yi -теоретичне значення результативної ознаки; n - кількість рівней.
Вона характеризує варіацію результативної ознаки, не пов'язану з варіацією факторної ознаки. Мірою тісноти зв'язку в КРА є коефіцієнт детермінації, аналогічний кореляційному відношенню:
R2=
де R2 — коефіцієнт детермінатдії, — загальна дисперсія, факторна дисперсія.
Він приймає значення від 0 (при відсутності лінійного зв'язку) до 1 (зв'язок між ознаками функціональний). Тіснота зв'язку характеризує також індекс кореляції:
R =
Коли зв'язок між ознаками лінійний, використовують лінійний коефіцієнт кореляції, який, приймаючи значення від —1 до +1, характеризує не тільки тісноту зв'язку, а і його напрям. Його абсолютна величина збігається з індексом кореляції.
Його розраховують за наступною формулою:
r =
Перевірку істотності зв'язку в КРА здійснюють за допомогою F-критерія Фішера:
FR =
де m — число параметрів рівняння регресії.
Залежність між собівартістю одиниці продукції та обсягом її виробництва може приблизно бути представлена рівнянням двочленної гіперболічної регресії
виду Y = a+b/x Вона відрізняється від лінійної тількитим, що замість величини х там присутня 1/х. Тоді система нормальних рівнянь буде мати вигляд:
na+b
a
Для розв'язання цієї системи також використовують метод детермінантів:
a=
b =
Для розрахунку параметрів рівняння регресії, яка має форму степеневої функції, потрібно привести цю функцію до лінійного виду шляхом логарифмування:
lgF = lga + b1gx.
Отримане рівняння відрізняється від рівняння звичайної лінійної регресії тим, що замість Y, х, а існують їхні логарифми.
Приклад 5.2
За допомогою методу КРА визначити наявність та характер статистичного зв'язку між ознаками «вік устаткування» та «витрати на ремонт». Вихідні дані та проміжні розрахунки наведені в табл. 5.2 [18].
За даними таблиці можна обчислити і параметри рівняння. Отже, в нашому прикладі
а = (27 - 536 - 217,1 • 70)/(10 • 536 - 70 • 70) = -1,576;
b= (10 • 217,1 - 70 • 27)/(10 • 536 - 70 • 70) = 0.611.
Таким чином, зв'язок між віком устаткування та витратами на ремонт прямий. Лінійне рівняння регресії буде мати такий вигляд
Y=-1,576+ 0,611 х
Спочатку розрахуємо теоретичні значення Y (див. табл. 5.2, гр. 6), підставивши значення xу рівняння регресії.
Таблиця 5.2
Вік устаткування та витрати на ремонт для групи підприємств (умовні одиниці)
№ n/n | Вік устаткування, р.(х) | Витрати на ремонт, тис. грн. (у) | x | ху | У | (уі-Уі)2 | |
8 | |||||||
1,5 | 6,0 | 0,868 | 0,399 | 1,44 | |||
2,0 | 10,0 | 1,479 | 0,271 | 0,490 | |||
1,4 | 7,0 | 1,479 | 0,006 | 1,69 | |||
2,3 | 13,8 | 2,09 | 0,044 | 0,16 | |||
2,7 | 21,6 | 3,312 | 0,374 | 0,0 | |||
4,0 | 40,0 | 3,312 | 0,285 | 1,69 | |||
2,3 | 18,4 | 4,534 | 1,024 | 0,16 | |||
2,5 | 17,5 | 2,7 | 0,04 | 0,04 | |||
6,6 | 72,6 | 5,145 | 2,117 | 15,21 | |||
1,7 | 10,2 | 2,09 | 0,152 | 1,0 | |||
Разом | 217,1 | 27,01 | 4,712 | 21,92 |
Залишкова дисперсія дорівнює
;
Загальна дисперсія дорівнює
Тоді факторна дисперсія розраховується на підставі правила складання дисперсій
Коефіцієнт детермінації буде дорівнювати
(або 78,5% загальної варіації витрат на ремонт залежить від варіації віку устаткування).
Обчислимо коефіцієнт кореляції за формулою
Це означає, що між віком устаткування та витратами на ремонт існує досить тісний прямий зв'язок.
Для перевірки істотності коефіцієнта кореляції застосовують спеціальну таблицю критичних значень. Величина п має значення на дві одиниці менше, ніж число спостережень. У нашому прикладі п = 10—2 = 8. Коефіцієнт буде істотним, якщо він перевищить відповідне табличне значення. Перевіримо істотність коефіцієнта кореляції за допомогою F-критерію:
При а =0,01 F(8,1) = 11,26. Це менше ніж фактичне значення (54,6).
Таким чином обчислений нами коефіцієнт кореляції є істотним і відображає тісноту зв'язку між віком устаткування та витратами на ремонт.
Можна скористуватись також і таблицею критичних значень для t-критерію. Ступені вільності залежать від числа параметрів рівняння регресії m.
Багатофакторна кореляція.
Для опису залежності результативної ознаки від кількох факторів використовують багатофакторну рег-ресійну модель
Y = F(xl,x2,...,xn).
Через труднощі обгрунтування форми зв'язку частіше використовують багатофакторні лінійні рівняння і рівняння, що приводяться до лінійного виду відповідними перетвореннями, тобто
Y=а+b1x+ b2 x2+ b3 x3+.. .+bn x4
Параметр рівняння bi називають частковим коефіцієнтом регресії, який показує, як у середньому змінюється результативна ознака У при зміні факторної ознаки xi на одиницю за умови, що інші факторні ознаки залишаються незмінними.
Розв'язання такого рівняння регресії можна здійснити також за методом найменших квадратів
na+b1∑x1+b2∑x2+…+bn∑xn=∑y
a∑x1+b1∑x12+b2∑x1x2+…+bn∑x1xn=∑x1y
……………………………………….
a∑x1+b1∑x1xn+b2∑x2xn+…+bn∑x 2n=∑xny
Відбір факторів при побудові регресійної моделі є дуже відповідальною процедурою. В роботі, яку в цьому плані можна вважати фундаментальною, автори зазначають, що вибір факторів, тісно пов'язаний з вибором моделей об'єкту, є однією з постійних та найскладніших проблем [3]. Крім глибокого розуміння суті явища, яке вивчається, від дослідника вимагається додержання ряду формальних постулатів. Зокрема, фактори, включені в модель, не повинні бути тісно пов'язані між собою.