Кореляційний та регресійний методи аналізу зв’язку
Основне завдання кореляційного та регресійного методів полягає в аналізі статистичний даних для виявлення математичної залежності між досліджуваними ознаками і встановлення за допомогою коефіцієнта кореляції порівняльної оцінки щільності взаємозв’язку.
Кореляційний те регресійний методи вирішують два основних завдання:
1) визначають за допомогою рівнянь регресії аналітичну форму зв’язку між варіацією ознак х та у;
2) встановлюють ступінь щільності зв’язку між ознаками.
Важливою характеристикою кореляційного зв’язку є лінія регресії. В статистиці розглядають такі види лінії регресії:
1. емпірична – представлена груповими середніми результативної ознаки , кожна з яких належить до відповідного інтервалу групувального фактора хі.
2. теоретична – описується певною функцією, яку називають рівнянням регресії.
Рівняння регресії характеризує зміну середнього рівня результативної ознаки у залежно від зміни факторної ознаки х.
У випадку нерівномірного співвідношення варіацій взаємозв’язаних ознак застосовують нелінійні регресії (степеневу, гіперболічну, параболічну).
У разі лінійної форми зв’язку результативна ознака змінюється під впливом факторної рівномірно і має такий вигляд:
,
де У – згладжене середнє значення результативної ознаки;
х – факторна ознака;
а, b – параметри рівняння регресії;
а – значення У при х = 0;
b – коефіцієнт регресії, який вказує на те, наскільки змінюється результативна ознака внаслідок зміни факторної ознаки на одиницю.
Якщо b має позитивний знак, то зв’язок прямий, навпаки – зв’язок обернений.
Параметри рівняння зв’язку визначають за способом найменших квадратів складеної і розв’язаної системи двох рівнянь з двома невідомими:
,
де п – число членів у кожному з двох порівнюваних рядів;
сума значень факторної ознаки;
сума квадратів значень факторної ознаки;
сума значень результативної ознаки;
сума добутків значень факторної та результативної ознак.
Розв’язавши дану систему рівнянь, отримаємо наступні формули визначення параметрів рівняння:
Оцінка щільності та перевірка істотності кореляційного взаємозв’язку використовує низку показників, які мають наступні властивості:
– за відсутністю зв’язку значення коефіцієнта наближається до нуля, а при функціональному зв’язку – до одиниці;
– за наявністю кореляційного зв’язку коефіцієнт виражається дробом, який за абсолютною величиною тим більший, чим щільніший зв’язок.
Серед мір щільності найпоширенішим є коефіцієнт кореляціїПірсона, який визначається за допомогою наступною формули:
або
або
Коефіцієнт кореляції, оцінюючи щільність зв’язку, вказує на його напрям: коли зв’язок прямий, r – величина додатна, та навпаки. Коефіцієнт коливається в межах від -1 до +1.
Рівняння регресії відбиває закон зв’язку між х та у для сукупності в цілому, тобто закон, який абстрагує вплив інших факторів. Вплив інших факторів, крім х, зумовлює відхилення емпіричних значень у від теоретичних У в той чи інший бік. Відхилення (у - У) називають залишками. Залишки, як правило, являються меншими, ніж відхилення від середньої: .
Для визначення щільності зв’язку між ознаками потрібно обчислити дисперсію відхилень, тобто залишкову дисперсію, яка зумовлюється впливом інших факторів, крім х:
,
де п – кількість елементів сукупності;
у – значення результативної ознаки;
У – теоретичні значення результативної ознаки, тобто отримані за допомогою рівняння регресії.
Також розраховують загальну дисперсію:
.
Відношення факторної дисперсії до загальної розглядається як міра щільності кореляційного зв’язку і називається коефіцієнтом детермінації:
.
Коефіцієнт детермінації коливається в межах від 0 до 1. Якщо коефіцієнт дорівнює 0, то зв’язок між ознаками відсутній, коефіцієнт дорівнює 1, то зв’язок функціональний.
Корінь квадратний з коефіцієнта детермінації називають індексом кореляції R. Коли зв’язок лінійний, то .
Перевірку сили зв’язку в кореляційно-регресійному аналізі здійснюють за допомогою тих самих критеріїв та процедур, що й у аналітичному групуванні.
Ступені вільності залежать від числа параметрів рівняння (т):
к1 = т – 1 (– число параметрів рівняння)
та кількості одиниць досліджуваної сукупності(п ):
к2 =п – т.
Істотність зв’язку перевіряють за допомогою F-критерію для 5%-го рівня значущості:
.
Якщо фактичний критерій більше за критичний, то з прийнятим ступнем імовірності можна стверджувати про істотність зв’язку між результативною та факторною ознаками.
Багатофакторний аналіз.
У багатьох випадках на результативну ознаку впливає не один, а декілька факторів. Між факторами існують складні взаємозв’язки, тому їх вплив на результативну ознаку є комплексним.
Багатофакторний кореляційний аналіз дає змогу оцінити міру впливу на досліджуваний результативний показник кожного із введених у модель факторів при фіксованому положенні на середньому рівні інших факторів. Важливою умовою є відсутність функціонального зв’язку між факторами.
Найскладнішою проблемою є вибір форми зяз5ку, аналітичного виразу зв’язку, на підставі чого за наявними факторами визначають результативну ознаку-функцію. Ця функція має краще за інші відображати реальні зв’язки між досліджуваним показником та факторами. Емпіричне обґрунтування типу функції за допомогою графічного аналізу зв’язків для багатофакторних моделей майже непридатне.
Форму зв’язку визначають добиранням функцій різних типів, але це пов’язане з великою кількістю зайвих розрахунків. Функцію приводять за допомогою різних методів до лінійного виразу:
У = а0 + а1х1 + ... +апхп
Параметри рівняння обчислюють способом найменших квадратів.
Кожний коефіцієнт рівняння вказує на ступінь впливу відповідного фактора на результативний показник при фіксованому положенні решти факторів, тобто як зі зміною окремого фактора на одиницю змінюється результативний показник. Вільний член множинної регресії економічного змісту не має.
На підставі коефіцієнтів регресії не можна судити, яка з факторних ознак має більший вплив на результативну. З метою виявлення порівняльної сили впливу окремих факторів та їх резервів, статистика обчислює часткові коефіцієнти еластичності, які показують, наскільки процентів у середньому зміниться результативна ознака при зміні на 1% кожного фактору та фіксованому положенні інших факторів.
Для виміру щільності за допомогою спеціальних формул розраховують множинний коефіцієнт кореляції, який показує яку частину загальної кореляції складають коливання під впливом факторів х1, ..., хп.
Для поглиблення економічного аналізу, збільшують кількість суттєвих факторів, які вводять у модель досліджуваного показника і будують багатофакторні рівняння регресії, використовуючи сучасні методи і засоби обчислювальної техніки.