Кореляційний та регресійний аналіз
ОСНОВНІ ПОЛОЖЕННЯ КОРЕЛЯЦІЙНОГО АНАЛІЗУ.
КОЕФІЦІЄНТ КОРЕЛЯЦІЇ
Поняття кореляції та регресії з’явилися в середині ХІХ ст. завдяки роботам англійських статистиків Ф. Гальтона і К. Пірсона.
В економічній та інших сферах між змінними величинами існує залежність, коли кожному значенню однієї змінної відповідає множина можливих значень іншої змінної, тобто кожній змінній відповідає умовний розподіл другої змінної. Така залежність отримала назву статистичної або стохастичної. Прикладами статистичного зв’язку є залежність врожайності від кількості внесених добрив, продуктивність праці від енергоозброєння працівників і т.ін.
Означення 6.1. Статистична залежність між двома змінними, при якій кожному значенню однієї змінної відповідає певне умовне математичне сподівання іншої, називається кореляційною(від латинського «correlatio» - співвідношення, взаємозв’язок).
Кореляційна залежність має вигляд:
(6.1)
або , (6.2)
де . Ці рівняння називаються модельними рівняннями регресії (від лат. «regressio»- рух у зворотньому напрямку) або просто рівняннями регресії відповідно Y по X та X по Y; функції - модельними функціями регресії, а їх графіки – лініями регресії.
Для відшукання модельних рівнянь регресії необхідно знати закон розподілу двовимірної випадкової величини (X, Y), що не завжди можливо. На практиці дослідник має лише вибірку пар значень ( ). В цьому випадку досліджують найкращу оцінку – вибіркову лінію регресії Y по X:
, (6.3)
де - умовне середнє змінної Y при фіксованому значенню змінної X=х; - параметри кривої.
Аналогічно визначається вибіркова лінія регресії X по Y:
, (6.4)
де - умовне середнє змінної X при фіксованому значенню змінної Y =у; - параметри кривої. Рівняння (6.3) і (6.4) називають вибірковими рівняннями регресії відповідно Y по X та X по Y. При вдало визначених функціях і із збільшенням об’єму вибірки ( ) вони будуть збігатися за ймовірністю до функцій .
Статистичні зв’язки можна вивчати методами кореляційного і регресійного аналізу.
Основною задачею регресійного аналізу є встановлення форми і вивчення залежності між змінними.
Основною задачею кореляційного аналізу є виявлення зв’язку між випадковими змінними і оцінка його тісноти .
Лінійна парна регресія
Дані про статистичну залежність зручно задавати у вигляді кореля-ційної таблиці. Розглянемо, як приклад, таблицю залежності між добовим виробітком продукції Y (т) і величиною основних виробничих фондів (ОВФ) Х (млн.грн) для сукупності однотипних виробництв (табл.6.1).
Таблиця 6.1
Величина ОВФ млн.грн (Х) | Середини інтервалів | Добовий виробіток продукції, т (Y) | Всього | Групове середнє, т,( ) | ||||
7-11 | 11-15 | 15-19 | 19-23 | 23-27 | ||||
\ | ||||||||
20-25 | 22,5 | - | - | - | 10,3 | |||
25-30 | 27,5 | - | - | 13,3 | ||||
30-35 | 32,5 | - | - | 17,8 | ||||
35-40 | 37,5 | - | 20,3 | |||||
40-45 | 42,5 | - | - | - | 23,0 | |||
Всього ni | - | |||||||
Групове середнє млн.грн, | 25,5 | 29,3 | 37,9 | 35,4 | 39,2 | - | - |
Зобразимо отриману залежність графічно точками координатної площини. Таке зображення статистичної залежності називається полем кореляції. Для кожного значення , тобто для кожного рядка кореля-ційної таблиці обчислимо групові середні
, (6.5)
де - частоти пар і ; - кількість інтервалів за змінною Y. Обчислені групові середні розташуємо в останньому стовпці кореляційної таблиці і зобразимо графічно у вигляді ламаної, що називається
емпіричною лінією регресії Y по Х (рис. 6.1).
ОВФ, млн.грн |
5 10 15 20 25 30 35 40 45 |
Добовий виробіток, т |
Емпірична лінія регресії, Y по Х |
у=16,92 |
x=32,1 |
Рис. 6.1
Аналогічно, для кожного значення обчислимо групові середні (розміщені у нижньому рядку кореляційної таблиці):
, (6.6) де , - кількість інтервалів за змінною Х. За виглядом ламаної
лінії можна припустити наявність лінійної кореляційної залежності Y по Х між двома змінними, що розглядаються. Ця залежність графічно буде більш точною, якщо збільшити об’єм вибірки:
. (6.7)
Тому рівняння регресії будемо шукати у вигляді . (6.8)
Параметри рівняння знайдемо за методом найменших квадратів, тобто відшукаємо значення мінімізуючи функцію
(6.9)
Необхідні умови екстремуму:
Після перетворень отримаємо систему нормальних рівнянь для визначення параметрів : (6.10)
Враховуючи формулу (6.5), перетворимо вирази:
.
Поділимо обидві частини нормальних рівнянь на і застосуємо формулу (6.7). Отримаємо систему у вигляді:
(6.11)
де , (6.12)
(6.13)
(6.14)
Підставимо значення з першого рівняння системи (6.11) в рівняння регресії:
(6.15)
Коефіцієнт називається вибірковим коефіцієнтом регресії Y по Х
( ), отже,
(6.16)
Коефіцієнт регресії Y по Х показує, на скільки одиниць в середньому зміниться Y при збільшенні Х на одну одиницю.
Розв’яжемо остаточно нормальну систему і знайдемо :
(6.17)
де - вибіркова дисперсія змінної Х; - вибірковий кореляційний момент, або вибіркова коваріація.
Розмірковуючи аналогічно, з рівняння регресії Х по Y матимемо: - вибірковий коефіцієнт регресії Х по Y , що показує, на скільки одиниць в середньому зміниться Х при збільшенні Y на одну одиницю. - вибіркова дисперсія змінної Y. Коефіцієнти регресії мають однакові знаки, що визначаються знаком . Коефіцієнти визначають кутові коефіцієнти відповідних ліній регресії (лінії перетинаються в точці ( )) (див. рис. 6.3).
◄ Приклад 6.1За даними таблиці 6.1 знайти рівняння регресії Y по Х і Х по Y та пояснити їх зміст.
Розв’язання. Обчислимо всі необхідні суми:
Знаходимо вибіркові характеристики і параметри рівняння регресії:
Отже, рівняння регресії:
З першого рівняння регресії Y по Х випливає, що при збільшенні основних виробничих фондів (ОВФ) Х на 1 млн.грн. добовий виробіток продукції Y збільшиться в середньому на 0,6762 т. Друге рівняння регресії Х по Y показує, що для збільшення добового виробітку продукції на 1 т необхідно в середньому збільшити ОВФ на 0,8099 млн.грн. Зауважимо, що вільні члени рівнянь не мають реального змісту.►
Коефіцієнт кореляції
Оцінимо тісноту лінійної кореляційної залежності. Виберемо стандартну систему одиниць виміру, в якій дані за різними характеристиками виявилися б такими, що можуть бути порівняні між собою. Ця система використовує в якості одиниці виміру змінної її середнє квадратичне відхилення . Представимо рівняння регресії у вигляді:
(6.18)
Величина показує на скільки зміниться в середньому Y, коли Х збільшиться на одне .
Величина є показником тісноти лінійного зв’язку і називається вибірковим коефіцієнтом кореляції.
На рис. 6.2 наведено дві кореляційні залежності змінної Y по Х: у випадку а) залежність між змінними менш тісна, ніж у випадку б). Якщо , кореляційний зв’язок називається прямий, а якщо - обернений.
Формула для симетрична відносно змінних Y та Х, отже, можна записати . Перемножимо обидві формули для :
(6.19) Отже, коефіцієнт кореляції змінних Y та Х є середнє геометричне кое-
фіцієнтів регресії і має їх знак.
б) |
a) |
y |
x |
y |
x |
Рис. 6.2
◄ Приклад 6.2 Обчислити коефіцієнт кореляції між величиною основних виробничих фондів Х і добовим виробітком продукції Y за даними табл. 6.1.
Розв’язання. В прикладі 6.1 були обчислені коефіцієнти регресії
Отже, . Таким чином, зв’язок між змінними прямий і достатньо тісний►.
Основні властивості коефіцієнта кореляції:
( об’єм вибірки достатньо великий)
1. Коефіцієнт кореляції приймає значення на відрізку .
В залежності від того наскільки наближається до одиниці розрізняють зв’язок слабкий, помірний, відчутний, достатньо тісний, тісний і вельми тісний.
2. Якщо всі значення змінних збільшити (зменшити) на одне і те саме число або в одне і те саме число разів, то величина коефіцієнта кореляції не зміниться.
3. При кореляційний зв’язок представляє лінійну функціональну залежність. При цьому лінії регресії Y по Х та Х по Y співпадають і всі спостереженні значення розташовані на спільній прямій.
4. При лінійний кореляційний зв’язок відсутній. При цьому групові середні змінних співпадають з їх загальними середніми, а лінії регресій Y по Х та Х по Y паралельні осям координат. Рівність каже лише про відсутність лінійної кореляції, але не про відсутність взагалі кореляційної або статистичної залежності.