Частинний коефіцієнт кореляції
Якщо змінні корелюють одна з одною, то на значення парного коефіцієнта кореляції частково впливають інші змінні. Вибірковим частинним коефіцієнтом кореляції між змінними та при фіксованих значеннях інших (р-2) змінних називається вираз ,
де -алгебраїчні доповнення елементів матриці . У випадку трьох змінних (р=3) маємо, що . Частинний коефіцієнт кореляції , як і парний коефіцієнт кореляції r, може приймати значення від -1 до 1. Крім цього , обчислений на основі вибірки об’єму n, має такий самий розподіл, що і r, знайдений за (n-p+2) cпостереженнями. Тому важливість частинного коефіцієнта кореляції , оцінюють так само як і коефіцієнт кореляції r, проте при цьому вважають n′=n-p+2.
◄ Приклад 1Для знаходження залежності між продуктивністю роботи Х1, віком Х2 і виробничим стажем Х3 була зроблена вибірка з 100 робітників однієї і тієї ж спеціальності. Знайдені парні коефіцієнті кореляції виявилися =0.20 =0.41 =0.82.
Знайти множинний коефіцієнт кореляції , частинні коефіцієнти кореляції і оцінити їх значення.
Розв’язання. Знайдемо множинний коефіцієнт кореляції
. Тобто, між продуктивністю праці, з одного боку , і віком та виробничим стажем працівників з іншого існує помітний зв'язок. Множинний коефіцієнт детермінації =0,255 показує, що варіація продуктивності роботи працівників на 22,5% пояснюється варіацією їх віку та стажу.
Для оцінки знайдемо . По таблицях
F- розподілу знайдемо . Оскільки F > , то значно відрізняється від 0.
Знаходимо частинні коефіцієнти кореляції:
. Аналогічно 0.44;
0.83. Оцінимо значення . Вважаємо умовно n′=n-p+2=
=100-3+2=99. Статистика критерію .
За таблицею t- розподілу Стьюдента знаходимо .
Оскільки , то частинний коефіцієнт кореляції значущий. Отже, будуть значущі і більші коефіцієнти та . Порівнюючи частинні коефіцієнти кореляції з відповідними парними коефіцієнтами бачимо, що завдяки очищенню зв’язку найбільшій зміні піддався коефіцієнт кореляції між продуктивністю праці Х1 та віком Х2 робітників (змінилась не лише його величина, а й знак, причому обидва коефіцієнти значущі). Отже між продуктивністю праці Х1 та віком Х2 робітників існує прямий кореляційний зв'язок ( .Якщо зменшити (виключити) вплив змінної Х3, то продуктивність праці Х1 знаходиться в оберненому (і досить слабкому по тісноті) зв’язку з віком працівників Х2. Це досить легко пояснити, якщо розглядати вік як показник продуктивності (працездатності) організму на певному відрізку його життєдіяльності. Таким самим способом можуть бути інтерпретовані й інші частинні коефіцієнти кореляції.►
Задачею наукового дослідження є в відшукування причинних залежностей. Тільки знання справжніх причин дозволяє правильно зрозуміти і викласти закономірності, що спостерігаються. Але кореляція, як формальне статистичне поняття, сама по собі не показує причинного характеру зв’язку. За допомогою кореляційного аналізу не можна вказати, яку змінну приймати як причину, а яку – як наслідок.
Не існує загальновживаного критерію перевірки вимоги кореляційного аналізу - нормальності багатовимірного розподілу змінних. Враховуючи властивості теоретичної моделі, зазвичай вважають, що відношення до спільного нормального закону можливе, якщо окремі одномірні розподіли змінних не суперечать нормальним розподілам. Для перевірки лінійності зв’язку пари ознак можна використовувати розходження між квадратами емпіричного кореляційного відношення та коефіцієнта кореляції , враховуючи, що статистика (n - кількість спостережень, m - кількість групових інтервалів) має F-розподіл з i степенями вільності.
Рангова кореляція
На практиці часто стикаються з необхідністю вивчення зв’язку між ординальними (порядковими) змінними, виміряними в так званій порядковій шкалі. В цій шкалі можна встановлювати лише порядок, в якому об’єкти вишикуються по степенях проявлення ознаки (наприклад, якість житлових умов, тестові бали, екзаменаційні оцінки). Якщо, наприклад, по деякій дисципліні два студента мають оцінки відмінно та задовільно, то можна стверджувати що рівень підготовки по цій дисципліні у першого студента вище (більше ) ніж у другого, проте не можна стверджувати на скільки або у скільки разів більше. Виявляється, що в таких випадках проблема оцінки тісноти зв’язку розв’язна, якщо розташувати об’єкти аналізу за степенями вимірюваних ознак. При цьому кожному об’єкту надається певний номер, який називається рангом. Наприклад, об’єкту з найменшим проявом ознаки присвоюється ранг 1, наступному - ранг 2 і так далі.
Коефіцієнт рангової кореляції Спірмена знаходиться за формулою:
, де та - ранги і-го об’єкта по змінним Х та Y, n- число пар спостереження. Якщо ранги всіх об’єктів рівні, то . При повному зворотному зв’язку, коли ранги об’єктів по двом змінним розташовані у зворотньому порядку, можна показати, що
і . В усіх інших випадках .
При ранжуванні іноді стикаються з випадками, коли неможливо знайти відмінності між об’єктами за величиною прояву даної ознаки. Такі об’єкти, називаються зв’язаними. Зв’язаним об’єктам приписують однакові середні ранги. Наприклад, якщо чотири об’єкти виявилися рівнозначними по відношенню до деякої ознаки і не можливо визначити, який з чотирьох рангів (4, 5, 6, 7) приписати цим об’єктам, то кожному об’єкту приписують середній ранг, який дорівнює (4+5+6+7)/4=5.5.
При наявності зв’язаних рангів ранговий коефіцієнт кореляції Спірмена знаходиться за формулою: , де
, , та - кількість груп нерозпізнаних рангів у змінних Х та Y; та - кількість рангів, які входять в групу нерозпізнаних рангів змінних Х та Y.
При перевірці значущості виходять з того , що у випадку справедли-вості нульової гіпотези про відсутність кореляційного зв’язку між
змінними при n>10 статистика має t-розподіл Стьюдента з k=n-2 степенями вільності. Тому значуще на рівні , якщо , де - табличне значення t-критерія Стьюдента , визначене на рівні значущості при числі степенів вільності k=n-2.
◄ Приклад 2 За результатами тестування 10 студентів по двох дисциплінах А і В на основі набраних балів отримані наступні ранги (табл. 2.1). Обчислити ранговий коефіцієнт кореляції Спірмена і перевірити його значущість на рівні α=0,05.
Розв’язання.Відмінність рангів та їх квадрати помістимо в останніх двох рядках табл.1.
Таблиця 1
Ранги по дисциплінах | Студент, i | Всього | |||||||||
А ( ) | 7,5 | 7,5 | 7,5 | 7,5 | |||||||
В ( ) | 2,5 | 2,5 | 9,5 | 9,5 | |||||||
- | -0,5 | -2 | 0,5 | -0,5 | -2 | -2 | 0,5 | - | |||
0,25 | 0,25 | 0,25 | 0,25 |
За формулою рангового коефіцієнта кореляції Спірмена
, .
Але ця формула не враховує наявність зв’язаних рангів. По дисципліні А маємо – одну групу нерозпізнаних рангів з ; по дисципліні B - – дві групи нерозпізнаних рангів з . Тому скористаємося формулою для зв’язаних рангів:
і
.
Для перевірки значущості обчислимо статистику
.
За таблицею . Оскільки - це означає, що ранговий коефіцієнт кореляції є значущим на рівні 5%. Отже, зв’язок між оцінками з двох дисциплін достатньо тісний. ►