Хід роботи

Ще Гіппократ в VI сторіччя до н.е. звернув увагу на наявність зв'язку між статурою і темпераментом людей, між будовою тіла і схильністю до тих або інших захворювань. Певні види подібного зв'язку виявлені також і в тваринному й рослинному світі. Наприклад, відомий зв'язок між якістю насіння і врожайністю культурних рослин. У рослин і тварин закономірності зв'язків ускладнюються тим, що зазвичай кожному певному значенню однієї з ознак відповідає не одне значення іншої ознаки, а ціла сукупність значень. Такі часткові зв'язки між ознаками, чинниками, подіями, характеристиками називаються кореляційними.

1. Побудова кореляційної сітки і кореляційної таблиці.При безпосередньому аналізі отриманих даних важко скласти якесь уявлення про наявність зв'язаності між ознаками. Більш ясна картина виходить у тому випадку, якщо дані табл. 27 відобразити графічно, у вигляді точкової діаграми (рис. 8). Місцеположення спостереження визначається перетином осей абсциси й ординати. Така систематизація первинних спостережень вже дає відоме уявлення про наявність корелятивного зв'язку. Іншим способом зображення кореляції є складання кореляційної таблиці (або решітки) (табл. 27).

Таблиця 27 – Довжина колоса (Х) і число зерен (Y) у рослин ячменю

№ рослини Х Y № рослини Х Y № рослини Х Y
     
                       
                · ·
Довжина колосу (см)                 ··  
            · · ·  
          · ··· ···· ··  
    ·   ··· ···· ··· ·    
    ·   ···· ··· · ·    
  · ·· ·· · ·        
  · ··   ·            

14 16 18 20 22 24 26 28 30 32 34

Число зерен

Рис. 8 – Розподіл 50 рослин ячменю за довжиною колоса і числом зерен

У неї послідовно переносять результати первинних спостережень. Місце кожного спостереження визначається одночасно за рядком Х і графою Y. Після перенесення всіх даних (для перевірки проводиться двічі) підраховують число точок у кожній клітці і в ній же записують результати. Ці числа означають кількість варіант, що мають однакове значення ознак Х і Y. Так, число 2 на перетині строки 8 і графи 19 показує, що в даній вибірці були 2 рослини, що мали довжину колоса 8 см і 19 зерен у колосі (табл. 28).

Таблиця 28 – Кореляційна таблиця

Довжина колосу в см (Х) Число зерен у колосі (Y) Сума за строками fx ax fax fax2 хід роботи - student2.ru
· 1 (6) ·· 2 (3) · 1 (0)       –3 –12 19,0
· 1 (4) ·· 2 (2) ··· 3 (0) · 1 (–2)     –2 –14 20,7
  · 1 (1) ··· 3 (0) ···· 4 (–1) ·· 2 (–2)   –1 –10 24,1
    ··· 3 (0) ····· 5 (0) ··· 3 (0) · 1 (0) 25,5
      ·· 2 (1) ······ 6 (2) ·· 2 (3) 28,0
        ·· 2 (4) · 1 (6) 29,0
        · 1 (6) · 1 (9) 29,5
          ·· 2 (12) 31,0
Сума за графами fy –6  
ay –2 –1 +1 +2 +3        
fay –4 –5        
fay2        

Потім підраховують частоти кожного рядка, що дає fx і кожної графи, що дає fy. Суми всіх частот, що обчислені окремо за підсумковим рядком і підсумковою графою, повинні дорівнювати один одному, вони представляють загальне число спостережень (n). При аналізі цієї таблиці видно, що є пряма кореляція: у довших колосів у середньому більше зерен. Кожен горизонтальний і вертикальний ряди є вибіркою з нормальним розподілом ознак, що варіюють.

Більш рельєфною виявляється залежність кількості зерен у колосі від його довжини, якщо зіставити зміну довжини колоса з числом зерен у колосі. Ці дані наведені в стовпці хід роботи - student2.ru . У кожному рядку перемножують число випадків в окремій клітці на відповідне їй значення ряду Y, сума ділиться на fx кожного рядка. Наприклад, для першого рядка: (16·1+19·2+22·1):4=19,0; для другого – (16·1+19·2+22·3+25·1):7=20,7 і так далі. З табл. 28 видно, що в міру збільшення довжини колоса зростає середня кількість зерен.

За прямої лінійної кореляції частоти групуються біля діагоналі, проведеної з лівого верхнього до правого нижнього кута. При зворотній – з верхнього правого до нижнього лівого кута таблиці, а середні значення однієї ознаки убувають у міру збільшення іншої. За відсутності кореляції частоти розташовуються більш менш рівномірно, а середнє значення хід роботи - student2.ru і хід роботи - student2.ru не змінюються залежно від варіювання значень Х і Y.

2. Обчислення коефіцієнта кореляції. Коефіцієнт кореляції прямим способом обчислюють за формулою

хід роботи - student2.ru (48)

Можна користуватися допоміжними формулами:

хід роботи - student2.ru (49)

хід роботи - student2.ru (50)

хід роботи - student2.ru (51)

За відсутності кореляції, тобто якщо ознаки варіюють незалежно одна від одної, будь-яке із значень хід роботи - student2.ru може поєднуватися як з позитивними, так і з негативними хід роботи - student2.ru однаково часто. Позитивних здобутків хід роботи - student2.ru хід роботи - student2.ru буде стільки ж, скільки і негативних, і сума здобутків буде дорівнювати або майже дорівнювати нулю. Якщо ознаки варіюють зв'язано, то відхилення хід роботи - student2.ru поєднуватимуться не з будь-якими, а тільки з деякими відхиленнями хід роботи - student2.ru . При прямій кореляції позитивні відхилення хід роботи - student2.ru будуть переважно поєднуватимуться з позитивними, а негативні хід роботи - student2.ru – з негативними хід роботи - student2.ru . Тобто, здобутки відхилень будуть переважно однозначними, і сума їх – позитивною. При зворотній кореляції поєднуються переважно відхилення з різними знаками, і сума їх здобутків буде негативна. І в тому і в іншому випадку сума здобутків буде тим більше, чим менше буде незалежних поєднань відхилень, тобто чим більше буде спряженість між ознаками, що варіюють.

При обробці нечисленної вибірки можна скористатися формулою (52):

хід роботи - student2.ru (52)

Можна скористатися способом «довільного початку» (непрямий спосіб):

хід роботи - student2.ru (53)

де ах і ау – відхилення значень X і Y від свого довільного початку в одиницях інтервалу; f – частота відповідних груп.

Коефіцієнт кореляції може набувати значень від +1 до –1, залежно від тісноти зв'язку. При повній прямій кореляції r=+1, при повній зворотній r=–1. Коли кореляція відсутня, коефіцієнт близький до 0. Зазвичай вважають, що величина r=0,20–0,30 свідчить про наявність слабкої, r=0,50–0,60 – середньої, а r=0,80–0,90 – сильної (тісної) кореляції між ознаками.

3. Обчислення квадратичної помилки коефіцієнта кореляції.За умов, якщо вибірка проведена з нормальної сукупності, помилку коефіцієнта кореляції обчислюють за формулою (54):

хід роботи - student2.ru (54)

4. Оцінка істотності коефіцієнта кореляції. Коефіцієнт кореляції вважають за істотний, якщо вірогідність появи такої кореляції в свідомо некорелятивній сукупності буде дуже мала. Таким чином, завдання зводиться до оцінки значущості відхилень r від нуля. При великому числі спостережень (n≥30) коефіцієнт кореляції можна вважати за істотний, якщо він перевищує свою помилку в 3 і більше разів, тобто хід роботи - student2.ru . У нечисленних вибірках істотність коефіцієнта кореляції оцінюється за допомогою критерію t:

хід роботи - student2.ru (55)

де n – число парних спостережень.

Зіставлення фактичного і табличного t при числі ступенів свободи k=n–1 дає можливим оцінити істотність r при вибраному рівні значущості.

5. Спосіб обчислення коефіцієнта кореляції за допомогою довільного початку.Отримані дані групують у кореляційну таблицю. За довільний початок відліку беруть значення Х і Y, що знаходяться в середині ряду. Наприклад, Ах=10, Аy=22. Рядок і графу відкреслюють жирними або кольоровими лініями. Виходить 4 квадранта. Потім обчислюють відхилення значень інтервальних груп від своїх А, записують їх в рядок ах і ау. Обчислюють fax, fax2, fay, fay2.

Після цього обчислюють здобутки axay для кожної клітки кореляційної таблиці. Наприклад, для першої клітки верхнього рядка axay=(–3)(–2)=6 і так далі. Ці здобутки записують в тих же клітках кольоровим олівцем або беруть у дужки. Потім підраховують суму всіх faxay, враховуючи знаки. Таблицю краще розділити на 4 квадранти. axay кожного квадранта таблиці мають певні знаки: плюс – в лівому верхньому (I) і правому нижньому (III), мінус – в правому верхньому (II) і лівому нижньому куту (IV).

I квадранта = 1·6+2·3+1·4+2·2+1·1=21

II квадранта = 1·(-2)+4·(-1)+2·(-2)= –10

III квадранта = 0

IV квадранта = 2·1+6·2+2·3+..+2·12=73 Разом = 84

Отже, хід роботи - student2.ru ; хід роботи - student2.ru ; хід роботи - student2.ru ; хід роботи - student2.ru ; хід роботи - student2.ru ; хід роботи - student2.ru ; n=50

хід роботи - student2.ru .

Далі проводиться оцінка істотності коефіцієнта кореляції.

6. Обчислення кореляційного відношення. У тих випадках, коли попередній аналіз показує, що залежність між двома ознаками має криволінійних характер, коефіцієнт кореляції не дає повного уявлення про ступінь зв'язку між ознаками. В цьому випадку обчислюють показник криволінійної залежності, так зване кореляційне відношення η (ета), що є відношенням двох дисперсій: дисперсії групових середніх і загальній дисперсії. Тобто кореляційне відношення відповідає на питання: яку частину загальної дисперсії результативної ознаки складає дисперсія приватних середніх цієї ознаки. Кореляційне відношення обчислюється за формулою (56):

хід роботи - student2.ru (56)

де хід роботи - student2.ru – середнє відношення групових середніх; хід роботи - student2.ru – середнє квадратичне відхилення Y.

Кореляційне відношення завжди позитивно і набуває значень від 0 до 1. У разі прямолінійного зв'язку коефіцієнт кореляції (його абсолютна величина) і кореляційне відношення рівні. Якщо зв'язок криволінійний, то η>r.

Приклад. У табл. 29 наведені дані про залежність між вмістом жиру і йодним числом у 296 зразків сої. r=–0,100, отже зв'язок між цими ознаками відсутній. В той же час характер змін йодного числа вказує на наявність криволінійної залежності: із збільшенням вмісту жиру йодне число спочатку зменшується з 137 до 126, а потім знов збільшується до 131.

Таблиця 29 – Залежність між вмістом жиру і йодним числом у насінні сої

% жиру Х Йодне число хід роботи - student2.ru (групова середня) fy хід роботи - student2.ru хід роботи - student2.ru хід роботи - student2.ru
9,1 82,81 165,62
7,1 50,41 504,10
3,1 9,61 182,59
–1,9 3,61 245,48
–1,9 3,61 274,36
1,1 1,21 79,86
1,1 1,21 53,24
2,1 4,41 30,87
3,1 9,61 38,44
Cума       1574,56

Для обчислення кореляційного відношення:

1) знаходять середнє вибірки: хід роботи - student2.ru одиниці;

2) обчислюють відхилення групових середніх від загальної середньої, тобто хід роботи - student2.ru ;

3) квадрати відхилень помножають на частоту fy;

4) обчислюють середнє квадратичне відхилення групових середніх

хід роботи - student2.ru ;

5) обчислюють звичайним способом (тут не приводиться) σy=4,78 одиниці;

6) знаходять кореляційне відношення

хід роботи - student2.ru

Квадратична помилка кореляційного відношення може бути обчислена за наближеною формулою (57):

хід роботи - student2.ru (57)

У даному прикладі хід роботи - student2.ru З достатньою достовірністю можна вважати кореляційне відношення істотним, коли воно перевершує свою помилку в 3 і більше разів, тобто коли хід роботи - student2.ru

7. Обчислення критерію криволінійності.При кореляційному аналізі характер зв'язку між ознаками часто вдається визначити за зміною групових середніх. Більш менш правильна, систематична зміна їх від групи до групи (тобто збільшення або зменшення) вказує на наявність лінійної залежності. У таких випадках необхідність в обчисленні їх відпадає.

З іншого боку, якщо характер зміни групових середніх вказує на криволінійну залежність, тоді для характеристики тісноти зв'язку обчислюють кореляційне відношення. Проте в деяких випадках за зміною групових середніх важко судити за характером зв'язку і доводиться обчислювати обидва показники – коефіцієнт кореляції і кореляційне відношення.

Деяке уявлення про характер зв'язку дає різницю η–r; чим вона більша, тим, взагалі кажучи, «більш криволінійна» залежність між ознаками. Але оскільки ці обидва коефіцієнти, як і будь-яка інша статистична характеристика, схильні до випадкових коливань, які можуть бути одно- і різнозначними, необхідно у кожному окремому випадку об'єктивно оцінити, наскільки η відрізняється від r, інакше кажучи, визначити можливі межі випадкових коливанні різниці η–r. Таку перевірку проводять за допомогою критерію криволінійності, користуючись відомим прийомом знаходження відношення

хід роботи - student2.ru (58)

Чисельником цієї формули є різниця квадратів, а знаменником – помилка цієї різниці, що обчислюється за формулою:

хід роботи - student2.ru (59)

Розраховану за формулою (58) величину t порівнюють з табличним її значенням при вибраному рівні значущості і числі ступенів свободи, що дорівнює n–2. Різниця η–r вважається за істотну, якщо tфакт дорівнює або більше tтабл. В цьому випадку визнають, що зв'язок між ознаками істотно криволінійний.

Приклад. При перевірці криволінійності зв'язку між вмістом жиру в насінні сої та йодним числом отримані наступні дані: η =0,483; r= 0,100, n=296, η2–r2=0,2233.

Обчислюємо помилку різниці sη–r за формулою (59):

хід роботи - student2.ru ; хід роботи - student2.ru .

8. Розрахунок коефіцієнта детермінації. Для тлумачення значень, що є показниками тісноти кореляційного зв'язку, використовують так звані коефіцієнти детермінації, які показують, яка частка варіації однієї ознаки залежить від варіювання іншої ознаки. За наявності лінійного зв'язку коефіцієнт детермінації є квадратом коефіцієнта кореляції хід роботи - student2.ru , а за нелінійної залежності між ознаками Х і Y – квадрат кореляційного відношення хід роботи - student2.ru . Так, коефіцієнт детермінації між (Х) надземною і підземною масою (Y) частини рослин складає хід роботи - student2.ru або 27,4 %. Це означає, що лише 27,4 % варіації ознаки Х визначається варіюванням ознаки Y. Найчастіше застосовують квадрат кореляційного відношення.

Коефіцієнт детермінації дає підставу побудувати наступну зразкову шкалу, що дозволяє робити висновок про тісноту зв'язку між ознаками: при r=0,5–0,6 зв'язок вважається за середній, r<0,5 вказує на слабкий зв'язок і лише при r≥0,7 можна судити про сильний зв'язок, коли приблизно 50 % варіації ознаки Y залежить від варіації ознаки Х.

Наши рекомендации