Тема 11. Вивчення взаємозв'язків між ознаками
Статистика вивчає об’єктивно існуючі зв’язки між соціально-економічними явищами, які мають причинно-наслідковий характер.
Ознаки, що характеризують причини та умови зв’язку, називаються факторними, а ті, що характеризують наслідки, – результативними.
Розрізняють два типи зв'язків – функціональні та стохастичні.
Функціональний – це зв'язок, при якому кожному значенню фактора х відповідає одне або визначене значення у.
Стохастичний зв'язок – це зв’язок, при якому кожному значенню ознаки х відповідає певна множина значень ознаки у, які утворюють так званий умовний розподіл.
Кореляційний – це різновид стохастичного зв’язку, при якому кожному значенню ознаки х відповідає середнє значення результативної ознаки , тобто кореляційний зв'язок виявляється в зміні середніх умовних розподілів.
Характеристикою кореляційного зв’язку є лінія регресії. Для її побудови використовують дві моделі:
- модель аналітичного групування,
- модель регресійного аналізу.
Етапи кореляційного аналізу:
1) встановлення наявності зв’язку між факторною та результативною ознаками;
2) оцінити щільність зв’язку між ознаками;
3) перевірити істотність зв’язку.
Модель аналітичного групування. Висновок про наявність зв’язку між ознаками роблять тоді, коли групові середні значення результативної ознаки змінюються.
Оцінка щільності зв’язку ґрунтується на правилі складання дисперсій, яке передбачає розкладання варіації результативної ознаки за джерелами її формування.
Правило складання дисперсій: ,
де – загальна дисперсія результативної ознаки (оцінює варіацію результативної ознаки під впливом всіх можливих факторних ознак);
– міжгрупова дисперсія результативної ознаки (оцінює варіацію результативної ознаки під впливом фактора, покладеного в основу групування);
– середня з групових дисперсій (оцінює варіацію результативної ознаки під впливом всіх інших факторів, окрім покладеного в основу групування).
Загальну дисперсію обчислюють згідно з формулами теми 6 „Статистичне вивчення закономірностей розподілу та варіації”.
Міжгрупова дисперсія: ,
де – середнє значення результативної ознаки в і-тій групі;
– середнє значення результативної ознаки по сукупності в цілому;
– частота і-тої групи сукупності.
Середня з групових дисперсій: ,
де – внутрішньогрупова дисперсія результативної ознаки в і-тій групі;
– частота і-тої групи сукупності.
Внутрішньогрупова дисперсія і-тої групи сукупності: ,
де у – індивідуальні значення результативної ознаки в і-тій групі,
– середнє значення результативної ознаки в і-тій групі,
– частота і-тої групи сукупності.
Мірою щільності зв’язку між ознаками в моделі аналітичного групування є кореляційне відношення:
,
де – міжгрупова дисперсія результативної ознаки,
– загальна дисперсія результативної ознаки.
Кореляційне відношення показує, яка частка варіації результативної ознаки зумовлена впливом фактора, покладеного в основу групування.
змінюється від 0 до 1. При зв’язок між ознаками відсутній; при – зв’язок функціональний.
Для перевірки істотності зв’язку між ознаками фактичне значення слід порівняти з його критичним значенням, яке могло б виникнути за відсутності зв’язку.
H0 : , тобто зв’язок між ознаками відсутній.
Критичні значення кореляційного відношення та коефіцієнта детермінації для рівня істотності 0,05 наведено в таблиці:
k2 | k1 | ||||||
0,569 | 0,699 | 0,764 | 0,806 | 0,835 | 0,854 | 0,872 | |
0,500 | 0,632 | 0,704 | 0,751 | 0,785 | 0,811 | 0,831 | |
0,444 | 0,575 | 0,651 | 0,702 | 0,739 | 0,768 | 0,791 | |
0,399 | 0,527 | 0,604 | 0,657 | 0,697 | 0,729 | 0,754 | |
0,362 | 0,488 | 0,563 | 0,618 | 0,659 | 0,692 | 0,719 | |
0,332 | 0,451 | 0,527 | 0,582 | 0,624 | 0,659 | 0,687 | |
0,283 | 0,394 | 0,466 | 0,521 | 0,564 | 0,600 | 0,630 | |
0,247 | 0,348 | 0,417 | 0,471 | 0,514 | 0,550 | 0,580 | |
0,219 | 0,312 | 0,378 | 0,429 | 0,477 | 0,507 | 0,538 | |
0,197 | 0,283 | 0,345 | 0,394 | 0,435 | 0,470 | 0,501 | |
0,179 | 0,259 | 0,318 | 0,364 | 0,404 | 0,432 | 0,468 | |
0,164 | 0,238 | 0,294 | 0,339 | 0,377 | 0,410 | 0,439 | |
0,151 | 0,221 | 0,273 | 0,316 | 0,353 | 0,385 | 0,414 | |
0,140 | 0,206 | 0,256 | 0,297 | 0,332 | 0,363 | 0,391 | |
0,130 | 0,193 | 0,240 | 0,279 | 0,314 | 0,344 | 0,371 | |
0,122 | 0,182 | 0,227 | 0,264 | 0,297 | 0,326 | 0,353 | |
0,093 | 0,139 | 0,176 | 0,207 | 0,234 | 0,259 | 0,282 | |
0,075 | 0,113 | 0,143 | 0,170 | 0,194 | 0,216 | 0,235 | |
0,063 | 0,095 | 0,121 | 0,144 | 0,165 | 0,184 | 0,202 | |
0,047 | 0,072 | 0,093 | 0,110 | 0,127 | 0,142 | 0,156 | |
0,038 | 0,058 | 0,075 | 0,090 | 0,103 | 0,116 | 0,128 | |
0,032 | 0,049 | 0,063 | 0,080 | 0,087 | 0,098 | 0,109 | |
0,019 | 0,030 | 0,038 | 0,046 | 0,053 | 0,060 | 0,067 | |
0,010 | 0,015 | 0,019 | 0,023 | 0,027 | 0,031 | 0,034 |
Під час перевірки нульової гіпотези задається рівень істотності та числа ступенів свободи варіації:
k1 = m – 1, де m – кількість груп;
k2 = n – m, де n – обсяг сукупності.
Якщо фактичне значення перевищує критичне, то нульова гіпотеза відхиляється і зв’язок між ознаками визнається істотним.
Модель регресійного аналізу передбачає побудову рівняння регресії, яке залежно від характеру зв’язку між ознаками може бути лінійним, ступеневим, параболічним, гіперболічним.
Лінійні рівняння Y = a + bx використовуються тоді, коли зі зміною факторної ознаки результативна ознака змінюється більш-менш рівномірно.
Параметр b (коефіцієнт регресії) — величина іменована, має розмірність результативної ознаки і розглядається як ефект впливу x на у. Параметр а — вільний член рівняння регресії, це значення у при х = 0. Якщо межі варіації х не містять нуля, то цей параметр має лише розрахункове значення.
Параметри рівняння регресії визначаються методом найменших квадратів, основна умова якого – мінімізація суми квадратів відхилень емпіричних значень у від теоретичних Y:
.
Математично доведено, що значення параметрів а та b, при яких мінімізується сума квадратів відхилень, визначаються із системи нормальних рівнянь:
na + b∑ x = ∑ y
a ∑x + b∑ x2 = ∑ xy.
Розв'язок системи дає такі значення параметрів:
,
де х – значення факторної ознаки;
у – значення результативної ознаки;
n – обсяг сукупності;
– середнє значення факторної ознаки;
– середнє значення результативної ознаки.
На підставі отриманого рівняння регресії обчислюють теоретичні значення результативної ознаки Y.
Щільність зв’язку між ознаками в моделі регресійного аналізу оцінюється коефіцієнтом детермінації, який за своїм змістом аналогічний показнику кореляційного відношення в моделі аналітичного групування:
,
де – факторна дисперсія (оцінює вплив досліджуваного фактора);
– загальна дисперсія результативної ознаки (оцінює сумісний вплив всіх факторних ознак).
,
де Y – теоретичні значення результативної ознаки (обчислені згідно з рівнянням регресії);
у – фактичні значення результативної ознаки;
х – фактичні значення факторної ознаки;
n – обсяг сукупності;
– середнє значення результативної ознаки.
має такий же зміст і цифрові межі, що і .
Щільність зв’язку оцінюється також індексом кореляції , проте інтерпретується лише коефіцієнт детермінації. Для лінійного зв’язку використовується лінійний коефіцієнт кореляції (Пірсона) r:
,
де х – значення факторної ознаки;
у – значення результативної ознаки;
– середнє значення факторної ознаки;
– середнє значення результативної ознаки;
– дисперсія факторної ознаки;
– дисперсія результативної ознаки.
Лінійний коефіцієнт кореляції приймає значення у межах 1, тому він характеризує не лише щільність, а й напрям зв’язку. Додатне значення свідчить про прямий зв’язок між ознаками; від’ємне – про зворотний.
.
Процедура перевірки істотності зв’язку між ознаками аналогічна перевірці в моделі аналітичного групування.
1. Визначте, які з наведених залежностей соціально-економічних явищ є функціональними, а які – стохастичними:
- захворюваність населення регіону – від екологічного стану довкілля ________________
- попит на споживчі товари – від наявності їх на ринку і цін ________________________
- урожайність зернових – від якості ґрунту та кількості опадів ______________________
- акціонерний капітал – від кількості проданих акцій та їх ціни ______________________
- плідність жінок – від їх віку __________________________________________________
- вартість рекламних повідомлень – від їх кількості та загальних витрат ______________
- середня заробітна плата по підприємству – від чисельності робітників та фонду заробітної плати ____________________________________________________________
2. Урожайність цукрових буряків за природнокліматичними зонами становить:
Зона зволоження | Розмір збиральної площі, га | Середня урожайність цукрових буряків, ц/га |
Недостатнього | 200,0 | |
Нестійкого | 220,0 | |
Достатнього | 246,0 | |
По сукупності в цілому | 226,7 |
Загальна дисперсія урожайності становить 323.
Сформулюйте нульову та альтернативну гіпотези щодо наявності чи відсутності зв’язку між рівнем зволоження ґрунту та урожайністю цукрових буряків.
Визначте міжгрупову дисперсію та кореляційне відношення. Перевірте істотність зв'язку з імовірністю 0,95.
Нульова гіпотеза: H0 : , тобто зв’язок між ознаками _________________.
Альтернативна гіпотеза: Hа : , тобто
Міжгрупова дисперсія:
Кореляційне відношення:
Висновок: ______ % варіації урожайності цукрових буряків зумовлено відмінностями в рівнях зволоження ґрунту. На долю решти факторів припадає ______ % варіації урожайності цукрових буряків.
За таблицею критичних значень знайти критичне значення кореляційного відношення для рівня істотності 0,05 та числа ступенів свободи варіації
k1 = m – 1 =
k2 = n – m =
( ) =
Порівняти обчислене фактичне значення кореляційного відношення та його критичне значення:
( )
Зробити висновок щодо відхилення чи прийняття нульової гіпотези:
Висновок: оскільки фактичне значення кореляційного відношення ________________
більше / менше
його критичного значення, то з імовірністю 0,95 (95 % ) можна стверджувати, що зв’язок між рівнем зволоження ґрунту та урожайністю цукрових буряків є __________________________
істотним / не істотним
3. В результаті обстеження продуктивності 62 верстатів з різним терміном експлуатації встановлено:
Термін експлуатації, років | Кількість верстатів | Середнє виробництво деталей за зміну в розрахунку на один верстат, шт. |
До 7 | ||
7 – 14 | ||
14 – 21 | ||
21 і більше | ||
По сукупності в цілому |
Загальна дисперсія продуктивності верстатів становить 470.
Сформулюйте нульову та альтернативну гіпотези щодо наявності чи відсутності зв’язку між продуктивністю роботи верстатів та терміном їх експлуатації.
Визначте міжгрупову дисперсію та кореляційне відношення, поясніть їх зміст. Перевірте істотність зв'язку з імовірністю 0,95. Результати проаналізуйте.
Розв’язок аналогічний розв’язку попередньої задачі.
4. За даними задачі № 2 теми 3 „Зведення та групування” і задачі № 7 теми 6 „Статистичне вивчення закономірностей розподілу та варіації” дослідити зв’язок між стажем роботи робітників і продуктивністю їх праці.
Результати здійснених у попередніх темах обчислень занести в таблицю:
Стаж роботи, років | Кількість робітників | Середня продуктивність праці, деталей за зміну |
По сукупності в цілому |
Загальна дисперсія продуктивності праці становить ________ (із задачі № 7 теми 6).
Визначте міжгрупову дисперсію та кореляційне відношення, поясніть їх зміст. Перевірте істотність зв'язку з імовірністю 0,95. Результати проаналізуйте.
5. В результаті одноразового спостереження тривалості телефонних розмов на різних рівнях зв'язку одержані дані:
Рівень зв'язку | Кількість переговорів ( ) | Середня тривалість розмови, хв ( ) | Групові дисперсії тривалості розмов ( ) |
Внутрішньообласний | 1,8 | ||
Міжміський | 1,5 | ||
Міжнародний | 0,5 | ||
По сукупності в цілому | 9,1 | х |
Сформулюйте нульову та альтернативну гіпотези щодо наявності чи відсутності зв’язку між тривалістю розмови та рівнем зв’язку.
Визначте міжгрупову, середню з групових та загальну дисперсії.
Розрахуйте кореляційне відношення, поясніть його зміст. Перевірте істотність зв'язку з імовірністю 0,95.
6. Відомі наступні дані про окупність витрат на виробництво радіоприладів та терміни освоєння їх виробництва:
№ продукції | Термін освоєння, років ( ) | Окупність витрат, тис. грн. ( ) | х2 | ху | у2 | Y | ( у – Y )2 |
А | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
12,4 | |||||||
20,1 | |||||||
18,2 | |||||||
25,3 | |||||||
6,4 | |||||||
24,3 | |||||||
15,1 | |||||||
Разом | 121,8 |
1. Визначити факторну (х) та результативну (у) ознаку.
2. Розрахувати параметри функції, яка описує залежність між окупністю витрат та терміном освоєння виробництва радіоприладів та пояснити їх зміст.
3. Обчислити теоретичні значення результативної ознаки згідно з побудованим рівнянням.
4. Визначити та прокоментувати коефіцієнт детермінації.
5. Перевірити істотність зв’язку між ознаками з імовірністю 0,95.
1. Факторна ознака ________________________________________________
Результативна ознака ____________________________________________
2. Параметри лінійного рівняння регресії обчислюють за формулами:
Отже, рівняння регресії є таким: Y = _______ + _________ х, тобто
3. Підставляючи фактичні значення факторної ознаки (х) в отримане рівняння, знайти теоретичні значення результативної ознаки та занести їх у графу 4 розрахункової таблиці.
4. Коефіцієнт детермінації обчислити за формулою:
Факторна дисперсія результативної ознаки:
Загальна дисперсія результативної ознаки (методом різниці квадратів – дивись задачу № 4 теми 6):
, тобто _____ % варіації ________________________________
результативної ознаки
лінійно залежить від _______________________________________ , а _______ % припадає
факторної ознаки
на вплив інших факторів.
5. Для перевірки істотності зв’язку між ознаками порівняти фактичне та критичне значення коефіцієнта детермінації:
За таблицею критичних значень знайти критичне значення коефіцієнта детермінації для рівня істотності 0,05 та числа ступенів свободи варіації
k1 = m – 1 =
k2 = n – m =
( ) =
Порівняти обчислене фактичне значення коефіцієнта детермінації та його критичне значення:
( )
Висновок: оскільки фактичне значення коефіцієнта детермінації _________________
більше / менше
його критичного значення, то з імовірністю 0,95 (95 % ) можна стверджувати, що зв’язок між окупністю витрат на виробництво радіоприладів та терміном освоєння їх виробництва є __________________________
істотним / не істотним
7. За даними попередньої задачі обчислити лінійний коефіцієнт кореляції.
8. Відомі наступні дані про цукристість буряків та вихід цукру з 1 т переробленої сировини:
№ заводу | Цукристість буряків, % ( ) | Вихід цукру з 1 т буряків, кг ( ) | |||||
А | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
16,2 | |||||||
15,8 | |||||||
17,3 | |||||||
15,6 | |||||||
16,5 | |||||||
14,7 | |||||||
16,1 | |||||||
15,3 | |||||||
17,2 | |||||||
16,7 | |||||||
Разом |
Виходячи з цих даних:
1) опишіть зв’язок між показниками лінійною функцією та поясніть зміст її параметрів;
2) оцініть щільність зв’язку між цукристістю буряків та виходом цукру з 1 т переробленої сировини за допомогою лінійного коефіцієнта кореляції;
3) перевірте істотність зв’язку між ознаками з імовірністю 0,95.