Непараметричні методи вивчення взаємозв 'язків між явищами
Розглядаючи в цій лекції різні методи вивчення статистичного зв'язку, важливо зрозуміти специфіку, умови їх застосування. В КРА факторні та результативні ознаки відносяться до метричної шкали; метод аналітичного групування та дисперсійний анаф можуть бути реалізовані, коли факторна ознака якісна, і нарешті у випадку, коли і факторна, і результативна ознаки якісні, тобто відносяться до номінальної або порядкової шкали, використовуються так звані непа-раметричні методи, тобто такі, які не потребують обчислення параметрів розподілу. В чому полягає їх принцип?
Розглянемо приклад, в якому дані наведені в такій формі (табл. 5.3):
Таблиця 5.3
Залежність ставлення до умов праці на підприємстві від статі
Стать | Становлення до умов праці на підприємстві | ||||
цілком задоволений | скоріше задоволений | скоріше незадоволений | зовсім незадоволе-ний | не знаю | |
чол. | |||||
жін. | |||||
Разом |
При цьому можна порівнювати два рядки таблиці. тобто два розподіли, перевіряючи гіпотезу про однорідність: чи однакові жінки та чоловіки у своєму ставленні до умов праці на нашому підприємстві (див. табл. 5.3)? Але можна поставити питання й інакше: чи не має зв'язку між статтю та ставленням до умов праці?
Тим самим ми переходимо до гіпотези про незалежність. Дійсно, якщо відношення до умов праці чоловіків і жінок істотно відрізняються, то можна вести мову про істотний статистичний зв'язок між ознаками «стать — ставлення до умов праці». Так само і у випадку розподілу студентів за кольором волосся та очей (див. табл. 2.3). Там ми маємо 3 ряди розподілу за кольором волосся або 3 ряди за кольором очей. Якщо розподіл за кольором волосся людей із блакитними очима істотно відрізняється від розподілу за тією ж ознакою, але вже сірооких, а тих — від карооких, то між цими ознаками існує статистичний зв'язок.
Таким чином, критерій може бути використаний для доказу наявності істотного зв'язку. Застосовуючи КРА, ми також визначали форму (напрям) та тісноту. В даному випадку, коли ознаки якісні, вести
мову про форму зв'язку мабуть не має сенсу, щодо напрямку, то його іноді можна визначити візуально за таблицею співзалежності (ТС): між кольором очей та волоссям (або навпаки) зв'язок прямий. Для визначення тісноти зв'язку використовують коефіцієнти співзалежності.
Наприклад, для неквадратних таблиць коефіцієнт Чупрова має вигляд [9]:
де k1, k2 — число рядків та стовпчиків таблиці.
Коефіцієнт Крамера обчислюють за формулою
де т = min(k1, k2), n — число елементів сукупності.
У наведених формулах використовується критерій Пірсона χ2 який має вигляд:
де і — номер підгрупи за першою ознакою;
kі - число груп за першою ознакою;
kj — число груп за другою ознакою;
ωіj— частість підгрупи j у групі j;
ωj— частість групи j у всій сукупності;
mi — число одиниць у групі i.
У випадку незалежності ознак ωіj= ωj i χ2=0
Ці коефіцієнти приймають значення від 0, при відсутності зв'язку, до 1, при функціональному зв'язку.
У практиці статистичних досліджень нерідко необхідно аналізувати альтернативні розподіли, коли сукупність розподіляється за кожною ознакою на дві групи з протилежними характеристиками. Наприклад можна аналізувати успішність студентів залежно від статі [9], виділивши дві групи: студенти, що здали іспити, та студенти, що не здали іспити (табл. 5.4).
Приклад 5.3
Таблиця 5.4
Залежність успішності студентів від статі
Стать | | Кількість студентів | Разом | ||
здали | не здали | |||
Жінки | а = 25 | Ь = 2 | а + b = 27 | |
Чоловіки | с = 20 | d=3 | c+d=23 | |
Разом | а + с = 45 | Ь + d=5 |
Тісноту зв'язку у даному випадку можна розрахувати за допомогою коефіцієнта асоціації:
Тобто між статтю та успішністю студентів зв'язок надто незначний, практично він відсутній. Отриманий висновок неодмінно справедливий тому, що істотними факторами успішності є не стать, а відвідування лекційних та практичних занять, кількість годин самостійної роботи і т. п.
Використання таблиць співзалежності дуже поширене при вивченні взаємозв'язку ознак різної природи: в економіці, соціології, біології, медицині. В порівнянні з КРА їхній вибір легше аргументувати, додержати необхідні умови застосування, а отримані результати інтерпретувати. Ми вже згадували про проблему вибору факторів у КРА, крім того, на практиці не завжди забезпечується виконання відповідних постулатів (взаємозв'язок факторів, нормальність розподілу, відповідність шкал та ін.).
Прагнення подолати подібні перешкоди іноді приводить деяких дослідників до віртуозних математичних трюків, аби тільки «притягнути за вуха» наукові методи. Щоб глибоко зрозуміти і оволодіти досягненнями світової статистичної науки, особливо останніх десятиріч, потрібна відповідна підготовка. Ми вважаємо, що спеціалісту з економіки та управління при вирішенні своїх прикладних задач за допомогою пакетів статистичних програм перш за все необхідно чітко уявити, який статистичний інструмент у яких випадках застосовувати,вміти інтерпретуватиотримані результати. Саме тому ми настійно рекомендуємо при вирішенні конкретної задачі, поки не буде набуто певного досвіду, користуватись прикладами з авторитетних літературних джерел. Це дасть змогу:
а) визначити, який метод застосовується в задачі, подібній до вашої;
б) обчисливши контрольний приклад наявними у вас засобами (статистичними програмами), порівняти значення результатів, їхню інтерпретацію та термінологію.
У цьому плані із наведеного списку ми насамперед рекомендуємо [1-5, 16, 17].
Звичайно, параметричні та непараметричні методи не є взаємозамінюваними. Але в деяких випадках для зручності замість перших можна застосовувати інші, замінюючи метричні шкали, наприклад, порядковими. Але треба пам'ятати, що менша глибина аналізу, яка буде досягнута при цьому, може бути виправдана лише більшою його аргументованістю, надійністю. Нагадаємо, що за допомогою непараметричних методів можна лише визначити тісноту зв'язку та його істотність, КРА дає змогу до того ж вивчити і його форму. Широко відомі міри взаємозв'язку, які не базу-ються на статистиці £. Для випадків, коли ТС побудо, вана для ознак, одна з яких або обидві виміряні за допомогою порядкової шкали, наприклад «колір очей -колір волосся», переважно застосовуються так звані методи рангової кореляції: міри Кендала (Kendall); Стыоарта (Stuart) та Спірмена. Якщо ознаки в ТС тільки дискретні («стать», «спеціальність», але не «вік»), то рекомендуються міри Гудмена-Крускала (Goodman, Kruskal). І, нарешті, існує група методів спеціально для ТС розміром 2x2 [1].
Популярний приклад: «Курять - не курять; хворіють - не хворіють». Очевидна умовність такого поділу. Що значить «хворіють»? Як часто? Якими саме захворюваннями? А що означає «не курить»? Зовсім чи не зовсім? Взагалі, однозначні відповіді не завжди коректні.
Дійсно, є суто альтернативні ознаки, наприклад «стать» (принаймні, так прийнято вважати). Але, якщо є змога, дозволяє обсяг сукупності, треба намагатись «розтягнути» шкалу вимірювання. Наприклад, якщо ви формулюєте питання анкети для соціологічного опитування робітників підприємства, то для запитання «Чи задоволені Ви умовами праці?» слід підказувати такі варіанти відповіді: не задоволений, скоріше неза-доволений, ніж задоволений; важко відповісти; скоріше задоволений, ніж незадоволений; задоволений. Якщо ви запропонуєте тільки два варіанти відповіді і тим самим змусите людину відповісти тільки «задоволений» або «незадоволений», то ви не вловите відтінки в настрої людей. Але слід мати на увазі, що іноді корисно зробити і навпаки.
Так, згідно з теорією слід уникати застосування критерію £ в тих випадках, коли значення окремих клітинок ТС менше 5. При бажанні можна знайти в літературі рекомендації, як знайти вихід з цього поло-
^ння. В літературі та розпечатках статистичних па-кетів вони пов'язані з іменами таких авторів, як Ієтс (Yates), Кохрен (Cochranj, Мантель (Mantel). Але їх застосування потребує певної обережності. У таких випадках іноді краще провести об'єднання рядків чи стовпчиків ТС. Зрозуміло, що це можна зробити по відношенню, наприклад, до ознаки «задоволеність умовами праці» або «колір волосся», а не ознаки «спеціальність».
Бажаючих докладніше познайомитись з методами вивчення взаємозв'язку, пов'язаними з ТС, з задоволенням посилаємо до [1, розділи 2.5; 2.6; 10].
Вважається, що глибокий статистичний аналіз включає не тільки перевірку гіпотези про незалежність, а й порівняння самих критеріїв для більш повного розуміння результатів.
Рангова кореляція
Вимірювання тісноти зв'язку за допомогою кореляційного і дисперсійного аналізу супроводжується певними складностями і вимагає громіздких обчислень. Для орієнтовної оцінки тісноти зв'язку користуються наближеними показниками, які не вимагають трудомістких обчислень. До них потрібно віднести: коефіцієнт кореляції знаків Фехнера, коефіцієнт кореляції рангів Спірмена і Кендала.
Коефіцієнт кореляції знаків Фехнера визначають на співставленні знаків відхилень від середньої і на підрахунку числа співпадань і неспівпадань знаків.
Коефіцієнт кореляції знаків визначають за формулою
де и — число пар с однаковими знаками відхилень х і у від і у ; v — число пар с різними знаками відхилень х і у від х і у . Коефіцієнт кореляції знаків коли- вається в межах від -1 до +1. Чим ближче до 1, тим" сильніший зв'язок. Знак + або - вказує напрям зв'язку. Якщо и = v, то / = 0 і зв'язку немає.
Приклад 5.4 [18]
Таблиця 5.5
Вартість основних фондів (ОФ) та випуск продукції (млн грош, од.)
№ Підприємства | Вартість ОФ М | Випуск продукції (у) | Знак відхилення | |
х-х | у-у | |||
2,4 | _ | _ | ||
4,0 | _ | _ | ||
3,6 | _ | _ | ||
4,0 | _ | __ | ||
4,5 | _ | _ | ||
4,6 | + | _ | ||
5,6 | + | + | ||
6,5 | + | + | ||
7,0 | + | + | ||
5,0 | + | + | ||
Разом | 47,2 | х | х |
= 108/10 = 10,8 млн. грош, од.,
= 47,2/10 = 4,72 млн. грош. од.
Таким чином, u = 9, v = 1. Тоді
Це означає, що зв'язок між вартістю основних фондів та випуском продукції прямий та досить тісний.
Розглянемо ще один метод оцінки тісноти зв'язку ца основі розрахунку коефіцієнта кореляції рангів. Його основна відмінність полягає в тому, що він об-цислюється не на основі первинних даних, а на основі рангів, які присвоюються всім значенням досліджуваних ознак, що розміщені у порядку зростання. Якщо значення співпадають, то ранг визначається шляхом ділення суми рангів на число значень.
Коефіцієнт кореляції рангів Спірмена визначається за формулою
де d2 - квадрат різниці рангів для кожної одиниці d = х — у; п — обсяг сукупності.
Коефіцієнт кореляції рангів Спірмена також коливається від -1 до +1. Чим ближче до 1, тим тісніший зв'язок. Знак + або — вказує напрям зв'язку. Якщо ранги за обома ознаками співпадають, то зв'язок прямий. Якщо ρ=0, то зв'язок між ознаками відсутній. Обчислимо коефіцієнт кореляції рангів за даними попереднього прикладу (табл. 5.6).
Таблиця 5.6
Розрахунок коефіцієнта кореляції рангів Спірмена
ранги | Ранги по х | Ранги по у | Різниця рангів | d2 | |
3.5 | -1.5 | 2.25 | |||
+1 | |||||
4.5 | 3.5 | +1 | |||
4.5 | -0.5 | 0.25 | |||
-1 | |||||
-1 | |||||
-1 | |||||
+3 | |||||
Разом | X | х | X | 16.5 |
Ранги вартості основних фондів для четвертого та п'ятого підприємств визначалися як середня арифме-тична з х = (4+5)/2 = 4,5. Аналогічно для другого i четвертого за випуском продукції. Підставивши у формулу, отримаємо:
Коефіцієнт кореляції свідчить, що зв'язок між вартістю основних фондів та випуском продукції прямий та тісний.
Ранговий коефіцієнт кореляції більш точний порівняно з коефіцієнтом кореляції знаків, тому що він враховує не тільки знаки відхилень, а й місце величини ознаки в даному ряду.
Окрім вище згаданих коефіцієнтів, на практиці для визначення рейтингу і оцінки тісноти зв'язку використовують коефіцієнт кореляції рангів Кендала:
Де si - сума балів
Суть даного методу полягає в підрахунку числа балів для кожної одиниці сукупності. Для цього ранг першої одиниці сукупності за ознакою у в упорядкованому по де ряду порівнюємо з усіма іншими одиницями сукупності, які розміщені нижче в списку. Якщо він менше першої бдиниці сукупності, присвоюємо йому +1 бал, якщо більше — присвоюємо — 1.
Розглянемо на прикладі 5.4 обчислення коефіцієнта Кендала (табл. 5.7):
Отриманий коефіцієнт свідчить про наявність досить тісного прямого зв'язку між вартістю основних фондів і обсягом випуску продукції. Критичне значення коефіцієнта Кендала для рівня значимості 0= 0,05 при п = 10 дорівнює 0,467. Фактичне значення більше за критичне, що підтверджує зроблений раніше висновок про існування зв'язку між згаданими явищами.
Таблиця 5.7
Підрахунок числа балів
• V | |||||||||||
№. | Ранги | • Бали (З;,) | |||||||||
пох | по у | S1i | S2i | S3i | S4i | S5i | S6l | S7i | S8i | S9i | |
+1 | |||||||||||
+1 | -1] | ||||||||||
+1 | +1 | +1 | |||||||||
+1 | +1 | +1 | +1 | ||||||||
б | +1 | +1 | +1 | +1 | +1 | ||||||
+1 | +1 | +1 | + 1 | +1 | +1 | ||||||
+1 | +1 | +1 | + 1 | +1 | +1 | +1 | |||||
+1 | +1 | +1 | + 1 | +1 | +1 | +1 | +1 | ||||
+1 | +1 | +1 | + 1 | +1 | +1 | -1 | -1 | -1 | |||
X | X | +9 | +6 | +7 | +6 | +5 | +3 | +1 | -1 | ||
Питання для самоконтролю.
1. Чому суми граф 4 і 5 табл. 5.1 мають однакові абсолютні значення?
2. Наведіть три приклади статистичного зв'язку.
3. Про що свідчить факт, коли групові середні, обчислені при дисперсійному аналізі, мають однакові значення?
4. Який зв'язок зветься кореляційним, який стохастичним? Наведіть приклади.
5. Що таке кореляція; регресія?
6. Наведіть приклад кореляційного зв'язку, форму якого можна відобразити параболою другого порядку.
7. Наведіть приклад кореляційного зв'язку у формі гіперболи, степеневої функції.
8. За даними соціологічного опитування 10 студентів проранго-вані по двом ознакам — «активність під час занять» та «оцінка»:
Ознака | № студента | |||||||||
Активність | 4, | |||||||||
Оцінка |
Оцініть тісноту зв'язку між ознаками.
9. На підставі таких даних визначіть наявність зв'язку між ознаками «місячний заробіток — вік робітника»:
Місячний заробіток, грн. | Число робітників у віці, років | Разом | ||
20-35 | 35-50 | більше 50 | ||
200-400 | ||||
400-600 | ||||
600-800 | ||||
800-1000 |
10 Визначити наявність зв'язку між ознаками А і В:
A | В | ||
В1 | В2 | ВЗ | |
А1 | |||
А2 |
11. На підставі таких даних визначити наявність зв'язку між ознаками:
Сімейне становище | Наявність окремої квартири | |
Мають | Не мають | |
Сімейні | ||
Одинокі | ЗО |
12. На підставі таких даних вивчити взаємозв'язок між спеціальністю та денним заробітком, грн. [4]:
№ п/п | Спеціальність | Денний заробіток | № п/п | Спеціальність | Денний заробіток |
Токар | 10,42 | Токар | 9,66 | ||
Слюсар | 9,54 | Фрезерувальник | 6,84 | ||
Фрезерувальник | 10,05 | Фрезерувальник | 10,24 | ||
Фрезерувальник | 8,12 | Слюсар | 13,53 | ||
Слюсар | 8,45 | Фрезерувальник | 9,83 | ||
Фрезерувальник | 7,54 | Токар | 11,33 | ||
Токар | 12,25 | Фрезерувальник | 8,74 | ||
Слюсар | 11,22 | Слюсар | 10,34 | ||
Фрезерувальник | 9,32 | Фрезерувальник | 7,96 | ||
Токар | 14,15 | Слюсар | 9,77 |
13. Назвіть два приклади, коли гіпотезу про однорідність доцільніше замінити гіпотезою про незалежність.
14. З яких міркувань вибирається значення рівня істотності при перевірці гіпотез?
15. Які існують прості методи оцінки тісноти взаємозв'язку між ознаками?
16. Чим відрізняються один від другого коефіцієнти кореляції Спірмена та Кендала?
17. В яких випадках застосовують коефіцієнт асоціації?
18. У чому недосконалість методу кореляції знаків?
19. Маємо дані про середній бал 10 студентів на вступних іспиті^ та на першій екзаменаційній сесії [4]:
№п/п | Середній бал | № п/п | Середній бал | ||
на Іспитах | на сесії | на Іспитах | на сесії | ||
4,8 | 4,7 | 3,3 | 4,1 | ||
4,4 | 4,2 | 4,0 | 3,7 | ||
4,2 | 4,4 | 3,9 | 3,0 | ||
5,0 | 5,0 | 4,7 | 4,3 | ||
4,5 | 4,9 | 3,7 | 3,2 ~~ | ||
Визначіть тісноту зв'язку між середніми балами, використовуючи коефіцієнти рангової кореляції Спірмена та Кендала (а = 0,05) [4].
20. На основі таких даних визначити, чи є зв'язок між курінням та станом легень:
Значення проби легеневої | Відношення до куріння | ||
не курять | курять | ті, що кинули | |
Нормальне | |||
Не нормальне |
21. Із групи 112 критично хворих людей, які знаходились у реанімаційному відділенні, в стані шоку перебувало 77 чол., з яких 37 померли. Відомо 5 типів шоку. На підставі таких даних визначити; чи залежить шанс вижити від наявності шоку та його типу.
Тип шоку | Шанс вижити | |
вижили | не вижили | |
Гіпо | ||
Карді | ||
Невро | ||
Септи | ||
Ендо | ||
Відсутній | ||
Разом |
ТЕМА 6Ряди динаміки
ПЛАН ЛЕКЦІЇ