Поняття про критерії згоди. Критерій Пірсона
На підставі статистичних даних при розв’язуванні практичних задач часто потрібно зробити припущення про вигляд закону розподілу випадкової величини . При цьому для остаточного вирішення питання про вигляд закону розподілу доцільно перевірити, наскільки зроблене припущення узгоджується з дослідними даними. Через обмеженість кількості спостережень емпіричний закон розподілу, звичайно, певною мірою відрізняється від передбачуваного, навіть якщо припущення про вигляд закону розподілу виявилося вірним. В зв’язку з цим виникає наступна задача: чи розбіжність між емпіричним і передбачуваним (гіпотетичним) законом розподілу є наслідком обмеженості числа спостережень, а чи вона є істотною і пов’язана з тим, що істинний закон розподілу випадкової величини суттєво відрізняється від передбачуваного. Для розв’язування цієї задачі використовують так звані “критерії згоди”.
“Критерієм згоди” називають критерій перевірки гіпотези про передбачуваний вигляд закону розподілу. Є декілька критеріїв згоди: Колмогорова, Пірсона (критерій ) та інші. Детальніше розглянемо застосування критерію Пірсона для перевірки гіпотези про закон розподілу випадкової величини.
Нехай дані вибірки , які отримані внаслідок незалежних спостережень над випадковою величиною , згруповані і подані у формі дискретного статистичного ряду , якщо ознака – дискретна, або інтервального статистичного ряду, якщо ознака – неперервна. На підставі отриманого статистичного розподілу вибірки будуємо полігон (у дискретному випадку) або гістограму частот та кумулятивну криву (у неперервному випадку) і за їх виглядом робимо припущення про закон розподілу досліджуваної ознаки. Тоді за наперед заданим рівнем значущості треба перевірити гіпотезу: закон розподілу описується функцією розподілу або густиною розподілу (лише для неперервного випадку), якщо альтернативна гіпотеза: : {закон розподілу не описується функцією розподілу чи густиною розподілу }.
Згідно з критерієм Пірсона для перевірки гіпотези вводиться випадкова величина (статистика) :
, (12.14)
де – число груп у статистичному розподілі вибірки (під групами розумітимемо інтервали в інтервальному статистичному розподілі неперервної випадкової величини або варіанти для дискретного статистичного розподілу); – cпостережувана частота (відносна частота) ознаки в -ій групі; – теоретична частота; – імовірність того, що значення належить до і-ої групи, і вона розрахована за допомогою гіпотетичної функції розподілу або густини розподілу .
Застосування критерію вимагає дотримання таких умов: 1) експериментальні дані мають бути незалежними, тобто вибірка повинна бути випадковою; 2) обсяг вибірки має бути достатньо великим (практично не меншим ніж 50 одиниць), а частота кожного інтервалу – не меншою за 5. Якщо остання умова не виконується, то проводиться попереднє об’єднання нечисленних інтервалів.
Опишемо детальніше схему перевірки за критерієм Пірсона статистичної гіпотези про гіпотетичний закон розподілу ймовірностей випадкової величини для випадку, коли ця величина є неперервною.
Схема перевірки гіпотези про закон розподілу ймовірностей неперервної випадкової величини за критерієм Пірсона:
1) Вихідні статистичні дані (результати вибірки) групуємо і записуємо як інтервальний статистичний ряд (перші два рядки табл.12.1).
2) Будуємо гістограму частот та кумулятивну криву, за якими висуваємо гіпотезу про закон розподілу (про вигляд функції ).
3) Шукаємо точкові оцінки параметрів розподілу.
4) Оскільки перевіряється гіпотеза про те, що розподіл генеральної ознаки описується певною конкретною функцією розподілу , або, що те ж саме, густиною розподілу , то для кожного інтервалу можна визначити теоретичні ймовірності попадання значень випадкової величини у цей інтервал, а отже, і теоретичні частоти . Для обчислення теоретичних імовірностей невідомі параметри розподілу замінюємо їх точковими оцінками.
Для обчислення ймовірностей використовуємо формули:
(12.15)
або
(12.16)
У формулах (12.15), (12.16) для і покладаємо, відповідно, і . Тоді .
Отримані результати подамо у формі таблиці (табл. 12.1).
Таблиця 12.1
… | ||||
… | ||||
… | ||||
… |
5) На підставі даних із табл. 12.1 обчислюємо спостережуване значення критерія Пірсона:
, де . (12.17)
За даним рівнем значущості і числом ступенів вільності , де – число параметрів гіпотетичного розподілу, обчислених за даними вибірки, із таблиці критичних значень розподілу (додаток 6) знаходять критичну точку
6) Зіставляємо значення і : якщо , то гіпотезу про вигляд густини розподілу відхиляють; якщо ж , то гіпотезу приймають.
Для контролю обчислень використовують формулу
. (12.18)
Зауваження.При перевірці гіпотези про закон розподілу дискретної випадкової величини всі дані групуємо у дискретний статистичний розподіл вибірки. Будуємо полігон частот , за яким висуваємо гіпотезу про вигляд закону розподілу. У пункті 4 шукаємо теоретичні ймовірності варіант розподілу і на їх підставі – теоретичні частоти варіант. Всі дані заносимо у таблицю аналогічну таблиці 12.1, де замість інтервалів стоять варіанти. Решта міркувань повторюють міркування неперервного випадку.
Приклад 12.8.Вимірювання зросту юнаків віком 17 років дало такі результати:
Визначити гіпотетично, який закон розподілу має ознака – зріст юнака. При рівні значущості перевірити правильність висунутої гіпотези.
Розв’язання. Для даного статистичного розподілу побудуємо гістограму частот і кумулятивну криву (рис.12.4).
Рис.12.4. Гістограма статистичного розподілу частот та кумулятивна крива
За формою кумулятивної кривої можемо припустити, що ознака має нормальний закон розподілу. Отже, висуваємо нульову гіпотезу ознака має нормальний закон розподілу ймовірностей.
Для перевірки правильності використаємо критерій Пірсона. Оскільки нормальний розподіл
,
визначається двома параметрами (математичним сподіванням та середнім квадратичним ), які є невідомими, то знайдемо їх точкові оцінки та , які відповідно дорівнюють вибірковому середньому та виправленій вибірковій дисперсії . Побудувавши дискретний розподіл за заданим інтервальним, а саме
обчислимо вибіркове середнє см та виправлене середнє квадратичне відхилення см.
Оскільки вважаємо нормально розподіленою, то теоретичні ймовірності обчислюємо за формулою
.
Введемо позначення , .
Тоді обчислення теоретичних частот
можна подати у таблиці:
-2,04 | -1,42 | -0,4793 | -0,4222 | ||||
-1,42 | -0,79 | -0,4222 | -0,2852 | ||||
-0,79 | -0,16 | -0,2852 | -0,0636 | ||||
-0,16 | -0,464 | -0,0636 | 0,1772 | ||||
-0,464 | 1,09 | 0,1772 | 0,3621 | ||||
1,09 | 1,72 | 0,3621 | 0,4573 | ||||
1,72 | 2,34 | 0,4573 | 0,4904 | ||||
2,34 | 2,97 | 0,4904 | 0,4986 |
Для знаходження емпіричного значення скористаємось таблицею:
0,667 | ||||
-2 | 0,182 | |||
2,667 | ||||
-7 | 2,579 | |||
-2 | 0,4 | |||
0,333 | ||||
- | - |
За таблицею додатка 6 знаходимо критичне значення критерію
Оскільки, , то нульову гіпотезу приймаємо, тобто зріст юнаків розподілений за нормальним законом.
Приклад 12.9.При соціологічному опитуванні 750 осіб про кількість поїздок за кордон протягом року отримано такі результати
де – кількість поїздок за кордон, – число осіб, які здійснили поїздок за кордон протягом року. Висунути та перевірити гіпотезу про закон розподілу кількості закордонних виїздів протягом року однієї особи, якщо рівень значущості a = 0,01.
Розв’язання. Нехай випадкова величина Х – кількість поїздок за кордон протягом року однієї особи.
Побудуємо полігон частот (рис. 12.5).
З вигляду полігону частот та змісту випадкової величини Х, робимо припущення, що Х розподілена за законом Пуассона.
Отже, висуваємо нульову гіпотезу:
де – невідомий параметр.
Точковою оцінкою параметра l розподілу Пуассона є вибіркове середнє . У даному випадку
Обчислимо теоретичні ймовірності за формулою Пуассона, покладаючи в ній l = 0,6:
Оскільки дві останні варіанти змінної Х у статистичному розподілі вибірки мають частоти менші від п’яти і сума цих частот також менша від п’яти, то їх об’єднаємо з варіантою Х = 3. Слід зауважити також, що остання ймовірність буде визначатися як доповнення до одиниці:
Для обчислення використаємо формулу (12.17):
,
де , а теоретичні частоти визначаються з рівності :
Подальші обчислення запишемо у формі таблиці:
0,549 | 411,75 | 12,25 | 0,36 | ||
0,329 | 246,75 | –13,75 | 0,77 | ||
0,099 | 74,25 | –6,25 | 0,53 | ||
3 і більше | 0,023 | 17,25 | 4,75 | 1,31 | |
Сума | - |
На підставі даних вибірки нами оцінено параметр l і s =1, а т = 4 (після об’єднання останніх трьох варіант ознаки). Тому число ступенів вільності k = 4 – 1 – 1 = 2. Із таблиці критичних точок розподілу (див. додаток 6) для a = 0,01 і k = 2 знаходимо критичне значення критерію
Оскільки то сформульована гіпотеза про те, що кількість поїздок за кордон однією особою на рік має розподіл Пуассона за рівня значущості a = 0,01, приймається, бо вона не суперечить статистичним даним.
Приклад 12.10.Відділ технічного контролю перевірив 100 партій виробів по 10 виробів у кожній партії і отримав такий емпіричний розподіл дискретної випадкової величини Х – кількості нестандартних виробів ( --кількість нестандартних виробів в одній партії; -- кількість партій, що мають нестандартних виробів)
Оцінити закон розподілу випадкової величини Х за рівня значущості a = 0,05.
Розв’язування. Для формулювання гіпотези про модель закону розподілу випадкової величини Х побудуємо полігон частот (рис. 12.6).
Зробимо наступні припущення:
1) ймовірність того, що навмання взятий з партії виріб виявиться нестандартним не залежить від попередніх результатів;
2) ймовірність того, що навмання взятий з партії виріб виявиться нестандартним, одна і та ж і дорівнює р, а ймовірність того, що він стандартний дорівнює q=1 – p.
При таких припущеннях та з вигляду полігону частот (рис.12.6) можна висунути гіпотезу, що випадкова величина Х підпорядковується біномному закону розподілу (нульова гіпотеза), тобто ймовірність того, що в партії виявиться нестандартних виробів, може бути обчислена за формулою
, (12.19)
Знайдемо оцінку параметра р , який входить у формулу (12.19). Оцінкою ймовірності р є відносна частота w*, яка обчислюється за формулою
w*=
де - середня кількість нестандартних виробів в одній партії;
– кількість виробів у кожній партії.
Тоді ;
Отже, і . За формулою Бернуллі (12.19) знайдемо теоретичні ймовірності того, що серед 10 виробів партії виявиться бракованих, тобто подія А={виріб бракований} з’явиться в випробуваннях рівно разів:
Обчислимо теоретичні частоти за формулою . Враховуючи, що отримаємо:
Порівняємо емпіричні та теоретичні частоти з допомогою критерія Пірсона. Оскільки частота менша за 5, об’єднаємо ії з частотою і в таблицю запишемо 2+10=12; відповідна теоретична частота дорівнюватиме 2,82+12,11=14,93. Подальші обчислення подамо у формі таблиці:
і | ||||
14,93 | -2,93 | 0,5750 | ||
23,35 | 3,65 | 0,5706 | ||
26,68 | 5,32 | 1,0608 | ||
20,01 | 2,99 | 0,4468 | ||
10,29 | -4,99 | 1,7886 | ||
Сума | - |
За таблицею критичних точок розподілу (див. додаток 6) для a = 0,01 і k=5-1 = 4 знаходимо критичне значення критерію
Оскільки то сформульована гіпотеза про те, що дискретна випадкової величини Х -- кількість нестандартних виробів в одній партії розподілена за біномним законом приймається.