Параметры проверяемого закона полностью известны.
Разобьем генеральную совокупность, т.е. множество значений изучаемой случайной величины Х, на k непересекающихся промежутков . Обозначим через pi вероятность того, что ХÎD, , i = 1, 2,…, k. Если генеральная совокупность – вся вещественная ось, то подмножества - полуоткрытые промежутки, i= 2, 3, …, k-1. Крайние промежутки будут полубесконечными:
Отметим, что . Будем полагать, что все рi > 0.
Пусть далее n1, n2, … , nk – частоты попадания выборочных элементов в соответствующие промежутки. В случае справедливости гипотезы Н0 относительные частоты при большом n должны быть близки к вероятностям рi (i = 1, 2, …, k), поэтому за меру отклонения выборочного распределения от гипотетического с функцией F(x) выбирают величину:
, (8.3.1)
где сi – некие положительные числа (веса).
К. Пирсоном в качестве весов выбраны числа:
Тогда получается следующее выражение статистики критерия хи-квадрат К. Пирсона:
(8.3.2)
(статистика обозначена тем же символом, что и закон распределения хи-квадрат)
Закон распределения хи-квадрат появляется в теории вероятностей при изучении суммы квадратов нескольких (k) взаимно независимых нормально распределенных случайных величин Х1, Х2, …, Хk с одинаковыми параметрами распределения: m = 0, s = 1.
Доказано, что случайная величина Z распределена по закону хи-квадрат с k степенями свободы. Числом степеней свободы функции называется число ее независимых аргументов.
Закон распределения хи-квадрат обозначается . Плотность вероятности этого закона определяется формулой для х ³ 0:
(8.3.3)
Теорема К. Пирсона.
Статистика (8.3.2) критерия c2 асимптотически при n ® ¥ распределена по закону c2 с (k-1) степенями свободы.
Аргументами статистики c2 являются частоты n1, n2,…, nk . Эти частоты связаны равенством:
,
следовательно, функция c2 имеет (k-1) независимых аргументов.
Случай второй.
Параметры проверяемого закона распределения неизвестны.
Параметры закона распределения могут быть оценены по методу максимума правдоподобия. Справедлива теорема Р. Фишера.
Теорема Р. Фишера.Статистика (8.3.2) при n ® ¥ асимптотически распределена по закону c2 с числом степеней свободы r:
где l – число параметров, оцененных по выборке.
Замечание.
Суждение о принятии или отвержении выдвинутой статистической гипотезы не являются абсолютными, а носят вероятностный характер. Принимая или отвергая гипотезу, могут быть совершены ошибки.
Ошибкой первого рода называется ошибка отвержения правильной гипотезы.
Ошибкой второго рода называется ошибка принятия неверной гипотезы.
Уровнем значимости называется такое значение вероятности, что событие с такой вероятностью практически не реализуется.
Вероятность ошибки первого рода равна уровню значимости a,
вероятность ошибки второго рода обозначается b:
По виду статистики c2 можно заключить, что большие значения c2 неприемлемы для справедливости гипотезы Н0. Отсюда следует, что критерий c2 является правосторонним, а критической областью будет промежуток вида , где - квантиль порядка (1-a) распределения хи-квадрат с r степенями свободы (рис. 8.3.1).
Из формулы (8.3.2) видно, что веса пропорциональны n , т.е. с ростом n их значение увеличивается. Таким образом, если выдвинутая гипотеза Н0 неверна, то относительные частоты не будут близки к вероятностям pi, и с ростом n величина c2 будет увеличиваться. При фиксированном уровне значимости a будет фиксировано пороговое число . Поэтому, увеличение n приведет к неравенству:
, (8.3.4)
где - выборочное значение статистики c2, вычисленное по (8.3.2).
При реализации (8.3.4) попадет в критическую область, и неверная гипотеза будет отвергнута.
Рис. 8.3.1. Критическая область критерия хи-квадрат.
Из этих рассуждений следует, что при сомнительной ситуации, когда
, следует увеличить объем выборки, например, в два раза, чтобы проверяемое неравенство было более четким.
Замечание.
Практика применения критерия c2 показывает, что если для каких-либо подмножеств Di (i=1, 2, …, k) условие не выполняется, то следует объединить соседние подмножества (промежутки).
Это условие выдвигается требованием близости величин ,
(квадраты которых являются слагаемыми c2) к нормальным с математическим ожиданием равным нулю и средним квадратическим отклонением равным единице N(0, 1). Тогда случайная величина в формуле (8.3.2) будет распределена по закону, близкому к хи-квадрат. Такая близость обеспечивается достаточной численностью элементов в подмножествах Di .
Определение. Квантилью порядка d непрерывной случайной величины Х называется ее значение хd, являющееся корнем уравнения:
(8.3.5)
Алгоритм проверки гипотезы
о законе распределения генеральной совокупности.
1. Выбирается уровень значимости a.
2. С помощью гипотетической функции распределения F(x) с числом оцениваемых параметров l вычисляются оценки вероятностей , i = 1, 2,…, k.
3. По таблице (Приложение 8.4) находится квантиль распределения хи-квадрат с r = k-l-1 степенями свободы порядка 1-a.
4. Находятся частоты ni попадания элементов в подмножества DI, и вычисляется выборочное значение статистики критерия хи-квадрат:
5. Производится сравнение с квантилью .
Если < , то гипотеза Н0 принимается.
В противном случае гипотеза Н0 отвергается.
Пример 8.3.1.
Произведено 50 измерений уровня радиации в помещении. Результаты измерения (мкЗв/час) после их упорядочения в порядке возрастания сведены в табл. 8.3.1.
Таблица 8.3.1.
Результаты измерений после их упорядочения.
0.10 | 0.11 | 0.12 | 0.12 | 0.12 | 0.12 | 0.12 | 0.13 | 0.14 | 0.14 |
0.15 | 0.15 | 0.16 | 0.17 | 0.17 | 0.17 | 0.17 | 0.18 | 0.18 | 0.18 |
0.18 | 0.19 | 0.19 | 0.19 | 0.20 | 0.20 | 0.20 | 0.20 | 0.20 | 0.20 |
0.20 | 0.21 | 0.21 | 0.21 | 0.21 | 0.22 | 0.22 | 0.22 | 0.22 | 0.22 |
0.22 | 0.23 | 0.23 | 0.23 | 0.24 | 0.24 | 0.24 | 0.25 | 0.25 | 0.29 |
Выдвигается гипотеза Н0 о том, что распределение значений произведенных измерений подчинено нормальному закону. Требуется подтвердить или отвергнуть выдвинутую гипотезу.
Решение.
Представленные в табл. 8.3.1 данные представляют собой выборку объемом n = 50 значений уровня радиации в помещении.
Определяем число k интервалов для группированного ряда:
Определяем длину промежутков h:
Составляем табл. 8.3.2, содержащую границы интервалов.
Таблица 8.3.2.
Границы промежутков выборки.
№ промежутка | Границы интервалов | Число значений в интервале, ni | Средняя точка промежутка | |
ai-1 | ai | |||
0.1 | 0.13 | 0.1150 | ||
0.13 | 0.16 | 0.1450 | ||
0.16 | 0.19 | 0.1750 | ||
0.19 | 0.21 | 0.2000 | ||
0.21 | 0.24 | 0.2250 | ||
0.24 | 0.29 | 0.2650 | ||
Сумма |
Легко заметить, что значения границ определены прибавлением к левому значению интервала величины h, например:
Рассчитываем выборочные числовые характеристики для выборки табл. 8.3.1 с помощью группированного статистического ряда табл. 8.3.2. Составим табл. 8.3.3, где zi – средняя точка i-го интервала.
Таблица 8.3.3.
Расчет первых двух выборочных моментов.
i | ni | zi | (zi)2 | ni×zi | ni×(zi)2 |
0.1150 | 0.0132 | 0.920 | 0.1058 | ||
0.1450 | 0.0210 | 0.725 | 0.1050 | ||
0.1750 | 0.0306 | 1.925 | 0.3368 | ||
0.2000 | 0.0400 | 2.200 | 0.4400 | ||
0.2250 | 0.0506 | 2.700 | 0.6075 | ||
0.2650 | 0.0702 | 0.795 | 0.2106 | ||
S | - | - | 9.265 | 1.8057 |
Используя данные табл. 8.3.3, находим выборочное среднее , выборочные дисперсию s2 и среднее квадратическое отклонение s.
С помощью группированного статистического ряда можно ориентировочно определить выборочные моменты, поскольку группа элементов выборки, входящих в промежуток Di может быть заменена средней точкой zi , т.е. можно считать, что элемент zi встречается в выборке ni раз, или имеет частоту ni, тогда:
мкЗв/час
Вычисляем выборочное значение статистики критерия хи-квадрат (8.3.2), для чего составим табл. 8.3.4.
Таблица 8.3.4.
Вычисление для проверки гипотезы о нормальном законе распределения измерений радиации в помещении.
i | Границы ai-1 ai | ni | Ф0(bi-1) Ф0(bi) | pi= Ф0(bi)- -Ф0(bi-1) | n×pi | ni-n×pi | ||
- ¥ | - ¥ | - 0.5 | 0.01430 | 0.715 | 7.285 | 74.225 | ||
0.13 | -2.1993 | -0.4857 | ||||||
0.13 | -2.1993 | -0.4857 | 0.13027 | 6.5135 | - 1.5135 | 0.3517 | ||
0.16 | -1.0657 | -0.3554 | ||||||
0.16 | -1.0657 | -0.3554 | 0.38333 | 19.1665 | - 8.1665 | 3.4795 | ||
0.19 | 0.06802 | 0.0279 | ||||||
0.19 | 0.06802 | 0.0279 | 0.26599 | 13.2995 | - 2.2995 | 0.3975 | ||
0.21 | 0.82381 | 0.2939 | ||||||
0.21 | 0.82381 | 0.2939 | 0.18111 | 9.0555 | 2.9445 | 0.9574 | ||
0.24 | 1.95743 | 0.4750 | ||||||
0.24 | 1.95743 | 0.4750 | 0.02500 | 1.250 | 1.7500 | 2.4500 | ||
+ ¥ | + ¥ | 0.5 | ||||||
S | 1.00 | 0.0 | 81,8618 |
Число параметров, оцениваемых в нормальном законе распределения равно l = 2, следовательно, число степеней свободы асимптотического хи-квадрат распределения равно:
Выбираем уровень значимости a = 0.95, тогда квантиль хи-квадрат распределения (Приложение 8.4) равен . Сравнивая на основе (8.3.4) выборочное значение с квантилью делаем [поскольку > ],вывод:
гипотеза Н0 о нормальном законе распределения полученных при измерениях значений уровня радиации в помещении отвергается.
8.4. Точность и надежность оценки вероятности реализации события с помощью его относительной частоты
при большом объеме выборки.
Пусть р – вероятность реализации события А, - его относительная частота. Тогда, полагая:
(8.4.1)
где: g - надежность (вероятность), с которой доверительный интервал накрывает значение вероятности р реализации события,
- уровень значимости;
- квантиль нормального распределения N(0, 1) порядка ;
e - половина длины доверительного интервала.
Тогда:
(8.4.2)
Пример 8.4.1.
Известен объем выборки n=550, задана требуемая надежность g=0.95.
Необходимо построить доверительный интервал для вероятности с помощью найденной по выборке р* = 0.3.
Решение.
С помощью таблицы (Приложение 8.1) квантилей нормального распределения находим:
Определяем половину длины доверительного интервала:
Таким образом, значение искомой вероятности реализации события А с надежностью g = 0.95 находится в интервале [(р*- e), (р*+ e)]: