Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона
Ранее предполагалось, что закон генеральной совокупности известен. Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А.
Проверка гипотезы о предполагаемом законе неизвестного распределения производится так же, как и проверка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины — критерия согласия.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется несколько критериев согласия: («хи квадрат») К. Пирсона, Колмогорова, Смирнова и др.
Рассмотрим применение критерия Пирсона [3] к проверке гипотезы о нормальном распределении генеральной совокупности (критерий аналогично применяется и для других распределений, в этом состоит его достоинство). С этой целью будем сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.
Обычно эмпирические и теоретические частоты различаются, например
эмп. частоты 6 13 38 74 106 85 30 10 4
теорет. частоты 3 14 42 82 99 76 37 11 2
Случайно ли расхождение частот? Возможно, что расхождение случайно (незначимо) и объясняется либо малым числом наблюдений, либо способом их группировки, либо другими причинами. Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о нормальном распределении генеральной совокупности.
Критерий Пирсона отвечает на поставленный выше вопрос. Правда, как и любой критерий, он не доказывает справедливость гипотезы, а лишь устанавливает на принятом уровне значимости ее согласие или несогласие с данными наблюдений.
Итак, пусть по выборке объема n получено эмпирическое распределение:
варианты xi x1 x2 . . . xs
эмп. частоты ni n1 n2 ns
Допустим, что в предположении нормального распределения генеральной совокупности вычислены теоретические частоты (например, так, как в 3.4.4.). При уровне значимости α требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.
В качестве критерия проверки нулевой гипотезы примем случайную величин
= , ∗
– эмпирические частоты; ‑ теоретические частоты.
Эта величина случайная, так как в различных опытах она принимает различные, заранее не известные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (∗), и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.
Заметим, что возведением в квадрат разностей частот устраняют возможность взаимного погашения положительных и отрицательных разностей. Делением на достигают уменьшения каждого из слагаемых; в противном случае сумма была бы настолько велика, что приводила бы к отклонению нулевой гипотезы даже и тогда, когда она справедлива. Разумеется, приведенные соображения не являются обоснованием выбранного критерия, а лишь пояснением.
Доказано, что. при n→∞ закон распределения случайной величины (∗) независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения χ2 c k степенями свободы. Поэтому случайная величина (∗) обозначена через χ2 а сам критерий называют критерием согласия «хи квадрат».
Число степеней свободы находят по равенству k = s – 1 – r , где s - число групп (частичных интервалов) выборки; r-число параметров предполагаемого распределения, которые оценены по данным выборки.
В частности, если предполагаемое распределение нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому r = 2 и число степеней свободы k = s – 1 – r = =s – 1‑2=s‑3.
Если, например, предполагают, что генеральная совокупность распределена по закону Пуассона, то оценивают один параметр λ, поэтому r = =1 и k = s ‑ 2.
Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости α
P[χ2 > χ2кр (α ; k )] = α.
Таким образом, правосторонняя критическая область определяется неравенством χ2 > χ2кр (α ; k ) , а область принятия нулевой гипотезы ‑ неравенством χ2 < χ2кр (α ; k ).
Обозначим значение критерия, вычисленное по данным наблюдений, через χ2набл. и приведем правило проверки нулевой гипотезы.
Правило. Для того чтобы при заданном уровне значимости проверить нулевую гипотезу H0: генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия
= (**)
и по таблице критических точек распределения χ2 (см. таблицу приложения 2), по заданному уровню значимости α и числу степеней свободы k = s - 3 найти критическую точку χ2кр (α ; k ).
Если χ2набл < χ2кр - нет оснований отвергнуть нулевую гипотезу.
Если χ2набл > χ2кр - нулевую гипотезу отвергают.
Замечание 1. Объем выборки должен быть достаточно велик, во всяком случае не менее 50. Каждая группа должна содержать не менее 5—8 вариант; малочисленные группы следует объединять в одну, суммируя частоты.
Замечание 2. Поскольку возможны ошибки первого и второго рода, в особенности если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность. Например, можно повторить опыт, увеличить число наблюдений, воспользоваться другими критериями, построить график распределения, вычислить асимметрию и эксцесс .
Замечание 3. Для контроля вычислений формулу (**) преобразуют к виду
χ2набл = [Σ(n2i/ ni' )] _ n.
Рекомендуем выполнить это преобразование самостоятельно, для чего надо в (**) возвести в квадрат разность частот, сократить
результат на ni' и учесть, что Σni = n , Σni' = n.
Пример решения задачи к разделу 3.4.3. [3 ]
Пример 4. При уровне значимости α =0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты:
эмп. частоты 6 13 38 74 106 85 30 14
теорет. частоты 3 14 42 82 99 76 37 13
Решение. Вычислим χ2набл , для чего составим расчетную табл. 3.2.
Контроль: χ2набл = 7,19: [Σ( /ni' )]-n = 373,19 — 366 = 7,19. Вычисления произведены правильно.
Найдем число степеней свободы, учитывая, что число различных вариант s = 8; k = 8 ‑ 3 = 5.
По таблице критических точек распределения χ2 (см. табл. приложения 2, по уровню значимости α = 0,05 и числу степеней свободы к = 5 находим χ2кр (0,05; 5)= 11,1.
Так как χ2набл < χ2кр — нет оснований отвергнуть нулевую гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.
Таблица 3.2.