Непараметрические критерии
В математической статистике часто требуется проверить гипотезу, что независимая выборка
(2.17)
взята из генеральной совокупности с функцией распределения . Относительно конкурирующей гипотезы, кроме независимости в (2.17), других предположений не делается. В этом случае применяются так называемые непараметрические статистические критерии, которые строятся на основе какой-либо статистики зависящей от , причем распределение этой статистики при справедливости основной гипотезы известно точно и асимптотически при . Обычно статистика положительна, и при любой конкурирующей гипотезе ее значение вырастает.
Выбирается такое , чтобы при основной гипотезе выполнялось с вероятностью ошибки I рода .
Основная гипотеза принимается, если и отвергается, если .
Одним из наиболее известных таких критериев является -критерий Пирсона.
Выберем точки
Обозначим число тех из выборки (2.17), которые удовлетворяют условию . Тогда при справедливости основной гипотезы случайные величины
(2.18) имеют полиноминальное распределение:
, (2.19)
.
Первоначальную задачу мы редуцируем теперь к проверке гипотезы о том, что частоты (2.18) получены из номинального распределения (2.19) с вероятностями
.
Статистика, на основе которой строится критерий, называется -статистикой Пирсона и определяется суммой:
(2.20)
Теорема 2 . Распределение при слабо сходится к -распределению с й степенью свободы с функцией распределения.
(2.21)
Данный факт применяется следующим образом. Задаемся уровнем значимости . Тогда в силу теоремы 2, при больших с вероятностью, приближенно равной выполняется неравенство:
(2.22) где - -квантиль -распределения с й степенью свободы, т.е.
(2.23)
Мы считаем основную гипотезу принятой, если , и отвергнутой, если выполнено обратное неравенство.
Выбор точек деления должен удовлетворять двум требованиям. Во-первых, вероятности должны достаточно хорошо отражать вид функции распределения (для этого должно быть больше, а меньше). Во-вторых, для того, чтобы можно было пользоваться предельной теоремой и соответственно, должны быть не очень маленькими (для этого r не должно быть очень большим). Обычно на практике требуют, чтобы
, .
Из этих противоположных требований и выбираются точки .
Другим примером непараметрического критерия является критерий Колмогорова. Этот критерий основан на статистике:
, (2.24)
где -непрерывная функция распределения генеральной совокупности, -эмпирическая (выборочная) функция распределения, построенная по выборке (1.1):
,
( , где - число выборочных значений, расположенных левее ).
Докажем, что распределение случайной величины инвариантно относительно .
Теорема 3. Если непрерывна, то распределение статистики не зависит от .
Доказательство.
Докажем, что при любой непрерывной имеет такое же распределение, как и в случае, когда задает равномерное распределение на отрезке
Пусть - независимые случайные величины и каждая их них имеет функцию распределения .
Предположим, что , и при , причем и могут быть бесконечными. Обозначим через множество, состоящее из тех точек , для которых при любом Нетрудно видеть, что при любом существует единственная точка , для которой Примем это за значение обратной функции
.
Введем случайные величины , . Они независимы, так как - независимы и равномерно распределены в так как события и равносильны и при любом .
Обозначим более подробно эмпирические функции распределения для выборок и :
.
Положим , . Тогда из равносильности событий
и следует
. (2.25)
Верхнюю грань в (2.24) можно брать по , поэтому в силу (2.25) с вероятностью 1:
,
что и требовалось доказать.
А.Н.Колмогоров доказал, что при для любой непрерывной имеет место следующее соотношение:
(2.26)
На основе предельного соотношения (2.26) строится непараметрический критерий Колмогорова. Пусть – -квантиль предельного распределения (2.26)
.
Тогда гипотеза о том, что выборка (2.17) взята из распределения с функцией , принимается, если , и отвергается, если . Уровень значимости этого критерия приближенно равен .
С той же самой предельной функцией связан критерий Смирнова. Он состоит в следующем. Пусть и - две независимые выборки, первая имеет функцию распределения , вторая - Обозначим :
.
Н.В.Смирнов доказал, что если непрерывны, то при в пределе имеет тот же закон распределения , определенный рядом (2.26). Эта предельная теорема позволяет нам строить критерий по проверке гипотезы о том, что выборки и взяты из одного и того же распределения.
ОЦЕНКИ ПАРАМЕТРОВ