Критерий согласия Колмогорова-Смирнова для одной выборки (Kolmogorov-Smirnov (K-S) one-sample test)
Непараметрический метод проверки степени согласия эмпирической функции распределения переменной с определенным теоретическим законом распределения.
Критерий Колмогорова—Смирнова сравнивает эмпирическую функцию распределения переменной с определенным теоретическим законом распределением. В наших дальнейших рассуждениях Аiобозначает кумулятивную частость для каждой категории теоретического (предполагаемого) распределения, a Oi— сравниваемое значение выборочной частости. Критерий К—С основан на максимальном значении абсолютной разности между Аi и Oi. Значение критерия вычисляют по формуле:
Решение об отклонении нулевой гипотезы основано на значении К. Чем больше значение К, тем больше уверенности, что нулевая гипотеза Н0 неверна. При α = 0,05 критическое значение К для больших выборок (свыше 35 наблюдений) задается формулой [20]. Альтернативно, К можно преобразовать в нормально распределенную z-статистику и определить связанную с ней вероятность.
Предположим, что в рамках примера по степени использования Internet мы хотели бы узнать, действительно ли собранные данные подчиняются нормальному распределению. Результаты проверки с помощью критерия согласия К—С, представлены в табл. 15.16.
Таблица 15.16. Критерий К-С для проверки нормального закона распределения данных (для одной выборки) в примере по изучению степени использования Internet | ||||
Проверка распределения — Нормальное | ||||
Среднее Стандартное отклонение Случаи (количество) | 6,600 4,296 | |||
Самые большие значения разностей | ||||
Абсолютное | Положительное | Отрицательное | K-S z-статистика | Двусторонняя вероятность р |
0,222 | 0,222 | -0,142 | 1,217 | 0,103 |
Самая большая по абсолютной величине разность между наблюдаемым и нормальным распределением равна К = 0,222. Хотя размер нашей выборки только 30 (меньше, чем 35), мы можем использовать приближенную формулу, и критическое значение для К равно . Так как вычисленное значение К меньше критического, то нулевая гипотеза не может быть отклонена. Альтернативно, из данных табл. 15.16 видно, что вероятность появления наблюдаемого значения К, равного 0,222, определенная с помощью нормализованной z-статистики, равна 0,103. Поскольку это значение больше, чем уровень значимости 0,05, то нулевую гипотезу нельзя отклонить. Мы пришли к аналогичному выводу. Следовательно, распределение степени использования Internet несущественно отклоняется от нормального распределения.
Как уже упоминалось, в отношении одной переменной из одной выборки можно выполнять проверку гипотезы по критерию хи-квадрат. В этом плане он также является критерием согласия. Он проверяет, действительно ли существует статистически значимая разница между наблюдаемым числом случаев в каждой категории и ожидаемым. Другие непараметрические методы проверки включают критерий серий и биномиальный тест.