Критерий Колмогорова—Смирнова
Назначение критерия
Критерий предназначен для сопоставления двух распределений:
а) эмпирического с теоретическим, например, равномерным или нормальным;
б) одного эмпирического распределения с другим эмпирическим распределением.
Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.
Описание критерия
Если в методе мы сопоставляли частоты двух распределений отдельно по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т.д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.
Если различия между двумя распределениями существенны, то в какой–то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия включается эта разность. Чем больше эмпирическое значение , тем более существенны различия.
Гипотезы
Различия между распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).
: Различия между распределениями достоверны (судя по точке максимального накопленного расхождения между ними).
Для применения критерия Колмогорова–Смирнова необходимо соблюдать следующие условия:
1. Измерение может быть проведено шкале интервалов и отношений.
2. Выборки должны быть случайными и независимыми.
3. Желательно, чтобы суммарный объем двух выборок ≥ 50. С увеличением объема выборки точность критерия повышается.
4. Эмпирические данные должны допускать возможность упорядочения по возрастанию или убыванию какого-либо признака и обязательно отражать какое-то его однонаправленное изменение. В том случае, если трудно соблюсти принцип упорядоченности признака, лучше использовать критерий хи-квадрат.
Этот критерий используется для решения тех же задач, что и критерий xи-квадрат. Иначе говоря, с его помощью можно сранивать эмпирическое распределение с теоретическим или два эмпирических распределения друг с другом. Однако если при применении хи-квадрат мы сопоставляем частоты двух распределений, то в данном критерии сравниваются накопленные (кумулятивные) частоты по каждому разряду (альтернативе). При этом если разность накопленных частот в двух распределениях оказывается большой, то различия между двумя распределениями являются существенными.
Задача 8.12.Предположим, что в эксперименте психологу необходимо использовать шестигранный игральный кубик с цифрами на гранях от 1 до 6. Для чистоты эксперимента необходимо получить «идеальный» кубик, т.е. такой, чтобы при достаточно большом числе подбрасываний, каждая его грань выпадала бы примерно равное число раз. Задача состоит в выяснении того, будет ли данный кубик близок к идеальному?
Решение. Подбросим кубик 120 раз и сравним полученное эмпирическое распределение с теоретическим. Поскольку теоретическое распределение является равновероятным, то соответствующие теоретические частоты равны 20. Распределение эмпирических и теоретических частот представим совместно в таблице 8.15:
Для подсчета по критерию Колмогорова–Смирнова необходимо провести ряд преобразований с данными таблицы 8.15. Представим эти преобразования в таблице 8.16 и объясним их получение:
Символом FE в таблице 8.16 будем обозначать накопленные теоретические частоты. В таблице они получаются следующим образом: к первой теоретической частоте 20, добавляется вторая частота, также равная 20, получается число 20 + 20 = 40. Число 40 ставится на место второй частоты. Затем к числу 40 прибавляется следующая теоретическая частота, полученная величина 60 — ставится на место третьей теоретической частоты и так далее.
Символом FB в таблице 8.16 обозначаются накопленные эмпирические частоты. Для их подсчета необходимо расположить эмпирические частоты по возрастанию: 15, 18, 18, 21, 23, 25 и затем по порядку сложить. Так, вначале стоит первая частота равная 15, к ней прибавляется вторая по величине частота и полученная сумма 15 + 18 = 33 ставится на место второй частоты, затем к 33 добавляется 18 (33 + 18 = 51), полученное число 51 ставится на место третьей частоты и т.д.
Символом |FE - FB| в таблице 8.16 обозначаются абсолютные величины разности между теоретической и эмпирической частотой по каждому столбцу отдельно.
Эмпирическую величину этого критерия, которая обозначается как Dэмп получают используя формулу (8.13):
Для её получения среди чисел |FE - FB| находят максимальное число (в нашем случае оно равно 9) и делят его на объем выборки п. В нашем случае п = 120, поэтому
Для этого критерия таблица с критическими значениями дана в Приложении 1 под № 13. Из таблицы 13 Приложения 1 следует, однако, что в том случае, если число элементов выборке больше 100, то величины критических значений вычисляются по формуле (8.14):
Иными словами, вместо привычных табличных значений вычисляются величины Dкр подстановкой величины объема выборки вместо символа п.
В нашем случае п = 120, поэтому Dкр для0,05 равно
и Dкp для 0,01 равно , или в привычной форме записи:
В нашем случае Dэмп оказалось равным 0,075, что гораздо меньше 0,124, иначе говоря, эмпирическое значение критерия Колмогорова-Смирнова попало в зону незначимости. Таким образом, гипотеза Н1 отклоняется и принимается гипотеза о том, что теоретическое и эмпирическое распределения не отличаются между собой. Следовательно, можно с уверенностью утверждать, что наш игральный кубик «безупречен».