Критерий Колмогорова-Смирнова

Этот критерий используется для решения тех же задач, что и критерий хи-квадрат. Иначе говоря, с его помощью можно сравнивать эмпирическое распределение с теоретическим или два эмпирических распределения друг с другом. Однако если при применении хи-квадрат мы сопоставляем частоты двух распределений, то в данном критерии сравниваются накопленные (кумулятивные) частоты по каждому разряду (альтернативе). При этом если разность накопленных частот в двух распределениях оказывается большой, то различия между двумя распределениями являются существенными.

Задача 8.12.Предположим, что в эксперименте психологу необходимо использовать шестигранный игральный кубик с цифрами на гранях от 1 до 6. Для чистоты эксперимента необходимо получить «идеальный» кубик, т.е. такой, чтобы при достаточно большом числе подбрасываний, каждая его грань выпадала бы примерно равное число раз. Задача состоит в выяснении того, будет ли данный кубик близок к идеальному?

Решение. Подбросим кубик 120 раз и сравним полученное эмпирическое распределение с теоретическим. Поскольку теоретическое распределение является равновероятным, то соответствующие теоретические частоты равны 20. Распределение эмпирических и теоретических частот представим совместно в таблице 8.15:

Таблица 8.15

Грани № 1 №2 №3 №4 №5 №6
В — частоты эмпирические
Е — частоты теоретические

Для подсчета по критерию Колмогорова—Смирнова необходимо провести ряд преобразований с данными таблицы 8.15. Представим эти преобразования в таблице 8.16 и объясним их получение:

Таблица 8.16

FE
FB
|FE-FB|

Символом FE в таблице 8.16 будем обозначать накопленные теоретические частоты. В таблице они получаются следующим образом: к первой теоретической частоте 20, добавляется вторая частота, также равная 20, получается число 20 + 20 = 40. Число 40 ставится на место второй частоты. Затем к числу 40 прибавляется следующая теоретическая частота, полученная величина 60 — ставится на место третьей теоретической частоты и так далее.

Символом FB в таблице 8.16 обозначаются накопленные эмпирические частоты. Для их подсчета необходимо расположить эмпирические частоты по возрастанию: 15, 18, 18, 21, 23, 25 и затем по порядку сложить. Так, вначале стоит первая частота равная 15, к ней прибавляется вторая по величине частота и полученная сумма 15 + 18 = 33 ставится на место второй частоты, затем к 33 добавляется 18 (33 + 18 = 51), полученное число 51 ставится на место третьей частоты и т.д.

Символом |FE – FB| в таблице 8.16 обозначаются абсолютные величины разности между теоретической и эмпирической частотой по каждому столбцу отдельно.

Эмпирическую величину этого критерия, которая обозначается как Dэмп получают используя формулу (8.13):

Критерий Колмогорова-Смирнова - student2.ru

Для её получения среди чисел |FE – FB| находят максимальное число (в нашем случае оно равно 9) и делят его на объем выборки п. В нашем случае п = 120, поэтому Dэмп = 9/120 = 0,075.

Для этого критерия таблица с критическими значениями дана в Приложении 1 под № 13. Из таблицы 13 Приложения 1 следует, однако, что в том случае, если число элементов выборке больше 100, то величины критических значений вычисляются по формуле (8.14):

Критерий Колмогорова-Смирнова - student2.ru

Иными словами, вместо привычных табличных значений вычисляются величины Dкр подстановкой величины объема выборки вместо символа п.

В нашем случае п = 120, поэтому D для 0,05 равно Критерий Колмогорова-Смирнова - student2.ru и Dкр для 0,01 равно Критерий Колмогорова-Смирнова - student2.ru , или в привычной форме записи:

Критерий Колмогорова-Смирнова - student2.ru

Строим «ось значимости»:

Критерий Колмогорова-Смирнова - student2.ru

В нашем случае Dэмп оказалось равным 0,075, что гораздо меньше 0,124, иначе говоря, эмпирическое значение критерия Колмогорова—Смирнова попало в зону незначимости. Таким образом, гипотеза Н1 отклоняется и принимается гипотеза Но о том, что теоретическое и эмпирическое распределения не отличаются между собой. Следовательно, можно с уверенностью утверждать, что наш игральный кубик «безупречен».

Приведем еще один пример решения задачи сравнения эмпирического распределения с теоретическим при помощи критерия Колмогорова—Смирнова.

Задача 8.13.В выборке из здоровых лиц мужского пола, студентов технических и военно-технических вузов в возрасте от 19-ти до 22 лет, средний возраст 20 лет, проводился тест Люшера в 8-цветном варианте. Установлено, что желтый цвет предпочитается испытуемыми чаще, чем отвергается. Можно ли утверждать, что распределение желтого цвета по 8-ми позициям у здоровых испытуемых отличается от равномерного распределения? (Пример взят из книги Е.В. Сидоренко, (30). Ниже приведено решение этого примера с использованием вышеприведенного способа, а не способом, приведенным в работе Е.В. Сидоренко).

Решение. Представим экспериментальные данные сразу в виде таблицы 8.17:

Таблица 8.17

Градации цвета
В — эмпирические частоты , 9
Е — теоретические частоты

Сумма эмпирических частот этого примера равна 112. При подсчете теоретических частот мы исходим из предположения об их равенстве, следовательно 112/8 = 14.

Упорядочим эмпирические частоты:

8 8 9 10 13 15 24 25

Рассчитаем соответствующую кумулятивную таблицу:

Таблица 8.18

FE
FB
|FE-FB|

В первой строчке таблицы 8.18, обозначенной символом FE, накопленные теоретические частоты получены так: первая частота — 14, вторая частота — 14 + 14 = 28, третья частота — 28 + 14 = 42 и т.д.

Во второй строчке таблицы 8.18, обозначенной символом FB, накопленные эмпирические частоты получены так: первая частота 8, вторая 8 + 8 = 16, третья — 16 + 9 = 25, четвертая 25 + 10 = 35 и т.д.

При п = 112 по формуле (8.13) находим:

Критерий Колмогорова-Смирнова - student2.ru

В нашем случае п = 112, поэтому по формуле (8.14) находим:

Критерий Колмогорова-Смирнова - student2.ru

В привычной форме записи величины критических значений выглядят так:

Критерий Колмогорова-Смирнова - student2.ru

Строим «ось значимости»:

Критерий Колмогорова-Смирнова - student2.ru

Полученная величина Dэмп показывает, что эмпирическое распределение на высоком уровне значимости отличается от теоретического равномерного распределения. Гипотеза Но отвергается. Следовательно, распределение желтого цвета отличается от равномерного по восьми позициям.

Отметим, что критерий Колмогорова—Смирнова позволяет сравнивать между собой два эмпирических распределения. Однако проведение такого расчета оказывается достаточно сложным. Поэтому в настоящем пособии способ сравнения двух эмпирических распределений с использованием критерия Колмогорова-Смирнова рассматриваться не будет, тем более что принцип сравнения двух эмпирических распределение подробно изложен выше при анализе работы с критерием хи-квадрат (см. раздел 8.2).

Для применения критерия Колмогорова—Смирнова необходимо соблюдать следующие условия:

1.Измерение может быть проведено шкале интервалов и отношений.

2.Выборки должны быть случайными и независимыми.

3.Желательно, чтобы суммарный объем двух выборок > 50. С увеличением объема выборки точность критерия повышается.

4.Эмпирические данные должны допускать возможность упорядочения по возрастанию или убыванию какого-либо признака и обязательно отражать какое-то его однонаправленное изменение. В том случае, если трудно соблюсти принцип упорядоченности признака, лучше использовать критерий хи-квадрат.

8.3. Критерий Фишера — φ

Критерий Фишера предназначен для сопоставления двух рядов выборочных значений по частоте встречаемости какого-либо признака. Этот критерий можно применять для оценки различий в любых двух выборках зависимых или независимых. С его помощью можно сравнивать показатели одной и той же выборки, измеренные в разных условиях.

8.3.1. Сравнение двух выборок по качественно определенному признаку

Задача 8.14.Психолог провел эксперимент, в котором выяснилось, что из 23 учащихся математической спецшколы 15 справились с заданием, а из 28 обычной школы с тем же заданием справились 11 человек. Можно ли считать, что различия в успешности решения заданий учащимися спецшколы и обычной школы достоверны?

Решение. Для решения этой задачи с помощью критериея Фишера показатели успешности выполнения заданий необходимо перевести в проценты. В процентах это составит:

Критерий Колмогорова-Смирнова - student2.ru

По таблице 14 Приложения 1 находим величины φ1 и φ2 — соответствующие процентным долям в каждой группе. Так для 65,2% согласно таблице соответствующая величина φl = 1,880, а для 39,3% величина φ2 = 1,355.

Эмпирическое значение φэмп подсчитывается по формуле:

Критерий Колмогорова-Смирнова - student2.ru

Где φl —величина, взятая из таблицы 14 Приложения 1, соответствующая большей процентной доле;

φ2 —величина, взятая из таблицы 14 Приложения 1, соответствующая меньшей процентной доле;

n1 —количество наблюдений в выборке 1;

n2 — количество наблюдений в выборке 2.

В нашем случае

Критерий Колмогорова-Смирнова - student2.ru

По таблице 15 Приложения 1 определяем, какому уровню значимости соответствует φэмп = 1,86.

С таблицей 15 Приложения 1 работают следующим образом: находят внутри ее число равное вычисленному φэмп и смотрят между какими уровнями значимости (с учетом тысячной доли) оно находится. Первый левый столбец таблицы 15 Приложения 1 соответствует уровням значимости от 0,00 (самое верхнее значение) до 010 (самое нижнее значение). Верхняя строчка таблицы — соответствует тысячной доле уровня значимости. Итак, находим наше число, равное 1,86 внутри таблицы 15 — оно находится на пересечении строчки, соответствующей уровню значимости 0,03 и столбца, обозначенного цифрой 1. Следовательно уровень значимости φэмп = 1,86 равен 0,03 + 0,001 = 0,031.

Следует подчеркнуть, однако, что поскольку критические значения для 5% и 1% уровней значимости имеют фиксированную величину и составляют соответственно для 5% φкр = 1,64, а для 1% φкр= 2,28, то таблица 15 Приложения 1 практически не нужна. Поскольку вышеозначенными величинами критических уровней можно пользоваться всегда. В привычной форме записи это выглядит так:

Критерий Колмогорова-Смирнова - student2.ru

Строим «ось значимости»:

Критерий Колмогорова-Смирнова - student2.ru

Поскольку мы попали в зону неопределенности, то в терминах статистических гипотез в данном примере можно принять гипотезу Н1 на 5% уровне значимости и отклонить ее на 1% уровне значимости. Иными словами, на 5% уровне значимости можно говорить о различии между успешностью в решении заданий учениками сравниваемых школ, а на уровне в 1% — этого утверждать нельзя.

Сравнение двух выборок

Наши рекомендации