Критерий Колмогорова – Смирнова
Назначение критерия. Критерий λ предназначен для сопоставления двух распределений: а). эмпирического с теоретическим, например, равномерным или нормальным; б). одного эмпирического распределения с другим эмпирическим распределением.
Ограничения критерия. Критерий требует, чтобы выборка была достаточно большой, , ≥50.
Гипотезы:
: различия между двумя распределениями незначимы.
: различия между двумя распределениями значимы.
Алгоритм подсчета λ – критерия.
Составляем таблицу для удобства расчетов:
1. В первом столбце располагают эмпирические значения признака, упорядоченные по возрастанию.
2. Во втором столбце располагают эмпирические частоты для каждого значения, а в третьем столбце относительные эмпирические частоты для каждого значения, рассчитанные по формуле: f*эмп j = fэмп j / n, где fэмп j – эмпирическая частота из второго столбца, n – объем выборки.
3. Подсчитываем «накопленные» эмпирические частоты по формуле:
∑ f*эмп j = ∑ f*эмп j-1+ f*эмп j ,
где ∑ f*эмп j-1 – частота, накопленная на предыдущих значениях признака;
j – порядковый номер значения признака; f*эмп j – эмпирическая частота данного j разряда. Результаты помещают в 4 столбец.
4. В 5 столбце располагают накопленные теоретические частоты, если сравнивают с известным теоретическим распределением; если сравнивают 2 эмпирических распределения, то в 5 столбце располагают накопленные эмпирические частоты для выборки 2.
5. Подсчитывают разности между накопленными частотами и их абсолютные значения помещают в 6 столбец. Обозначим их dj.
6. Определяют по 6 столбцу максимальное значение dj → dmax.
7. Подсчитывают λэмп по формуле:
,
где n1 – объем выборки 1, n2 - объем выборки 2, если = = n, то .
8. По заданному уровню значимости из таблицы VII приложения находят граничную точку λкр.
9. Если λэмп < λкр, то различия между распределениями признака незначимы; если λэмп > λкр, то различия между распределениями признака значимы.
Пример. В продовольственном магазине проведены контрольные взвешивания проданной колбасы. Объем выборки n = 100. Полученные данные указаны в таблице.
недовес, г | |||||||||
частота |
Определить с помощью λ – критерия Колмогорова-Смирнова на уровне значимости α=0,05, согласуются ли данные выборки с равномерным распределением на отрезке [0,10].
Решение. : различия между эмпирическим и предполагаемым теоретическим распределением незначимы.
: различия между эмпирическим и предполагаемым теоретическим распределением значимы.
Функция распределения случайной величины, равномерно распределенной на отрезке [0,10] имеет следующий вид:
Заполним таблицу:
xj | fэмп j | fэмп j/n | ∑ f*эмп j | ∑ f*теор j | dj |
0,10 | 0,10 | 0,1 | |||
0,11 | 0,21 | 0,2 | 0,01 | ||
0,08 | 0,29 | 0,3 | 0,01 | ||
0,09 | 0,38 | 0,4 | 0,02 | ||
0,12 | 0,50 | 0,5 | |||
0,10 | 0,60 | 0,6 | |||
0,13 | 0,73 | 0,7 | 0,03 | ||
0,15 | 0,88 | 0,8 | 0,08 | ||
0,12 | 1,00 | 0,9 | 0,1 |
Поясним, как заполняется таблица. Значения первых двух столбцов взяты из условия. Каждое число второго столбца делим на n = 100 и результат записываем в 3 столбец. Каждое число 4 столбца равно сумме числа из этой же строки 3 столбца и предыдущего числа 4 столбца. Каждое число 1 столбца подставляем в формулу f*теор = xj /10 и результат записываем в 5 столбец. 6 столбец – модуль разности 4 и 5 столбцов. Наибольшее число в 6 столбце dmax =0,1; λэмп =0,1 = 1.
По уровню значимости α = 0,05 из таблицы VI приложениия находим граничную точку λкр = 1,358. Поскольку λэмп < λкр (1 < 1,358), то принимаем гипотезу на уровне значимости α = 0,05. Данные выборки согласуются с равномерным распределением на отрезке [0,10].