Кривые распределения. Критерии согласия
Кривая распределения – кривая линия, которая отражает закономерность изменения частот в чистом, исключающем влияние случайных факторов виде.
Теоретическая кривая распределения - кривая, выражающая общую закономерность данного типа распределения в чистом виде, исключающем влияние случайных факторов.
Закономерности распределения - закономерности изменения частот в вариационных рядах.
Нормальное распределение выражается следующей стандартизированной кривой нормального распределения: ,
где yt - ордината кривой нормального распределения; - стандартизированная (нормированная) величина; e и π – математические постоянные.
В статистической практике большой интерес представляет решение вопроса о том, в какой мере можно считать полученное в результате статистического наблюдения распределение признака в исследуемой совокупности, соответствующее нормальному распределению.
Для решения этого вопроса следует рассчитать теоретические частоты нормального распределения, т.е. те частоты, которые были бы, если бы данное распределение в точности следовало закону нормального распределения. Для расчета теоретических частот применяется следующая формула:
,
величина определяется по специальной таблице (Приложение 1).
Следовательно, в зависимости от величины t для каждого интервала эмпирического ряда определяются теоретические частоты.
Степень расхождения теоретических и эмпирических частот оценивается с помощью особых показателей – критериев согласия, с помощью которых проверяется гипотеза о законе распределения.
Наиболее распространенным является критерий согласияК. Пирсона χ2 ("хи- квадрат"), исчисляемый по формуле:
,
где f - эмпирические частоты (частости) в интервале;
f´- теоретические частоты (частости) в интервале.
Полученное значение критерия (χ²расч) сравнивается с табличным значением (χ²табл). Последнее определяется по специальной таблице (Приложение 2) в зависимости от принятой вероятности (Р) и числа степеней свободы k (для нормального распределения k равно числу групп в ряду распределения минус 3).
Если χ²расч £ χ²табл , то гипотеза о близости эмпирического распределения к нормальному не отвергается.
При расчете критерия Пирсона необходимо соблюдать условия: число наблюдений должно быть достаточно велико (п ³ 50); если теоретические частоты в некоторых интервалах меньше 5, то интервалы объединяют так, чтобы частоты были больше 5.
Используя величину χ²,В.И. Романовский предложил оценивать близость эмпирического распределения кривой нормального распределения по отношению:
,
где k - число групп; (k – 3) - число степеней свободы при исчислении частот нормального распределения.
Если < 3, то можно принять гипотезу о нормальном характере эмпирического распределения.
Распространенным критерием согласия является критерий А.И. Колмогорова (l):
,
где D - максимальное значение разности между накопленными эмпирическими и теоретическими частотами; - сумма эмпирических частот.
По таблице значений вероятностей l-критерия находят соответствующую вероятность (Р). Приведем краткую выдержку из таблицы значений функции k(l) А.Н. Колмогорова:
l | 1,23 | 1,36 | 1,63 | 1,80 | 2,00 |
Р или k(l) | 0,9030 | 0,9505 | 0,9902 | 0,9970 | 0,9993 |
Если найденной величине l соответствует значительная по величине вероятность (Р), то расхождения между эмпирическим и теоретическим распределениями несущественны и рассматриваемое распределение следует закону нормального распределения.
Практическое и научное значение имеет распределениеПуассона. Оно характерно для редко встречающихся явлений, поэтому его называют "законом редких явлений" (или "законом малых чисел").
Закон Пуассона применяется для совокупностей, достаточно больших по объему (n ³ 50) и имеющих достаточно малую долю единиц, обладающих данным признаком (р £ 0,1), например, для распределения партий готовой продукции по числу забракованных изделий, печатных страниц по числу опечаток, станков по числу отказов, ткацких станков по числу обрывов нити и т. д.
Теоретические частоты распределения Пуассона определяются формулой:
,
где n - общее число независимых испытаний;
l - среднее число появления редкого события в п одинаковых независимых испытаниях;
т - частота данного события (т = 0, 1, 2 ...);
е - основание натуральных логарифмов, е = 1,271828.
Величина е-l определяется по специальной таблице (Приложение 3); m! – произведение 1×2×3×…×m; 0! – считается равным единице.
Например. Рассмотрим построение кривой нормального распределения на примере, характеризующем распределение партий деталей по длительности производственного цикла:
Таблица 5.2
Границы интервала, час | Наблюдаемая частота, fi | Нормированное отклонение для нижней границы интервала, = | Нормированное отклонение для верхней границы интервала, = | Значение интегральной функции Лапласа для F( ) | Значение интегральной функции Лапласа для F( ) | Оценка вероятности попадания в интервал Pi | Частота теоретического распределения |
1 | 2 | 3 | 4 | 5 | 6 | 7=6-5 | 8=7*71 |
-∞ - 28 | -∞ | -1,927 | -0,5000 | -0,4732 | 0,0268 | 1,9 | |
28-113 | -1,927 | -1,393 | -0,4732 | -0,4177 | 0,0555 | 3,94 | |
113-198 | -1,393 | -0,852 | -0,4177 | -0,3023 | 0,1154 | 8,19 | |
198-283 | -0,852 | -0,312 | -0,3023 | -0,1217 | 0,1806 | 12,82 | |
283-368 | -0,312 | +0,229 | -0,1217 | +0,0910 | 0,2127 | 15,11 | |
368-453 | +0,229 | +0,769 | +0,0910 | +0,2791 | 0,1884 | 13,40 | |
453-538 | +0,769 | +1,31 | +0,2791 | +0,4049 | 0,1258 | 8,93 | |
538-623 | +1,31 | +1,86 | +0,4049 | +0,4686 | 0,0637 | 4,52 | |
623-708 | +1,86 | +2,39 | +0,4686 | +0,4915 | 0,0229 | 1,63 | |
708- +∞ | +2,39 | +∞ | +0,4915 | +0,5000 | 0,0085 | 0,59 | |
Итого |
Нормальное распределение определяется двумя параметрами – это средняя арифметическая и среднее квадратическое отклонение. По нашим данным =331 ч., σ = 157,25 ч. Все последующие расчеты для определения теоретических частот представлены в графах 3-8 табл.5.2. Значения граф 5 и 6 определяются по таблицам интегральной функции Лапласа (Приложение 4). 7 графа определяется разностью гр.6 – гр.5. Теоретическая частота гр.8 = . Например, для первого интервала = 0,0268·71 = 1,9 и т.д.
Расчет критерия Пирсона: при расчете нужно соблюдать следующие условия:
1) число наблюдений должно быть достаточно велико (п ³ 50);
2) если теоретические частоты в некоторых интервалах меньше 5, то интервалы объединяют так, чтобы частоты были больше 5.
Воспользуемся данными примера, приведенного в табл.5.2, для расчета критерия "хи-квадрат", предварительно округлив теоретические частоты в гр.8, а также объединив частоты двух и трех последних интервалов, выполняя требование ³5. Получим частоты эмпирического и теоретического распределений, приведенные в табл.5.3.
Таблица 5.3
Номер интервала | Эмпирические частоты | Теоретические частоты | ||
0,17 | ||||
2,00 | ||||
0,08 | ||||
0,00 | ||||
1,23 | ||||
0,00 | ||||
0,57 | ||||
Итого | 4,05 |
χ²расч = 4,05.
Для проверки гипотезы о нормальности распределения число степеней свободы равно (k-3), где k – число групп. Следовательно, число степеней свободы равно: 7-3=4.
Уровень значимости выбирается таким образом, что Р(χ²расч > χ²табл)=a (величина a принимается равной 0,05 или 0,01).
При уровне значимости 0,05 и числе степеней свободы 4: χ²табл=9,5.
Таким образом, расчетное значение критерия Пирсона не превышает табличное значение (4,05<9,5) при a =0,05, т.е. проведенный расчет дает право не отвергать гипотезу о нормальном характере эмпирического распределения.
Например, по критерию Романовского:
=
Так как рассчитанное отношение значительно меньше 3, следует принять гипотезу о нормальности эмпирического распределения.