Проверка нормальности эмпирического распределения с помощью критерия Пирсона (хи-квадрат) и коэффициентов асимметрии и эксцесса.
Эмпирический вариационный ряд и его график - вариационная кривая - не позволяют с полной уверенностью судить о законе распределения совокупности, из которой берется выборка. На величине любого варьирующего признака сказывается влияние многочисленных, в том числе и случайных, факторов, искажающих четкую картину варьирования. Между тем знание закона распределения позволяет избежать возможных ошибок в оценке генеральных параметров по выборочным характеристикам.
Гипотезу о законе распределения можно проверить разными способами, в частности с помощью коэффициентов асимметрии As и эксцесса Ex. При нормальном распределении эти показатели равны нулю. В действительности такое равенство почти не наблюдается. Выборочные показатели As и Ех, являются случайными величинами, которые сопровождаются ошибками. В качестве критерия нормальности распределения служат tAs и tSx, являющиеся отношениями выборочных коэффициентов As и Ех к их ошибкам репрезентативности, которые определяют обычно по следующим приближенным формулам:
S As =√ (6 / n+3) S Ех=√ (24/ n+5) = 2√(6/n+5)
S As =√[(6(n-1))/((n+1)*(n+3))] S Ех=√[(24n*(n-2)*(n-3)*(n-5))/((n-1)2*(n+3)*(n+5))]
Поэтому более предпочтительно следует считать проверку нормальности распределения по значениям этих коэффициентов с применением таблиц. В них указаны критические точки для разных уровней значимости α и объемов выборки n. Если коэффициенты As и Ex превосходят критические точки, содержащиеся в этих таблицах, гипотеза о нормальности распределения должна быть отвергнута.
Проверку гипотез о законах распределения также производят с помощью специально выработанных критериев. Один из них — критерий согласия, или соответствия ӽ2(предложен в 1900 г. К. Пирсоном). Этот критерий представляет собой сумму квадратов отклонений эмпирических частот fот вычисленных или ожидаемых частот f′, отнесенную к теоретическим частотам, т. е.
ӽ2 =∑ki=1 (f- f′)2 / f′= ∑ki=1 (d2 / f′)
Символ ӽ2не является квадратом какого-то числа, а выражает лишь исходную величину, определяемую данной формулой. Буквой dобозначена разность между эмпирическими и вычисленными частотами.
Величина критерия ӽ2 всегда положительна, так как отклонения эмпирических частот от ожидаемых или вычисленных частот возведены в квадрат. Поэтому при определении разности d знаки чисел можно не учитывать, вычитая из больших значений меньшие. При полном совпадении эмпирических частот с вычисленными или ожидаемыми частотами ∑ (fi - f′i )=0 и ӽ2=0.
Распределение вероятных значений случайной величины хявляется непрерывным и асимметричным, оно зависит от числа степеней свободы k и приближается к нормальной кривой по мере увеличения числа испытаний. Поэтому применение критерия х2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно при малых выборках.
Для того чтобы оценки были более точными, выборка, распределяемая в вариационный ряд, должна содержать не менее 50 вариант. Поэтому часто считают, что применение критерия ӽ2 требует, чтобы в крайних классах вариационного ряда содержалось не менее пяти вариант. Если в крайних классах содержится меньше чем пять вариант, то вычисленные и эмпирические частоты объединяются до указанного минимума, и соответственно уменьшается число классов вариационного ряда.
Число степеней свободы устанавливают по вторичному числу классов с учетом ограничений свободы вариации, которая в разных случаях бывает различной. Так, при оценке эмпирических распределений, следующих нормальному закону, число степеней свободы k=N-3 (с учетом трех ограничений свободы вариаций: n, х и sx). Если же оценке подлежит распределение, следующее закону Пуассона, число степеней свободы уменьшается на единицу, т. е. k = N-2 (с учетом двух ограничений свободы вариации nи Sx2 или х).
В других случаях число степеней свободы устанавливают особо. На величине критерия х сказывается степень точности, с какой определены теоретически вычисленные или ожидаемые частоты. Поэтому при сопоставлении эмпирических частот с вычисленными частотами последние не следует округлять до целых чисел.
Нулевая гипотеза сводится к предположению, что различия, наблюдаемые между эмпирическими и вычисленными или ожидаемыми частотами, носят исключительно случайный характер. Для проверки нулевой гипотезы нужно фактически полученную величину ӽф2 сравнить с ее критическим значением ӽ2st.