Сравнение эмпирического распределения с теоретическим
В разных задачах подсчет теоретических частот осуществляется по-разному.
Рассмотрим примеры задач, иллюстрирующих различные варианты подсчета теоретических частот. Начнем с равновероятного распределения теоретических частот. В задачах такого типа в силу требования равномерности распределения все теоретические частоты должны быть равны между собой.
Задача 2.Предположим, что в эксперименте психологу необходимо использовать шестигранный игральный кубик с цифрами на гранях от 1 до 6. Для чистоты эксперимента необходимо получить «идеальный» кубик, т.е. такой, чтобы при достаточно большом числе подбрасываний, каждая его грань выпадала бы примерно равное число раз. Задача состоит в выяснении того, будет ли данный кубик близок к идеальному?
Решение. Для решения этой задачи, психолог подбрасывал кубик 60 раз, при этом количество выпадений каждой грани (эмпирические частоты ) распределилось следующим образом:
Таблица 2.
Грани кубика | ||||||
-эмпирические частоты | ||||||
-теоретические частоты |
В «идеальном» случае необходимо, чтобы каждая из 6 его граней (теоретические частоты) выпадала бы равное число раз: . Величина и будет, очевидно, теоретической частотой , одинаковой для каждой грани кубика.
Согласно данным подсчитаем величину по формуле:
,
где - эмпирическая частота,
-теоретическая частота,
- количество разрядов признака.
.
Замечание. Для вычисления можно составить таблицу таблица 2.
Таблица 2.
Грани кубика | |||||
0,4 | |||||
-1 | 0,1 | ||||
0,1 | |||||
1,6 | |||||
-2 | 0,4 | ||||
-4 | 1,6 | ||||
Суммы | 0 (!) |
Теперь, для того чтобы найти , необходимо обратиться к таблице 12 Приложения 1, определив, предварительно число степеней свободы v. В нашем случае (число граней) k = 6, следовательно, v = 6 - 1 = 5. По таблице 12 Приложения 1 находим величины для уровней значимости 0,05 и 0,01:
В нашем случае попало в зону незначимости и оказалось равным 4,2, что гораздо меньше 11,070 – критической величины для 5% уровня значимости. Следовательно, можно принимать гипотезу о том, что эмпирическое и теоретическое распределения не различаются между собой. Таким образом, можно утверждать, что игральный кубик «безупречен».
Понятно, также, что если бы попало в зону значимости, то следовало бы принять гипотезу о наличии различий и тем самым утверждать, что наш игральный кубик был бы далеко не «безупречен».
При решении приведенной выше задачи с равновероятным распределением теоретических частот не было необходимости использовать специальные процедуры их подсчета. Однако на практике чаще возникают задачи, в которых распределение теоретических частот не имеет равновероятного характера. В этих случаях для подсчета теоретических частот используются специальные формулы или таблицы. Рассмотрим задачу, в которой в качестве теоретического будет использоваться нормальное распределение.
Задача 3. У 267 человек был измерен рост. Вопрос состоит в том, будет ли полученное в этой выборке распределение роста близко к нормальному?
Решение. Измерения проводились с точностью до 0,1 см и все полученные величины роста оказались в диапазоне от 156,5 до 183,5 см. Для расчета по критерию целесообразно разбить этот диапазон на интервалы, величину интервала удобнее всего взять равной 3 см, поскольку 183,5 - 156,5 = 27 и 27 делится нацело на 3 . Таким образом, все экспериментальные данные будут распределены по 9 интервалам. При этом центрами интервалов будут следующие числа: 158, 161, 164, 167, 170,173,176,179,182.
При измерении роста в каждый из этих интервалов попало какое-то количество людей - эта величина для каждого интервала и будет эмпирической частотой, обозначаемой в дальнейшем как .
Чтобы применить расчетную формулу , необходимо, прежде всего, вычислить теоретические частоты. Для этого по всем полученным значениям эмпирических частот (по всем выборочным данным) нужно вычислить:
1) среднее .
2) и среднеквадратическое отклонение ( ).
Для наших выборочных данных величина среднего оказалась равной 166,22 и среднеквадратическое = 4,06.
Затем для каждого выделенного интервала следует подсчитать величины по формуле (где индекс i изменяется от 1 до 9, т.к. у нас 9 интервалов):
Величины называются нормированными частотами. Удобнее производить их расчет с помощью таблицы 3.
Затем по величинам нормированных частот по таблице 11 Приложения 1 находятся величины , которые называются ординатами нормальной кривой для каждой . Величины , полученные из таблицы 11 Приложения 1, заносятся в соответствующую строчку четвертого столбца таблицы 3. Величины, полученные в третьем и четвертом столбцах таблицы 3, позволяют вычислить по соответствующей формуле необходимые нам теоретические частоты (обозначаемые как. ) и также занести их в пятый столбец таблицы 3.
Расчет теоретических частот осуществляется для каждого интервала по следующей формуле
,
где n = 267 (общая величина выборки),
= 3 (величина интервала),
— среднеквадратичное отклонение.
Таблица 3.
Центры интервалов | Эмпирические частоты | Ординаты нормальной кривой | Расчетные теоретические частоты | |
-2,77 | 0,0086 | 1,6 | ||
-2,03 | 0,0508 | 10,0 | ||
-1,29 | 0,1736 | 34,3 | ||
-0,55 | 0,3429 | 67,8 | ||
+0,19 | 0,3918 | 77,6 | ||
+0,93 | 0,2589 | 51,2 | ||
+1,67 | 0,0989 | 19,5 | ||
+2,41 | 0,0219 | 4,4 | ||
+3,15 | 0,0028 | 0,6 | ||
Суммы | - | - | 267,0 |
Для вычисления составим таблицу 4, которая получается из таблицы 3, сложением первых двух строк и двух нижних строк, для того, чтобы получить 7 интервалов для упрощения расчетов.
Таблица 4.
Альтернативы | |||||
11,6 | +0,4 | 0,16 | 0,01 | ||
34,3 | -3,3 | 10,89 | 0,32 | ||
67,8 | +3,2 | 10,24 | 0,15 | ||
77,6 | +4,4 | 19,36 | 0,25 | ||
51,2 | -5,2 | 27,04 | 0,53 | ||
19,5 | -0,5 | 0,25 | 0,01 | ||
5,0 | +1,0 | 1,00 | 0,20 | ||
Суммы |
В случае оценки равенства эмпирического распределения нормальному, число степеней свободы определяется: . Таким образом, число степеней свободы в нашем случае будет равно v = 4. По таблице 12 Приложения 1 находим:
Полученная величина эмпирического значения хи-квадрат попала в зону незначимости, поэтому, необходимо принять гипотезу об отсутствии различий. Следовательно, существуют все основания утверждать, что наше эмпирическое распределение близко к нормальному.
В заключении подчеркнем, что, несмотря на некоторую «громоздкость» вычислительных процедур, этот способ расчета дает наиболее точную оценку совпадения эмпирического и нормального распределений.