Проверка соответствия ряда распределения закону Пуассона
Таможенная инспекция провела проверку после выпуска товаров. В результате получен следующий дискретный ряд распределения числа нарушений, выявленных в каждой проверке (табл. 16).
Таблица 16. Ряд распределения числа нарушений, выявленных таможенной инспекцией
Число нарушений | ||||
Число проверок |
Проведем анализ этого ряда распределения. Сначала рассчитаем среднее число нарушений в выборке, а также его дисперсию, для чего построим вспомогательную таблицу 17.
Таблица 17. Ряд распределения числа нарушений, выявленных таможенной инспекцией
Число нарушений X | Число проверок f | Xf | (Х- )2 f | m | f’ | m’ | |f’– m’| | |
3,022 | 21,7 | 0,244 | 21,7 | 2,3 | ||||
1,665 | 7,7 | 1,778 | 29,4 | 1,4 | ||||
5,413 | 1,4 | 0,257 | 30,8 | 0,8 | ||||
6,997 | 0,2 | 3,200 | ||||||
Итого | 17,097 | 5,479 |
Среднее число нарушений в выборке по формуле (11): = 11/31 = 0,355 (нарушений).
Дисперсию определим по формуле (28): = = 0,552 (нарушений2).
Построив график этого распределения (полигон) – рис. 11, видно, что данное распределение не похоже на нормальное.
Рис. 11. Кривая распределения числа нарушений, выявленных таможенной инспекцией
Из структурных характеристик ряда распределения можно определить только моду: Мо = 0, так как по данным табл. 17 такое число нарушений чаще всего встречается (f=24).
По формуле (24) определим размах вариации: H = 3 – 0 = 3, что характеризует вариацию в 3 нарушения.
По формуле (26) найдем среднее линейное отклонение:
.
Это означает, что в среднем число нарушений отклоняется от среднего их числа на 0,55.
Среднее квадратическое отклонение рассчитаем не по формуле (28), а как корень из дисперсии, которая уже была рассчитана нами выше: , тогда , т.е. в изучаемом распределении наблюдается некоторое число выделяющихся нарушений (с большим числом нарушений, выявленных в одной проверке).
Поскольку квартили на предыдущем этапе не определялись, на данном этапе расчет среднего квартильного расстояния пропускаем.
Теперь рассчитаем относительные показатели вариации:
– относительный размах вариации по формуле (32): = 3/0,355 = 8,45;
– линейный коэффициент вариации по формуле (33): = 0,550/0,355 = 1,55;
– квадратический коэффициент вариации по формуле(34): = 0,743/0,355 = 2,09.
Все расчеты на данном этапе свидетельствуют о значительных размере и интенсивности вариации нарушений, выявленных таможенной инспекцией.
Не имеет практического смысла расчет моментов распределения, так как видно из рис. 11, что в изучаемом распределении симметрия отсутствует вовсе, поэтому и расчет эксцесса также бесполезен.
Выдвинем гипотезу о соответствии изучаемого распределения распределению Пуассона[26], которое описывается формулой (48):
, (48)
где P(X) – вероятность того, что признак примет то или иное значение X;
e = 2,7182 – основание натурального логарифма;
X! – факториал числа X (т.е. произведение всех целых чисел от 1 до X включительно);
a = – средняя арифметическая ряда распределения.
Из формулы (48) видно, что единственным параметром распределения Пуассона является средняя арифметическая величина. Порядок определения теоретических частот этого распределения следующий:
1) рассчитать среднюю арифметическую ряда, т.е. = a;
2) рассчитать e–a;
3) для каждого значения X рассчитать теоретическую частоту по формуле (49):
. (49)
Поскольку a = = 0,355 найдем значение e – 0,355 =0,7012. Затем, подставив в формулу (49) значения X от 0 до 3, вычислим теоретические частоты:
m0 = (т.к. 0! = 1); m1 = ;
m2 = ; m3 = .
Полученные теоретические частоты занесем в 5-й столбец табл. 17 и построим график эмпирического и теоретического распределений (рис. 12), из которого видна близость эмпирического и теоретического распределений.
Рис. 12. Эмпирическая и теоретическая (распределение Пуассона) кривые распределения
Проверим выдвинутую гипотезу о соответствии изучаемого распределения закону Пуассона с помощью критериев согласия.
Рассчитаем значение критерия Пирсона χ2 по формуле (44) в 6-м столбце табл. 17: χ2 =5,479, что меньше табличного (Приложение 3) значения χ2табл=5,9915 при уровне значимости α = 0,05 и числе степеней свободы ν=4–1–1=2, значит с вероятностью 0,95 можно говорить, что в основе эмпирического распределения лежит закон распределения Пуассона, т.е. выдвинутая гипотеза не отвергается, а расхождения объясняются случайными факторами.
Определим значение критерия Романовского по формуле (46):
= 1,74 < 3, что подтверждает несущественность расхождений между эмпирическими и теоретическими частотами.
Для расчета критерия Колмогорова в последних трех столбцах таблицы 17 приведены расчеты накопленных частот и разностей между ними, откуда видно, что в 1-ой группе наблюдается максимальное расхождение (разность) D = 2,3. Тогда по формуле (47): . По таблице Приложения 6 находим значение вероятности при λ = 0,4: P = 0,9972 (наиболее близкое значение к 0,413), т.е. с вероятностью, близкой к единице, можно говорить, что в основе эмпирического распределения величины нарушений, выявленных таможенной инспекцией, лежит закон распределения Пуассона, а расхождения эмпирического и теоретического распределений носят случайный характер.
3.7. Контрольные задания
На основе условных ранжированных данных таблицы 18 провести анализ вариации величины налоговых сборов (тыс. руб.) с предприятий района, собранных налоговыми органами.
Таблица 18. Распределение вариантов для выполнения контрольного задания
№ п/п | Вариант | № п/п | Вариант | |||||||||||||||||||