Теоретические распределения в анализе вариационных рядов
В статистике используются различные виды теоретических распределений: нормальное распределение, биноминальное распределение, распределение Пуассона и др. Каждое из теоретических распределений имеет специфику и свою область применения в различных отраслях знаний. Чаще всего в качестве теоретического распределения используется нормальное распределение или закон К. Гаусса–А. Лапласа. В 1773 г. Де-Муавр вывел закон нормального распределения вероятностей. В разработку этого закона, основные идеи которого впервые были использованы в теории ошибок, в XIX в. внесли существенный вклад К. Гаусс и А. Лаплас. Общие условия возникновения закона нормального распределения установил А. М. Ляпунов. Нормальное распределение признака наблюдается в тех случаях, когда на величину вариантов, входящих в состав вариационного ряда, действует множество случайных, независимых или слабо зависимых факторов, каждый из которых играет в общей сумме незначительную роль. Нарушение нормального характера распределения часто является свидетельством неоднородности совокупности.
Закон нормального распределения вычисляется по формуле
, (6.6)
где – ордината кривой нормального распределения;
– нормированная величина;
– математические постоянные;
– варианты вариационного ряда;
– средняя величина;
s – среднее квадратическое отклонение.
Функция широко используется в экономических расчетах, а ее значение при разных t табулированы и представлены в таблицах. Графическое изображение дает кривую нормального распределения (рис. 6.5).
Нормальное распределение определяется двумя параметрами: средней арифметической ( ) и средним квадратическим отклонением (s). Подчиненность закону нормального распределения проявляется тем точнее, чем больше случайных величин действуют вместе. Если ни одна из случайно действующих причин по своему действию не окажется преобладающей над другими, то закон распределения очень близко подходит к нормальному.
Рис. 7. Нормальное распределение
с одно-, двух-, трехсигмовыми пределами
Свойства кривой нормального распределения:
1. Функция нормального распределения четная, т. е. y(–t) = y(+t). Следовательно, изображающая ее кривая распределена симметрично относительно оси ординат, т. е.
2. Функция имеет бесконечно малые значения при t = ± ¥. Это означает, что ветви кривой удалены в бесконечность и асимптотически приближаются к оси абсцисс.
3. Функция имеет максимум при t = 0. Отсюда следует, что модального значения кривая достигает при t = 0 или при . Величина максимума составляет .
4. При t = ±1 функция дает точки перегиба. Следовательно, при отклонении значений признака (х) от среднего значения в положительном и отрицательном направлениях на одно стандартное отклонение ( ) кривая дает переход от выпуклости к вогнутости.
5. Если случайная величина представляет сумму двух независимых случайных величин, следующих нормальному закону, то она тоже следует нормальному закону.
6. Площадь между кривой и осью Ot равна единице.
В условиях нормального распределения существует следующая зависимость между величиной среднего квадратического отклонения и количеством наблюдений: в промежутке между при
t = +1 и t = –1 заключается 68,26 % всех значений признаков; между при t = +2 и t = –2 располагается 95,44 % всех значений признаков; между при t = +3 и t = –3 находится 99,73 % значений признаков. На рис. 7 показано нормальное распределение с одно-, двух-, трехсигмовыми пределами.
На практике почти не встречаются отклонения, которые превышают . Отклонение может считаться максимально возможным. Это положение называют правилом трех сигм.
В математической статистике нормальное распределение играет роль некоторого стандарта, с которым сравнивают другие распределения.
При построении кривой по эмпирическим данным используют следующую формулу:
, (6.7)
где h – величина интервала;
– сумма всех частот, равная объему совокупности;
s – среднее квадратическое отклонение.
Пример. Построить нормальную кривую по данным о распределении 200 деталей по весу (табл. 6.1).
Решение. Находим среднюю по способу моментов по формуле (4.10), избираем центр отсчета А = 328,5 и h = 5:
.
Находим среднее квадратическое отклонение по формуле (5.10):
Находим t в каждой строке по формуле , а затем F(t). Для вычисления теоретических частот (т. е. ординат нормальной кривой) находим множитель и все найденные величины F(t) умножаем на 102,14. Так, для первой теоретической частоты получаем: 102,14 × 0,1295 » 13 и т. д. Учитывая, что полученные теоретические частоты могут быть только целыми числами, округляем их и находим сумму, равную 192. Таким образом, видим несовпадение суммы теоретических частот (192) с суммой фактических частот (200). Такое расхождение бывает в тех случаях, когда крайние теоретические частоты значительно отличаются от нуля. В этих случаях теоретическую кривую надо продлевать. В нашем примере нормальная кривая должна быть продолжена в сторону отрицательных отклонений от средней, так как первая неуточненная частота, как мы видели, равна 13.
Производим такой расчет теоретических частот для двух предшествующих интервалов, в которых фактические частоты равны нулю, и получаем для интервалов 296–301 и 301–306 теоретические частоты 2 и 6. Для наглядности строим график, на который наносим фактическое распределение в виде гистограммы и нормальную кривую (рис. 8).
Рис. 8. Фактическое распределение и нормальная кривая
На графике видна близость фактических частот распределения к теоретическим. Однако, такое сопоставление соответствия эмпирического распределения нормальному позволяет оценивать эти расхождения только субъективно. Объективная характеристика соответствия может быть получена с помощью приемов.
К элементарным приемам определения «нормальности» распределения относятся:
1. Сравнение по абсолютной величине отношений: если или , то «нормальность» распределения подвергается сомнению.
2. Сравнение средней арифметической с модой и медианой. Для нормального распределения
3. Использование теоретического соотношения для центральных моментов нормального распределения
4. Вычисление специальных критериев согласия.
Объективная характеристика соответствия эмпирического распределения нормальному может быть получена с помощью особых статистических показателей – критериев согласия. Известны критерии согласия К. Пирсона ( ), В.И. Романовского , А.Н. Колмогорова и Б.С. Ястремского .
Критерий согласия Пирсона ( ) вычисляется по формуле:
(6.8)
где эмпирические и теоретические частоты, соответственно.
С помощью величины по специальным таблицам определяется вероятность . Входами в таблицу являются значения и число степеней свободы k = n – 1.На основе вероятности выносится суждение о существенности или несущественности расхождения между эмпирическим и теоретическим распределениями. При Р > 0,5 считается, что теоретическое и эмпирическое распределения близки, при Р [0,2; 0,5] совпадение между ними удовлетворительное, в остальных случаях – недостаточное.
Критерий Романовского (C), также используемый для проверки близости эмпирического и теоретического распределений, определяется следующим образом:
, (6.11)
где – критерий Пирсона;
k – число степеней свободы, которое равно числу групп минус три.
При С < 3 различие несущественно, что позволяет считать эмпирическое распределение близким к нормальному.
Таблица 6.1
Распределение 200 деталей по весу
Вес дета-лей, г. | Число деталей i | Середина интервала | Теоретические частоты | Уточненные теоретические частоты | |||||||
296 –301 | – | – | – | – | – | – | –24,7 | –2,52 | 0,0171 | – | |
301–306 | – | – | – | – | – | – | –19,7 | –2,01 | 0,0540 | – | |
306–311 | 308,5 | –4 | –76 | –14,7 | –1,05 | 0,1295 | |||||
311–316 | 313,5 | –3 | –102 | –9,7 | –0,99 | 0,2444 | |||||
316–321 | 318,5 | –2 | –76 | –4,7 | –0,48 | 0,3555 | |||||
321–326 | 323,5 | –1 | –33 | +0,3 | +0,03 | 0,3988 | |||||
326–331 | 328,5 | +5,3 | +0,54 | 0,3448 | |||||||
331–336 | 333,5 | +1 | +17 | +10,3 | +1,05 | 0,2299 | |||||
336–341 | 338,5 | +2 | +22 | +15,3 | +1,56 | 0,1182 | |||||
341–346 | 343,5 | +3 | +18 | +20,3 | +2,07 | 0,0468 | |||||
346–351 | 348,5 | +4 | +8 | +25,3 | +2,58 | 0,0143 | |||||
351–356 | 353,5 | +5 | +10 | +30,3 | +3,10 | 0,0034 | – | – | |||
Итого: | – | – | –212 | – | – | – | – |
|
Критерий Ястремского (L) может быть найден на основе следующего соотношения:
(6.9)
где N – объем совокупности;
pq – дисперсия альтернативного признака;
к – число вариантов или групп;
Q – принимает значение 0,6 при числе вариантов или групп от 8 до 20.
Если L > 3, то эмпирическое распределение соответствует теоретическому.
Критерий Колмогорова (l) вычисляется по формуле:
, (6.10)
где Д – максимальное значение разности между накопленными эмпирическими и теоретическими частотами;
– сумма эмпирических частот.
Необходимым условием использования этого критерия является достаточно большое число наблюдений (не меньше 100) [1, 3, 4, 7–10].
Тесты
1. Средний размер реализованной коммерческой организацией спортивной обуви равен 39, мода – 39, медиана – 39. На основании этого можно сделать вывод, что распределение проданной спортивной обуви по размеру:
а) симметричное;
б) приближенно симметричное;
с) с левосторонней асимметрией;
г) с правосторонней асимметрией;
д) данные не позволяют сделать вывод.
2. Статистическая совокупность из 245 единиц разделена на 16 групп. Число степеней свободы для критерия равно:
а) 244;
б) 242;
в) 16;
г) 15;
д) 13.
3. Критерий Колмогорова может быть рассчитан на основании:
а) индивидуальных данных;
б) частот;
в) частостей.
4. Теоретическая кривая распределения – это:
а) средний квадрат отклонений;
б) значения признака, делящего совокупность на равные части;
в) кривая, выражающая закономерность распределения, исключающая влияние случайных факторов;
г) закономерности изменения частот в вариационных рядах.
5. Имеются данные о распределении количества деталей по числу работающих:
Количество деталей, шт. | Итого | ||||||
Число работающих, % к итогу |
Используя центральные моменты первых четырех порядков, рассчитайте коэффициенты асимметрии и эксцесса. Сделайте выводы.
6. Распределение магазинов по размеру товарооборота за октябрь 2004 г. характеризуется следующими данными:
Группы магазинов по размеру товарооборота, тыс. руб. | Число магазинов | Группы магазинов по размеру товарооборота, тыс. руб. | Число магазинов |
До 200 | 500–600 | ||
200–300 | 600–700 | ||
300–400 | 700–800 | ||
400–500 | Свыше 800 | ||
Итого | – | – |
Определите показатели асимметрии и эксцесса распределения магазинов по размеру товарооборота. Сделайте выводы.