Вариационный ряд. полигон частот и гистограмма эмпирическая функция распределения
Пусть Х — некоторый признак изучаемого объекта или явления (срок службы электролампы, вес студента, диаметр шарика для подшипника и т.п.). Генеральной совокупностью является множество всех возможных значений этого признака, а результаты n наблюдений над признаком Х дадут нам выборку объема n — первоначальные статистические данные, значения (простая выборка, не сгруппированные данные)
При этом значение получено при первом наблюдении случайной величины Х, – при втором наблюдении той же случайной величины и т.д.
Выборку преобразуют в вариационный ряд, располагая результаты наблюдений в порядке возрастания: Каждый член вариационного ряда называется вариантой.
Пример 4.1.
1. Измерена масса тела 10-ти детей 6-ти лет. Полученные данные образуют простой статистический ряд: 24 22 23 28 24 23 25 27 25 25.
2. Из 10000 выпущенных на конвейере электрических лампочек отобрано 300 штук для проверки качества всей партии. Здесь а
Отдельные значения статистического ряда называются вариантами. Если варианта хi появилась m раз, то число m называют частотой, а ее отношение к объему выборки m/n – относительной частотой.
Последовательность вариант, записанная в возрастающем (убывающем) порядке, называется ранжированным рядом.
Пример 4.2. Для ранжированного ряда: 23 23 24 24 25 25 25 27 28 в нижеприведенной таблице в первой строке записаны все значения величины (варианты), во второй – соответствующие им частоты (безынтервальный вариационный ряд), в третьей – накопленные частоты, в четвертой – относительные частоты (табл.4.1).
Таблица 4.1. Значения вариант и их частот
Х | ||||||
ni | ||||||
nн | ||||||
0.1 | 0.2 | 0.2 | 0.3 | 0.1 | 0.1 |
Полигоном частот называют ломаную линию, отрезки которой соединяют точки с координатами (хi; ni) (рис. 4.1).
Отметим, что сумма частот статистического ряда равна объему выборки. Часто статистический ряд составляют, используя относительные частоты вариант: (m — количество различных вариант). Сумма относительных частот равна единице.
Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки с координатами (хi; hi).
а) | б) |
Рисунок 4.1. Полигон частот а), кумулятивная кривая б)
Эмпирическим аналогом графика интегральной функции распределения является кумулятивная кривая (кумулята). Для ее построения на оси ОХ откладывают значения вариант, на оси ОY – накопленные частоты или относительные частоты. Полученная плавная кривая называется кумулятой.
В том случае, если выборка представлена большим количеством различных значений непрерывной случайной величины, то группировку данных проводят в виде интервального вариационного ряда (ИВР). Для этого диапазон варьирования признака разбивают на несколько (5–10) равных интервалов и указывают количество вариант, попавших в каждый интервал.
Алгоритм построения интервального вариационного ряда.
1. Исходя из объема выборки (n), определить количество интервалов (k) (см. табл. 4.2).
Таблица 4.2.Рекомендуемое соотношениеобъем выборки-число интервалов
n | 25–40 | 40–60 | 60–100 | 100–200 | >200 |
k | 5–6 | 6–8 | 7–10 | 8–12 | 10–15 |
2. Вычислить размах ряда: R=Xmax – Xmin
3. Определить ширину интервала: h=R/(k–1)
4. Найти начало первого интервала X0 = Xmin – h/2
5. Составить интервальный вариационный ряд.
Графическим изображением ИВР является гистограмма. Для ее построения на оси ОХ откладывают интервалы шириной h, на каждом интервале строят прямоугольник высотой m/h. Величина m/h называется плотностью частоты. Гистограмма является эмпирическим аналогом графика дифференциальной функции распределения.
Пример 4.3. Измерена масса тела 100 женщин 30 лет, получены значения от 60 до 90 кг. Построить интервальный вариационный ряд (табл. 4.3) и гистограмму.
Таблица 4.3. Интервальный вариационный ряд
Интервал | Середина интервала | m | m/h |
60–65 | 62.5 | 2.8 | |
65–70 | 67.5 | 6.4 | |
70–75 | 72.5 | 5.6 | |
75–80 | 77.5 | 2.8 | |
80–85 | 82.5 | 1.4 | |
85–90 | 87.5 | 0.4 |
Рисунок 4.2. Гистограмма
Эмпирическая функция распределения находится по следующей формуле (отношение накопленных частот к объему выборки):
(4.1)
СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ