Методика построения гистограммы и графика интегральной функции распределения
Для определения вида закона распределения случайной величины удобно представить данные наблюдений в графическом виде. Для графического представления данных наблюдения используется специальный график – гистограмма (рисунок 1).
Гистограмма является важным вспомогательным средством при принятии гипотезы о виде функции распределения. Поэтому необходимо извлечь из нее максимум информации. Дело в том, что форма гистограммы зависит от числа и величины интервалов разбиения. При слишком малом числе интервалов разбиения (интервал велик), плохо выявляются характерные особенности распределения. С ростом числа интервалов характерные особенности выявляются все лучше, но лишь до определенного предела.
Рис. 1 – Гистограмма и полигон распределения
При большом числе интервалов (интервал слишком мал) гистограмма снова теряет характерные особенности распределения, превращаясь в пределе (когда в каждом интервале не более одного значения) в чередование «пустых» интервалов и одинаковых по высоте прямоугольников.
Наиболее простой способ разбиения вариационного ряда - это использование равновеликих интервалов, количество которых определяется по специальным формулам, например, по формуле (2.6).
Согласно этому правилу при объеме выборки до тысячи полных реализаций рекомендуемое число интервалов разбиения не превышает одиннадцати. Для объемов выборки n < 50, с которыми в основном приходится иметь дело при обработке результатов испытаний на надежность, вид гистограмм слишком чувствителен к способу разбиения, поэтому правило (2.6) можно использовать лишь как ориентировочное. В этих случаях рекомендуется построить несколько вариантов гистограмм для различных способов разбиения вариационного ряда – для k = 6,7,8 и т.д.
При построении гистограммы по оси абсцисс откладывают в выбранном масштабе интервалы, и, взяв их как основания, строят прямоугольники, высота которых равна статистической плотности распределения на интервале.
Построенная таким образом ступенчатая функция fj называется гистограммой выборки. Эта функция служит статистическим аналогом плотности распределения вероятности случайной величины u=f(x) на j-ом интервале. Определяется по формуле 2.12
(2.12)
Площадь гистограммы равна единице.
Если соединить прямыми линиями середины верхних (горизонтальных) сторон прямоугольников гистограммы, то получится полигон распределения в виде ломаной линии (рисунок 1).
При построении нескольких гистограмм с разным количеством интервалов лучшей нужно считать гистограмму, имеющую меньшее число инверсий. Признаком инверсии считается изменение знака приращения высоты прямоугольника. Если число инверсий одинаково, лучшей следует считать ту, которая имеет большее число интервалов.
По данным статистического ряда можно вычислить еще одну характеристику случайной величины - эмпирическую интегральную функцию распределения. Значение эмпирической интегральной функции распределения для j-ого интервала Fj определяется по формуле:
(2.13)
Функция распределения F(x) может быть представлена в виде графика, который строится подобно гистограмме, только высоты прямоугольников равны значениям функции распределения соответствующих интервалов.
Пример графика приведен на рисунке 2.
Рис.2 График эмпирической интегральной функции распределения
Интегральная функция распределения является более универсальной характеристикой распределения по сравнению с гистограммой, которая определяет вероятность того события, что случайная величина X будет меньше или равна заданному значению u. Эмпирическая интегральная функция распределения определяет вероятность события X ≤ u.
Задача 5
Построить гистограмму и график интегральной функции распределения для данных из примера 2. В качестве первого приближения принять число интервалов рассчитанное по формуле (2.6) Стенжерса.
Пример решения
Построим гистограмму и график интегральной функции распределения для данных из примера 2.
Значения наработок разжимных кулаков тормоза на отказ в порядке возрастания в тыс. км:
70,0 102,1 118,7 125,0 133,5 139,9 144,3 145,6 160,0 163,6 165,1 165,6 167,6 173,2 174,3 175,2 177,7 177,9 197,6 198,9 199,2 201,4 205,2 209,6 217,1 218,3 218,5 219,5 220,3 221,0 221,4 223,8 234,0 236,1 243,5 244,8 246,0 246,6 250,8 251,7 287,3 290,6 300,0 308,0 329,9
В качестве первого приближения принять число интервалов, рассчитанное по формуле Стенжерса.
Принимаем число интервалов k =6, ширину интервала
Определить границы интервалов
,
Середину интервала Xj, вычислить по формуле (2.5):
Подсчитать число попаданий mj наблюденийвходящих в середину первого интервала. Полученные параметры свести в таблицу 4.
Гистограмма выборки на полученных интервалах (2.12)
=1/(45·43,3)=0,0005
=3/(45·43,3)=0,0015
Аналогично определить: f3=0,0051; f4=0,0051; f5=0,0031; f6=0,0020.
Таблица 4
Номер интервала | Границы интервалов | Середина интервала, | Число попаданий, |
70 - 113,3 | 91,7 | ||
113,3 - 156,6 | |||
156,6 - 200 | 178,3 | ||
200 - 243,3 | 221,7 | ||
243,3 - 286,6 | |||
286,6 - 329,9 | 308,3 |
Тогда гистограмма распределения случайной величины пробега автомобиля при исправных кулаках тормозной системы примет вид (рис. 3).
Рис. 3
В этом случае распределение имеем одну инверсию (при переходе с 4 на 5 интервал).
Принять число интервалов k = 7, ширина интервала ∆x = 37,1. Расчеты свести в таблицу 5.
Подсчет частот
Таблица 5
Номер интервала | Границы интервалов | Середина интервала, | Число попаданий, |
70 - 107,1 | 88,6 | ||
107,1 - 144,3 | 125,7 | ||
144,3 - 181,4 | 162,8 | ||
181,4 - 218,5 | 200,0 | ||
218,5 - 255,6 | 237,1 | ||
255,6 - 292,8 | 274,2 | ||
292,8 - 329,9 | 311,3 |
Гистограмма выборки на полученных интервалах: f1=0,0006; f2=0,0012; f3=0,0018; f4=0,0018; f5=0,0048; f6=0; f7=0,0012
Тогда гистограмма распределения случайной величины пробега автомобиля при исправных кулаках тормозной системы примет вид (рис. 4).
Рис. 4
В этом случае опять получаем две инверсии (при переходе с 5 на 6 интервал и с 6 на 7).
Принимаем число интервалов k = 8, ширина интервала ∆x = 32,5. Расчеты свести в таблицу 6.
Подсчет частот
Таблица 6
Номер интервала | Границы интервалов | Середина интервала | Число попаданий, mj |
70 - 102,5 | 86,24 | ||
102,5 - 135 | 118,7 | ||
135 - 167,5 | 151,2 | ||
167,5 - 200 | 183,7 | ||
200 - 232,4 | 216,2 | ||
232,4 - 264,9 | 248,7 | ||
264,9 - 297,4 | 281,2 | ||
297,4 – 329,9 | 313,7 |
Гистограмма выборки на полученных интервалах: f1=0,0007; f2=0,0007; f3=0,002; f4=0,004; f5=0,002; f6=0,004; f7=0, f8=0,0014
Тогда гистограмма распределения случайной величины пробега автомобиля при исправных кулаках тормозной системы примет вид (рис. 5).
Рис. 5
И в этом случае получаем четыре инверсии (при переходе с 4 на 5, с 5 на 6, с 6 на7 и с 7 на 8 интервалы).
Примем число интервалов k = 9, ширина интервала ∆x = 28,9. Расчеты сведём в таблицу 7.
Подсчет частот
Таблица 7
Номер интервала | Границы интервалов | Середина интервала, | Число попаданий, |
70 - 98,88 | 84,4 | ||
98,88 - 127,8 | 113,2 | ||
127,8 - 156,6 | 142,2 | ||
156,6 - 185,5 | 171,1 | ||
185,5 - 214,4 | |||
214,4 - 243,3 | 228,8 | ||
243,3 - 272,1 | 257,7 | ||
272,1 - 301 | 286,5 | ||
301 - 329,9 | 315,4 |
Гистограмма выборки на полученных интервалах при k=9: f1=0; f2=0,0008; f3=0,002; f4=0,004; f5=0,0023; f6=0,006; f7=0,0046; f8=0; f9=0,0008
Тогда гистограмма распределения случайной величины пробега автомобиля при исправных кулаках тормозной системы примет вид (рис.6).
В данном случае имеем четыре инверсии (при переходе с 4 на 5, с 5 на 6, с 6 на 7 и с 8 на 9 интервал).
Таким образом для нормального закона распределения правомерно принять количество интервалов равное 7, т.к. количество инверсий минимально, а количество интервалов наибольшее.
Рис.6
Определить функцию распределения случайной величины F(xj) (2,13) при семи интервалах группирования:
Для первого интервала ; для второго интервала ; и т.д.
Опытные значения функция распределения F(xj) представить в виде графика (рис.7)
Рис. 7