Раздел II. ЛАБОРАТОРНЫЙ ПРАКТИКУМ
Лабораторная работа № 1.
КОМПЛЕКСНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА
ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ И ПРОВЕРКА ГИПОТЕЗЫ ПРИНАДЛЕЖНОСТИ ВЫБОРКИ НОРМАЛЬНОМУ
РАСПРЕДЕЛЕНИЮ
Цель работы: овладеть способами построения рядов распределения и методами расчета числовых характеристик, а также овладеть методами применения выбранных критериев для проверки выдвинутой гипотезы.
Задача. Имеются данные о числе рабочих дней без простоя буровых бригад Тюменского региона.
Таблица 2.1
Содержание работы: на основе совокупности данных опыта выполнить следующее:
1.Построить и изобразить графически ряды распределения (интервальный и дискретный).
2.Изобразитьграфически кумуляту и эмпирическую функцию распределения.
3. Найти значение моды, медианы, выборочной средней, выборочной дисперсии, выборочного среднего квадратического отклонения, коэффициент вариации, асимметрию, эксцесс.
4. Найти доверительные интервалы для среднего квадратического отклонения и истинного значения измеряемой величины.
6. Проверить согласованность эмпирического распределения с теоретическим нормальным, применяя следующие критерии: Пирсона, Колмогорова, Романовского, Ястремского и Фишера.
7. Раскрыть смысловую сторону каждой характеристики. Сделать вывод.
Выполнение работы
Обозначим через Х – число рабочих дней без простоя буровых бригад Тюменского региона.
1. По данным выборки строим интервальный вариационный ряд. Для этого найдем максимальное и минимальное значение данной выборки. Поскольку xmax = 272, xmin = 248, то размах варьирования признака Х (ф.1.1) равен R = xmax – xmin = 272 – 248 = 24.
Далее определим число k интервалов (число столбцов в таблице) вариационного ряда (ф.1.2), положим .
Длина h каждого частичного интервала равна . Так как исходные данные мало отличаются друг от друга и содержат целые числа, то величину h округляем до целого: . В других случаях округлять не рекомендуется.
Подсчитываем число вариант, попадающих в каждый интервал, по данным выборки. Значение , попадающее на границу интервала, относим к левому концу. За начало первого интервала берем величину . Конец последнего интервала находим по формуле . Сформированный интервальный вариационный ряд записываем в виде табл. 2.2.
Таблица 2.2
Варианты- интервалы | 246- 249 | 249- 252 | 252- 255 | 255- 258 | 258- 261 | 261- 264 | 264- 267 | 267- 270 | 270- 273 |
Частоты, ni |
Выполним контроль вычислений: , и объем выборки .
Записываем дискретный вариационный ряд. В качестве вариант берем середины интервалов интервального вариационного ряда.
Таблица 2.3
варианты, | 247,5 | 250,5 | 253,5 | 256,5 | 259,5 | 262,5 | 265,5 | 268,5 | 271,5 |
частоты, ni |
Изображаем интервальный и дискретный вариационные ряды графически, построив гистограмму и полигон частот в одной системе координат (рис. 2.1).
2. Строим график накопленных частот — кумуляту.
Предварительно составляем расчетную табл. 2.4
Таблица 2.4
Варианты, | 247,5 | 250,5 | 253,5 | 256,5 | 259,5 | 262,5 | 265,5 | 268,5 | 271,5 |
относительные частоты, wi = ni/ n | 0,0055 | 0,0110 | 0,0275 | 0,1154 | 0,4231 | 0,2473 | 0,1154 | 0,0495 | 0,0055 |
накопительные относительные частоты, Wi = Wi – 1 + wi | 0,0055 | 0,0165 | 0,0440 | 0,1593 | 0,5824 | 0,8297 | 0,9451 | 0,9945 |
Рис. 2.1. Гистограмма и полигон
3. Находим эмпирическую функцию распределения. Воспользуемся формулой (ф.1.6):
Fв (x) .
Если х£247,5, то Fв (x) = 0 – по свойству эмпирической функции распределения.
Если 247,5< х£250,5, то Fв (x) .
Если 250,5< х£253,5, то Fв (x) .
Если 253,5< х£256,5, то Fв (x) .
Если 256,5< х£259,5, то Fв (x) .
Если 259,5< х£262,5, то Fв (x) .
Если 262,5< х£265,5, то Fв (x) .
Если 265,5< х£268,5, то Fв (x) .
Если 268,5< х£271,5, то Fв (x) .
Если , то Fв (x) = 1 – по свойству эмпирической функции распределения.
Записываем полученную эмпирическую функцию в виде:
Fв (x)
График функции Fв (x) представлен на рис. 2.3.
Соединив середины вертикальных частей ступенчатой кусочно-постоянной кривой, являющейся графиком функции Fв (x), получаем плавную кривую (на рис. 2.3 это штриховая линия). Абсциссами точек этой кривой служат значения чисел рабочих дней без простоя, а ординатами – значения эмпирической функции распределения, характеризующей оценку вероятности события X£ , т.е. вероятности попадания возможных значений чисел рабочих дней без простоя для пятидесяти буровых бригад на промежуток .
Для нахождения числовых характеристик признака Х – чисел рабочих дней без простоя (несмещенных оценок для , , а также , , , ) воспользуемся табл. 2.3.
Так как варианта в табл. 2.3 встречается с наибольшей частотой , то , т.е. это значение чисел рабочих дней без простоя, встречающееся в данной выборке с наибольшей частотой.
Находим . Так как табл. 2.3 содержит нечетное число столбцов, то . Это значение чисел рабочих дней без простоя, которое делит данные выборки признака Х на равные части.
Рис. 2.2. Кумулятивная кривая
Для нахождения остальных статистик, характеризующих число рабочих дней без простоя, воспользуемся методом произведений. Введем условные варианты (что существенно облегчит расчеты) ; , .
Составим расчетную табл. 2.5.
Таблица 2.5
контрольный столбец | |||||||
247,5 | -4 | -4 | -64 | ||||
250,5 | -3 | -6 | -54 | ||||
253,5 | -2 | -10 | -40 | ||||
256,5 | -1 | -21 | -21 | ||||
259,5 | |||||||
262,5 | |||||||
265,5 | |||||||
268,5 | |||||||
271,5 | |||||||
После расчетов необходимо выполнить контроль вычислений. Для этого воспользуемся формулой:
т.е. .
247,5 250,5 256,5 259,5 271,5 |
0,5 |
Рис. 2.3. Кумулята и эмпирическая функция распределения
Пользуясь результатами последней строки табл. 2.5, находим условные начальные моменты (ф.1.29 – 1.32):
,
,
,
.
Далее находим выборочную среднюю. Можно воспользоваться формулой средней арифметической, но в случае большой выборки можно использовать следующую формулу (ф.1.33):
.
Данная формула характеризует среднее число рабочих дней без простоя и составляет 261 рабочий день.
Находим выборочную дисперсию и выборочное среднее квадратичное отклонение (ф.1.34, 1.35):
.
Величина выборочного среднего квадратичного отклонения характеризует степень рассеяния значений числа рабочих дней без простоя относительно среднего числа рабочих дней.
Далее вычислим коэффициент вариации (ф.1.40):
.
Величина коэффициента вариации мала (составляет 1%), что означает достаточно тесную сгруппированность значений числа рабочих дней без простоя около центра рассеяния, т.е. около средней.
Для предварительной оценки отклонения значений числа рабочих дней без простоя от нормального распределения вычисляем асимметрию и эксцесс (ф.1.36, 1,37). Сначала находим центральные моменты третьего и четвертого порядков (ф.1.38, 1.39):
.
.
Тогда в соответствии с этими расчетами находим:
, .
Таким образом, получили что, значения и мало отличаются от нуля. Поэтому можно предположить близость данной выборки, характеризующей число рабочих дней без простоя, к нормальному распределению.
4.Произведем оценку генеральной средней и генерального среднеквадратического отклонения s = S по выборочным статистикам и используя теорию доверительных интервалов для нормального распределения.
Доверительный интервал для истинного значения числа рабочих дней без простоя с надежностью находим, согласно следующей формуле:
.
Согласно приложению 1, при и находим . Записываем доверительный интервал:
,
или .
Но условия задачи таковы, что необходимо записать интервал с целочисленными значениями, то есть .
Таким образом, среднее число рабочих дней без простоя (в количестве дней) по данным выборки должна находиться в промежутке .
Запишем доверительный интервал для генерального среднеквадратического отклонения . При заданных и по приложению 2 находим . Так как , то доверительный интервал записываем в виде:
,
или
,
или
;
следовательно, отклонения истинных значений число рабочих дней без простоя не должны выходить за пределы промежутка .
Этот интервал поможет нам правильно подобрать и построить график нормального распределения.
5. Продолжим вероятностно-статистическую обработку результатов эксперимента. Значения полученных характеристик дают нам возможность предположить, что данная выборка подчиняется нормальному распределению. Для подтверждения (или опровержения) данной гипотезы выполним следующие действия.
Построим теоретическую кривую. За основу берем дискретный вариационный ряд в табл. 2.3 и значения и .
Эмпирическая кривая распределения представляет собой полигон частот. Для построения теоретической (нормальной) кривой найдем координаты точек , для чего рассчитаем теоретические частоты (табл. 2.6).
Таблица 2.6
ni | ||||||
247,5 | -13 | -3,642 | 0,00053 | 0,07875966 | ||
250,5 | -10 | -2,819 | 0,00751 | 1,125948282 | ||
253,5 | -7 | -1,995 | 0,05452 | 8,170837687 | ||
256,5 | -4 | -1,172 | 0,20084 | 30,0987358 | ||
259,5 | -1 | -0,348 | 0,37555 | 56,28121406 | ||
262,5 | 0,475 | 0,35646 | 53,42102176 | |||
265,5 | 1,298 | 0,17175 | 25,73916502 | |||
268,5 | 2,122 | 0,04201 | 6,295210389 | |||
271,5 | 2,945 | 0,00522 | 0,781555052 |
- функция, значения которой находят по приложению 3.
Строим эмпирическую и теоретическую кривые.
Рис. 2.4. Эмпирическая и теоретическая кривые
Проверим согласованность эмпирического распределения (число рабочих дней без простоя) с теоретическим нормальным по критерию Пирсона. Вычислим величину по формуле: .
Для нахождения суммы составляем расчетную табл. 2.7.
Таблица 2.7
-3 | 1,125 | |||
-9 | 2,7 | |||
7,875 | ||||
-8 | 1,20754717 | |||
-5 | 0,961538462 | |||
1,5 | ||||
Находим число степеней свободы . Выбираем уровень значимости и по таблице критических точек распределения (приложение 4) находим . Так как, , то делаем вывод, что данные выборки, характеризующие число рабочих дней без простоя, не подчиняются нормальному закону распределения.
Проведём проверку близости эмпирического распределения к нормальному по критерию Романовского. Вычислим величину . Так как, , , то , т.е. расхождение между эмпирическим и теоретическим распределением несущественно, что позволяет утверждать, что данные выборки, характеризующие число рабочих дней без простоя по критерию Романовского подчиняются нормальному закону распределения.
Итак, для проверки согласованности эмпирического распределения с теоретическим нормальным мы применили два критерия, один из них подтвердил близость выборочной совокупности к нормальному распределению. В данном случае необходимо применить еще один или несколько критериев, для того чтобы сделать окончательный вывод.
Магистрам предлагается сделать это самостоятельно.
Лабораторная работа № 2.