Методические указания по выполнению работы
ПРАКТИЧЕСКАЯ РАБОТА №1.
ПОСТРОЕНИЕ ВАРИАЦИОННЫХ РЯДОВ В СТАТИСТИЧЕСКОМ АНАЛИЗЕ. РАСЧЕТ ЧИСЛОВЫХ ХАРАКТЕРИСТИК.
Цель: овладение способами построения рядов распределения и методами расчета числовых характеристик.
Задача. Имеются данные об обводненности нефти из насосных скважин (в %):
61,2 | 61,4 | 60,2 | 61,2 | 61,3 | 60,4 | 61,4 | 60,8 | 61,2 | 60,6 |
61,6 | 60,2 | 61,3 | 60,3 | 60,7 | 60,9 | 61,2 | 60,5 | 61,0 | 61,4 |
61,1 | 60,9 | 61,5 | 61,4 | 60,6 | 61,2 | 60,1 | 61,3 | 61,1 | 61,3 |
60,3 | 61,3 | 60,6 | 61,7 | 60,6 | 61,2 | 60,8 | 61,3 | 61,0 | 61,2 |
60,5 | 6,4 | 60,7 | 61,3 | 60,9 | 61,2 | 61,1 | 61,3 | 60,9 | 61,4 |
60,7 | 61,2 | 60,3 | 61,1 | 61,0 | 61,5 | 61,3 | 61,9 | 61,4 | 61,3 |
61,6 | 61,0 | 61,7 | 61,1 | 60,9 | 61,5 | 61,6 | 61,4 | 61,5 | 61,2 |
61,6 | 61,3 | 61,8 | 61,1 | 61,7 | 60,9 | 62,2 | 61,1 | 62,1 | 61,0 |
61,5 | 61,7 | 62,3 | 62,3 | 61,7 | 62,9 | 62,5 | 62,8 | 62,6 | 61,5 |
62,1 | 62,6 | 61,6 | 62,5 | 62,4 | 62,3 | 62,1 | 62,3 | 62,2 | 62,1 |
Содержание работы: на основе совокупности данных опыта выполнить следующее:
1.Построить ряды распределения (интервальный и дискретный вариационные ряды). Изобразить их графики.
2.Построить график накопительных частот — кумуляту.
3. Составить эмпирическую функцию распределения и изобразить ее графически.
4. Вычислить моду, медиану, выборочную среднюю, выборочную дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, асимметрию, эксцесс.
5. Построить доверительные интервалы для истинного значения измеряемой величины и среднего квадратического отклонения генеральной совокупности.
6. Раскрыть смысловую сторону каждой характеристики.
Основные определения
Пусть из генеральной совокупности извлечена выборка, ∑ni = n – объем выборки. Наблюдаемые значения хi называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений ni называют абсолютными частотами, а их отношения к объему выборки ni / n = pi* – относительными частотами иличастностями.
Для геометрического изображения такого статистического распределения служит полигон частот илиполигон относительных частот.
Полигоном частот называют ломаную линию, отрезки, которой соединяют точки (x1;n1), (x2;n2), …, (xk;nk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им частоты ni.
Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки (x1; p1*), (x2; p2*), … , (xk; pk*). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им относительные частоты pi*.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот. Статистический ряд в таком случае называется интервальным статистическим рядом. Для геометрического изображения такого статистического распределения служит гистограмма.
Гистограммой частот называется ступенчатая фигура, основанием i-го прямоугольника которой являются частичные интервалы длиною Δi, и высотой ni /Δi. Площадь одного прямоугольника равна ni.
Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni /Δi.
В практике для удобства вычислений обычно используют ряды с равными интервалами (Δ).
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною Δi, а высоты равны отношению pi* / Δ i.
Эмпирической функцией распределения (функцией распределения выборки) называют функцию F*(x) = nx / n, определяющую для каждого значения х относительную частоту события Х < х.
Например, для того чтобы найти F*(x2), надо число вариант, меньших х2, разделить на объем выборки, т. е. F*(x2) = n2/ n.
В отличие от эмпирической функции распределения выборки функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события Х < х, а эмпирическая функция F*(x) определяет относительную частоту этого же события.
Функция F*(x) имеет следующие свойства:
1) значения эмпирической функции принадлежат отрезку [0;1];
2) F*(x) – неубывающая функция;
3) если х1 – наименьшая варианта, то F*(x) = 0 при х ≤ х1; если хk – наибольшая варианта, то F*(x) = 1 при x >xk.
Кумулята служит для графического изображения кумулятивного вариационного ряда. Для ее построения на оси абсцисс откладывают значения аргумента, а на оси ординат - накопленные частоты или накопленные относительные частоты. Масштаб на каждой оси выбирают произвольно. Далее строят точки, абсциссы которых равны вариантам (в случае дискретных рядов) или верхним границам интервалов (в случае интервальных рядов), а ординаты - соответствующим частотам (накопленным частотам). Эти точки соединяют отрезками прямой. Полученная ломаная и является кумулятой.
Мода — это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. Медиана —это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.
Методические указания по выполнению работы
1.1.Построить интервальный вариационный ряд. Для этого найти:
а) размах варьирования признака по формуле , где — наименьшая, — наибольшая варианты в данной выборочной совокупности;
б) число интервалов вариационного ряда, пользуясь одним из приведенных ниже соотношений:
, , , где n — объем выборки;
в) длину h частичных интервалов по формуле и, если необходимо, округлить это значение до некоторого числа;
г) записать полученный интервальный вариационный ряд, заполнив табл. 2, §1. Сделать контроль, убедившись, что .
1.2.Построить дискретный вариационный ряд, взяв в качестве вариант середины вариант-интервалов непрерывного вариационного ряда, а в качестве частот — частоты непрерывного вариационного ряда (табл. 3).
1.3. Изобразить графически интервальный и дискретный вариационные ряды (построить гистограмму и полигон частот).
2. Построить график накопленных частот — кумуляту, т.е. ломаную, проходящую через точки с координатами и соответствующими накопленными частотами. Предварительно составить табл. 5 § 1.
3. Найти эмпирическую функцию распределения и изобразить ее графически.
4.1. Найти моду и медиану .
4.2. Для вычисления остальных статистик воспользоваться методом произведений. Ввести условные варианты , где , h — шаг (длина интервала). Составить расчетную табл. 6, § 2.
Контроль вычислений произвести по формуле:
.
4.3. Пользуясь табл. 6, вычислить начальные моменты (11) — (14):
, , , .
4.4. Найти выборочную среднюю .
4.5. Найти выборочную дисперсию .
4.6. Найти выборочное среднее квадратическое отклонение (17):
.
4.7. Найти коэффициент вариации (22): .
4.8. Найти центральные моменты (20), (21):
,
.
4.9. Вычислить асимметрию (18): и эксцесс (19): .
5. Доверительные интервалы для а и σ найти, согласно (23), (24):
при .
Величину найти по приложению 3, а по приложению 4 найти величину q, удовлетворяющую одному из условий:
при ,
при .
6. Раскрыть смысловую сторону каждой характеристики.
Выполнение работы
Обозначим через Х обводненность нефти из рассматриваемых насосных скважин.
1.1. По данным выборки строим интервальный вариационный ряд.
а) Поскольку, как легко выяснить, xmax = 62,8, xmin = 60,1, то размах варьирования признака Х равен R = xmax –xmin = 62,8 – 60,1 = 2,7.
б) Определяя число k интервалов (число столбцов в таблице) вариационного ряда, положим .
в) Длина h каждого частичного интервала равна . Так как исходные данные мало отличаются друг от друга и содержат один десятичный знак, то величину h округляем до одного десятичного знака: .
г) Подсчитываем число вариант, попадающих в каждый интервал, по данным выборки. Значение , попадающее на границу интервала, относим к левому концу. За начало первого интервала берем величину . Конец последнего интервала находим по формуле . Сформированный интервальный вариационный ряд записываем в виде табл. 7.
Таблица 7 | ||||||||||
Варианты- интервалы | 60- 60,3 | 60,3- 60,6 | 60,6- 60,9 | 60,9- 61,2 | 61,2- 61,5 | 61,5- 61,8 | 61,8- 62,1 | 62,1- 62,4 | 62,4- 62,7 | 62,7- 63,0 |
Частоты, ni |
Контроль: , и объем выборки .
1.2. Записываем дискретный вариационный ряд (табл. 8). В качестве вариант берем середины интервалов интервального вариационного ряда.
Таблица 8 | ||||||||||
варианты, | 60,15 | 60,45 | 60,75 | 61,05 | 61,35 | 61,65 | 61,95 | 62,25 | 62,55 | 62,85 |
частоты, ni |
1.3. Изображаем интервальный и дискретный вариационные ряды графически, построив гистограмму и полигон частот в одной системе координат (рис. 2).
2. Строим график накопленных частот — кумуляту (рис. 3). Предварительно составляем расчетную табл. 9.
Таблица 9 | ||||||||||
Варианты, | 60,15 | 60,45 | 60,75 | 61,05 | 61,35 | 61,65 | 61,95 | 62,25 | 62,55 | 62,85 |
относительные частоты, wi = ni / n | 0,03 | 0,06 | 0,09 | 0,18 | 0,29 | 0,16 | 0,02 | 0,1 | 0,05 | 0,02 |
накопительные относительные частоты, Wi = Wi – 1 + wi | 0,03 | 0,09 | 0,18 | 0,36 | 0,65 | 0,81 | 0,83 | 0,93 | 0,98 |
3. Находим эмпирическую функцию распределения. Воспользуемся формулой (1): Fв (x) .
Если х £ 60,15, то Fв (x) = 0 — по свойству эмпирической функции распределения.
Если 60,15 < х £ 60,45, то Fв (x) .
Если 60,45 < х £ 60,75, то Fв (x) .
Если 60,75 < х £ 61,05, то Fв (x) .
Если 61,05 < х £ 61,35, то Fв (x) .
Если 61,35 < х £ 61,65, то Fв (x) .
Если 61,65 < х £ 61,95, то Fв (x) .
Если 61,95 < х £ 62,25, то Fв (x) .
Если 62,25 < х £ 62,55, то Fв (x) .
Если 62,55 < х £ 62,85, то Fв (x) .
Если , то Fв (x) = 1 — по свойству эмпирической функции распределения.
Записываем полученную эмпирическую функцию в виде:
Fв (x)
График функции Fв (x) представлен на рис.4.
Соединив середины вертикальных частей ступенчатой кусочно-постоянной кривой, являющейся графиком функции Fв (x), получаем плавную кривую (на рис. 4 это штриховая линия). Абсциссами точек этой кривой служат значения обводненности нефти, добываемой насосным способом из скважин, а ординатами — значения эмпирической функции распределения, характеризующей оценку вероятности события X £ , т.е. вероятности попадания возможных значений обводненности нефти на промежуток .
Для нахождения числовых характеристик признака Х — обводненности нефти (несмещенных оценок для , , а также , , , ) воспользуемся табл. 8.
4.1. Так как варианта в табл. 8 встречается с наибольшей частотой , то , т.е. это значение обводненности нефти, встречающееся в данной выборке с наибольшей частотой.
Находим . Так как табл. 8 содержит четное число столбцов, то . Это значение обводненности нефти, которое делит данные выборки признака Х на равные части.
4.2. Для нахождения остальных статистик, характеризующих обводненность нефти, воспользуемся методом произведений. Введем, согласно (9), условные варианты ; , .
Составим расчетную табл. 10.
Таблица 10 | |||||||
контрольный столбец | |||||||
60,15 | – 4 | – 12 | – 192 | ||||
60,45 | – 3 | – 18 | – 162 | ||||
60,75 | – 2 | – 18 | – 72 | ||||
61,05 | – 1 | – 18 | – 18 | ||||
61,35 | |||||||
61,65 | |||||||
61,95 | |||||||
62,25 | |||||||
62,55 | |||||||
62,85 | |||||||
Контроль вычислений проводим по формуле:
,
т.е.
.
Следовательно, вычисления проведены верно.
4.3. Пользуясь результатами последней строки табл. 10, находим условные начальные моменты (11) — (14):
,
,
,
.
4.4. Находим выборочную среднюю (15):
,
которая характеризует среднюю обводненность нефти из насосных скважин в данной выборке, составляющую 61,39 %.
4.5. Находим выборочную дисперсию (16):
4.6. Вычисляем выборочное среднее квадратичное отклонение (17):
.
4.7. Величина характеризует степень рассеяния значений обводненности нефти относительно средней обводненности. Для определения колеблемости значений обводненности нефти в процентном отношении вычисляем коэффициент вариации (22):
.
Величина коэффициента вариации мала (составляет 1%), что означает тесную сгруппированность значений обводненности нефти около центра рассеяния, т.е. около средней обводненности нефти.
4.8. Для предварительной оценки отклонения значений обводненности нефти от нормального распределения вычисляем асимметрию и эксцесс. Сначала находим центральные моменты третьего и четвертого порядков (20), (21):
.
.
4.9. Тогда в соответствии с (18), (19), находим:
,
.
Резюме. Значения и мало отличаются от нуля. Поэтому можно предположить близость данной выборки, характеризующей обводненность нефти, к нормальному распределению. Эта гипотеза будет проверяться в лабораторной работе № 2.
5.Произведем оценку генеральной средней и генерального среднеквадратического отклонения s = S по выборочным статистикам и , используя теорию доверительных интервалов для нормального распределения.
Доверительный интервал для истинного значения обводненности нефти с надежностью находим, согласно (23):
.
Согласно приложению 3, при и находим . Записываем доверительный интервал:
,
или .
Таким образом, средняя обводненность нефти из насосных скважин (в %) по данным выборки должна находиться в промежутке .
Запишем доверительный интервал для генерального среднеквадратического отклонения . При заданных и по таблице приложения 4 находим . Так как , то доверительный интервал записываем в виде (24):
,
или
,
или
;
следовательно, отклонения истинных значений обводненности нефти из насосных скважин не должны выходить за пределы промежутка .
Варианты заданий для практической работы № 1 (ЦДО)
Номер варианта берется по двум последним цифрам зачетной книжки
Вариант № 1. Имеются данные о пропускной способности 50 участков нефтепровода (м3/сут.):
29,7 | 28,7 | 29,0 | 28,2 | 30,3 | 31,2 | 31,1 | 29,6 | 29,4 | 28,8 | 31,4 | 31,4 | 30,3 |
29,4 | 30,6 | 30,6 | 30,3 | 30,6 | 28,4 | 29,6 | 29,7 | 30,9 | 31,1 | 29,6 | 30,5 | 29,7 |
30,6 | 30,5 | 30,9 | 30,8 | 30,6 | 30,8 | 30,5 | 30,8 | 30,3 | 30,8 | 31,1 | 31,5 | 30,6 |
31,2 | 30,8 | 30,6 | 30,9 | 31,5 | 30,6 | 30,6 | 30,5 | 29,6 | 29,9 | 30,2 | 33,0 | 30,5 |
30,6 | 30,5 | 30,9 | 29,3 | 29,1 | 30,8 | 31,2 | 30,9 | 30,3 | 29,3 | 31,1 | 33,2 | 29,1 |
Вариант № 2. Имеются данные о суточной добыче нефти в одном из районов страны (в тоннах):
Вариант № 3. Имеются данные о производительности труда (количество деталей в смену):
Вариант № 4. Имеются данные о вводе в эксплуатацию новых газовых скважин за год по различным газодобывающим районам страны:
Вариант № 5. Имеются данные о себестоимости 1 тонны нефти и нефтяного попутного газа (тыс. руб.):
0,3 | 0,4 | 0,8 | 1,2 | 1,4 | 1,9 | 0,7 | 1,3 | 1,0 | 0,5 | 0,9 | 1,2 | 1,0 |
1,3 | 0,6 | 1,0 | 1,0 | 1,1 | 0,5 | 1,2 | 1,0 | 1,4 | 1,6 | 0,5 | 1,1 | 1,1 |
1,8 | 0,3 | 0,6 | 1,1 | 0,8 | 1,2 | 0,9 | 1,4 | 1,3 | 1,6 | 2,7 | 1,5 | 0,8 |
0,7 | 0,9 | 1,5 | 1,3 | 1,1 | 1,2 | 1,8 | 1,1 | 1,0 | 1,2 | 0,9 | 1,5 | 1,3 |
1,1 | 1,2 | 1,3 | 1,4 | 0,8 | 0,7 | 1,8 | 1,6 | 1,5 | 1,6 | 0,9 | 1,5 | 1,6 |
Вариант № 6. Имеются энергетические затраты на 1 метр проходки при эксплуатационном бурении нефтяных скважин в различных нефтеносных районах страны (руб.):
Вариант № 7. Имеются данные о суточном дебите газа в наблюдаемой скважине (м3/сут.):
Вариант № 8. Имеются данные о числе рабочих дней без простоя для пятидесяти буровых бригад одного из районов страны:
Вариант № 9. Приведено количество деталей, выработанных за смену различными рабочими:
Вариант № 10. Имеются данные о рабочих дебитах газовой скважины (тыс. м3/сут.):
Вариант № 11. Имеются данные о коэффициенте эксплуатации насосных скважин в различных нефтеносных районах страны:
0,90 | 0,79 | 0,84 | 0,86 | 0,88 | 0,90 | 0,89 | 0,85 | 0,91 | 0,98 | 0,91 | 0,80 | 0,87 |
0,89 | 0,88 | 0,78 | 0,81 | 0,85 | 0,88 | 0,94 | 0,86 | 0,80 | 0,86 | 0,91 | 0,78 | 0,86 |
0,91 | 0,95 | 0,97 | 0,88 | 0,79 | 0,82 | 0,84 | 0,90 | 0,81 | 0,87 | 0,91 | 0,90 | 0,82 |
0,85 | 0,90 | 0,82 | 0,85 | 0,90 | 0,96 | 0,98 | 0,89 | 0,87 | 0,99 | 0,85 | 0,95 | 0,85 |
0,89 | 0,88 | 0,88 | 0,82 | 0,85 | 0,88 | 0,93 | 0,86 | 0,82 | 0,86 | 0,91 | 0,88 | 0,86 |
Вариант № 12. 50 сверл были подвергнуты испытанию на твердость. При этом фиксировалась твердость лапки. Результаты испытания следующие:
14,5 | 14,6 | 15,1 | 15,5 | 16,3 | 16,8 | 17,9 | 16,3 | 14,5 | 14,9 | 13,6 | 15,4 | 16,9 |
15,4 | 14,3 | 15,5 | 11,3 | 15,5 | 17,1 | 16,8 | 12,2 | 15,2 | 15,7 | 11,6 | 16,9 | 15,7 |
17,7 | 16,6 | 16,2 | 15,5 | 12,8 | 14,2 | 15,5 | 16,1 | 14,3 | 16,5 | 14,5 | 17,9 | 17,8 |
16,9 | 11,7 | 13,2 | 14,9 | 19,8 | 16,6 | 17,9 | 14,9 | 15,2 | 17,3 | 16,9 | 17,6 | 17,8 |
17,7 | 16,6 | 16,9 | 19,5 | 12,8 | 16,2 | 15,6 | 16,1 | 16,3 | 17,5 | 18,5 | 17,9 | 16,8 |
Вариант № 13. Даны значения обследуемого признака Х — себестоимости единицы продукции (в руб.):