Первичная обработка результатов наблюдений
В первичной обработке результатов наблюдений при анализе показателей работы разных отраслей производственной сферы (добыча нефти и газа, ремонт скважин, машиностроение, строительная индустрия и т.д.) и их прогнозировании используют методы математической статистики, которые позволяют установить закономерности производственных результатов с требуемой точностью, надежностью и минимальных материальных, трудовых затратах и оценить их основные свойства. Решение этих вопросов осуществляется методами математической статистики.
Основными понятиями математической статистики являются генеральная совокупность и выборка.
Генеральная совокупность – это некоторое множествоАили совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений определенной случайной величины.Например, множество всех единиц продукции данного предприятия. Выборка (выборочная совокупность)–случайно выбранное подмножество BÌAиз генеральной совокупности. Например, множество случайно выбранных единиц продукции, при этом некий наблюдатель измерил у них весв килограммах.
Одним из основных методов математической статистики является выборочный метод – метод исследования общих свойствмножестваА на основе изучения статистических свойствтолькоподмножества В.
Число N = | A | элементов множестваА называется объемом генеральной совокупности, а число n = | B | -объемом выборки. При изучении некоторого признакаХ (в данном примере –веса) выборки производят испытания или наблюдения (измерение веса).
Выборку образуют полученные разными способами отбора исходные данные, которые представляют собой множество чисел, расположенных в хаотичном порядке (беспорядке). По такой выборке невозможно выявить определенную закономерность их варьирования (изменчивости). Поэтому с целью обработки исходных данных применяют операцию ранжирования, которая заключается в том, что наблюдаемые значения случайной величины располагают в определенном порядке (возрастания или убывания).
После проведения операции ранжирования отдельные значения случайной величины группируют таким образом, чтобы в каждой отдельной группе значения случайной величины были одинаковыми. Каждое из таких значений называется вариантой .
Число, которое показывает, сколько раз встречаются соответствующие значение варианты в ряду наблюдений, называется частотой или эмпирической частотой и обозначается как , где - номер варианты.
Отношение wi = ni/n частоты ni к объему выборки nназывают относительной частотой (частостью) варианты хi.
Вариационным рядом (или статистическим распределением) называют последовательность вариантов, записанных в возрастающем порядке и соответствующих им частот или относительных частот.
Различают дискретные и непрерывные вариационные ряды.
Дискретным статистическим рядом принято называть ранжированную совокупность вариант и соответствующих им частот или частостей .
Принято записывать дискретный статистический ряд в виде табл.1.1.
Таблица 1.1
Варианты,xi | x1 | x2 | . . . | xk |
Частоты,ni | n1 | n2 | . . . | nk |
В случае, когда исследуемая случайная величина является непрерывной или число ее значений достаточно велико ( ), то принято составлять интервальный вариационный ряд.
Интервальный вариационный ряд, формируется на основании следующего алгоритма:
1. Вычисляют размах R варьирования признака Х, как разность между наибольшим и наименьшим значениями признака совокупности:
. (1.1)
2. Размах R варьирования признака Х делится на k равных частей и таким образом определяется число столбцов (интервалов) в таблице. Число kчастичных интервалов выбирают, пользуясь одним из следующих правил:
,
,(1.2)
.
При небольшом объеме n выборки число k интервалов принимают равным от 6 до 10.
3. По формуле (1.3) рассчитывают длину частичного интервала :
, (1.3)
где – шаг;
k– число интервалов.
Величину h обычно округляют до некоторого значения d. Так, если результаты признака Х– целые числа, то h округляют до целого значения, если содержат десятичные знаки, то h округляют до значения d, содержащего такое же число десятичных знаков.
4. Подсчитывается частотаni, с которой попадают значения признака Х в i-й интервал.
Изучая полученные результаты наблюдений, выявляют, сколько значений случайной величины отнесено в каждый конкретный интервал. В интервал включаются значения, большие или равные нижней границе, а меньшие - верхней границы интервала. В первую строку таблицы статистического ряда распределения вписываются частичные промежутки . Во вторую строку – количество наблюдений (где ) попавших в каждый конкретный интервал, т. е. частоты соответствующих интервалов.
В качестве начала первого интервала рекомендуется брать начальную величину, определяемую по формуле:
, (1.4)
Конец последнего интервала ряда должен полностью удовлетворять условию:
. (1.5)
Промежуточные интервалы обычно получают, прибавляя к верхней границе (концу) предыдущего интервала шаг.
Сформированный интервальный вариационный ряд записывают в виде табл. 1.2.
Таблица 1.2
Варианты-интервалы, ( ; ) | ( ; ) | ( ; ) | . . . | ( ; ) |
частоты, ni | n1 | n2 | . . . | nk |
Для расчета статистик (выборочной средней, выборочной дисперсии, асимметрии и эксцесса) переходят от интервального к дискретному вариационному ряду. В данном случае серединное значение -го интервала принимается за варианту , а соответствующая интервальная частота принимается за частоту данного варианта. При этом дискретный вариационный ряд записывается в виде табл. 1.3 или табл. 1.4.
Таблица 1.3
Варианты,xi | x1 | x2 | . . . | xk |
Частоты,ni | n1 | n2 | . . . | nk |
Здесь , где n - объем выборки.
Таблица 1.4
Варианты,xi | x1 | x2 | . . . | xk |
Частности, wi= ni/ n | w1 | w2 | . . . | wk |
Здесь .
Для характеристики свойств статистического распределения в математической статистике вводится понятие эмпирической функции распределения. Под эмпирической функцией или функцией распределения выборки понимается функция , которая определяет частость события для каждого отдельного значения :
, (1.6)
где - объем выборки,
– число наблюдений, меньших .
В случае увеличения объема статистической выборки частость события приближается к вероятности данного события, поэтому эмпирическая функция является оценкой интегральной функции . Стоит отметить, что функции и обладают одинаковыми свойствами. К числу этих свойств относятся:
1. ;
2. - неубывающая функция;
3. , .
В теории вероятностей аналогом этой функции является интегральная функция распределения F(x), для которой достоверно приближенное равенство:
, (1.7)
где – дифференциальная функция распределения или функция плотности вероятности.
Выборочным тождеством функции следует считать функцию:
, (1.8)
где – частость попадания наблюдаемых значений случайной величины в интервал . Следовательно, значение является характеристикой плотности частости на данном интервале.
В случае, если наблюдаемые значения непрерывной случайной величины представлены в виде интервального вариационного ряда, и, предполагая, что wi – это частость попадания данных значений в интервал , где – длина частичного интервала, то выборочная функция плотности задается соотношением:
(1.9)
где – конец последнего k-го интервала ряда.
В виду того, что функция является тождеством распределения плотности случайной величины, то область под графиком данной функции всегда равна единице.