Эмпирические функции распределения, относительные частоты и функции плотности
В статистике объектом анализа является генеральная совокупность, отражающая поведение случайной величины с теоретической функцией распределения (вообще говоря, неизвестной) .
Пусть из генеральной совокупности извлечена выборка, причем наблюдалось раз, – раз, – раз и – объем выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений называют частотами.
Статистическим распределением выборки называют перечень вариант и соответствующих им частот. Статистическое распределение можно также задать в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Эмпирическим (или выборочным, т.е. построенным по выборке объема ) аналогом теоретической функции распределения является функция , определяющая для каждого значения относительную частоту события .
,
где – число вариант меньших ; – объем выборки.
Таким образом, для того чтобы найти, например, , надо число вариант, меньших , разделить на объем выборки:
.
Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция определяет вероятность события , а эмпирическая функция определяет относительную частоту этого же события. При достаточно большом значения и мало отличаются. Поэтому для приближенного представления теоретической функции распределения генеральной совокупности удобно использовать эмпирическую функцию.
Из определения эмпирической функции распределения непосредственно следует объяснение часто используемого ее другого названия – «накопленная относительная частота».
Если анализируемая СВ дискретна и имеет возможные значения , принимаемые соответственно с вероятностями , то имеет смысл ввести понятие выборочной (эмпирической) относительной частоты , которая определяется как отношение соответствующей частоты к объему выборки, т.е. .
Если – непрерывная случайная величина (генеральная совокупность) с функцией плотности вероятности и функцией распределения , то, располагая выборкой , можно построить выборочный аналог функции плотности – эмпирическую функцию плотности .
Для построения эмпирической функции плотности на всей области ее определения (т.е. для всех возможных значений исследуемой величины) используют предварительно сгруппированные данные и определяют
,
где – порядковый номер интервала группирования, в который попала точка ; – число наблюдений, попавших в этот интервал; – длина интервала.
Геометрическое изображение эмпирической плотности называется гистограммой. Для построения гистограммы на оси абсцисс отмечают границы каждого из интервалов , а по оси ординат значения . Тогда -му интервалу будет соответствовать прямоугольник, основанием которого является отрезок , а высота равна .
Если значения соотнести к серединам соответствующих интервалов и соединить полученные точки, то получим ломанную линию, которую называют полигоном.
График эмпирической функции распределения называют кумулятивной кривой или кумулянтой.