Оценка плотности вероятностей и функции распределения

Построение эмпирических распределений.

Просматривая результаты наблюдений (измерений) трудно заметить какую-либо закономерность в их изменении. Выявить такие закономерности позволяют статистические методы.

Предварительная статистическая обработка опытных данных начинается обычно с того, что их располагают в порядке возрастания (точнее, неубывания). Упорядоченная таким образом выборка называется вариационным рядом, а сама процедура упорядочения – ранжированием (или сортировкой) опытных данных.

Наглядной формой графического представления эмпирических данных является гистограмма, полигон, эмпирическая функция распределения и полигон накопленных частот. При этом гистограмма и полигон относительных частот аппроксимируют неизвестную плотность распределения, а эмпирическая функция распределения и полигон накопленных относительных частот – интегральную функцию распределения генеральной совокупности. Построение гистограммы (полигона) позволяет обоснованно выдвигать гипотезы о законе распределения обрабатываемых экспериментальных данных. Зная закон распределения наблюдаемой случайной величины можно решать многие практические задачи, связанные с обработкой результатов измерений, контролем качества продукции, оценкой эффективности и стабильности технологических процессов.

При непрерывном распределении случайной величины Оценка плотности вероятностей и функции распределения - student2.ru эмпирическая плотность распределения вероятностей может быть изображена в виде гистограммы или полигона относительных частот. Для этого должна быть выполнена группировка значений выборки, которая состоит в следующем.

Весь интервал Оценка плотности вероятностей и функции распределения - student2.ru , в котором заключены элементы выборки, разбивается на ряд частичных непересекающихся интервалов (разрядов) Оценка плотности вероятностей и функции распределения - student2.ru длины Оценка плотности вероятностей и функции распределения - student2.ru и подсчитывается число элементов выборки Оценка плотности вероятностей и функции распределения - student2.ru , попавших в Оценка плотности вероятностей и функции распределения - student2.ru -й интервал Оценка плотности вероятностей и функции распределения - student2.ru . Параллельно вычисляется и относительная частота Оценка плотности вероятностей и функции распределения - student2.ru . При графическом изображении гистограммы и полигона каждый интервал удобнее представлять не двумя границами Оценка плотности вероятностей и функции распределения - student2.ru и Оценка плотности вероятностей и функции распределения - student2.ru , а одним значением Оценка плотности вероятностей и функции распределения - student2.ru - серединой интервала.

Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины Оценка плотности вероятностей и функции распределения - student2.ru , а высоты равны отношению Оценка плотности вероятностей и функции распределения - student2.ru (плотность частоты). Площадь частичного Оценка плотности вероятностей и функции распределения - student2.ru -го прямоугольника равна Оценка плотности вероятностей и функции распределения - student2.ru - числу выборочных элементов, попавших в Оценка плотности вероятностей и функции распределения - student2.ru -й интервал. Площадь гистограммы частот равна объему выборки Оценка плотности вероятностей и функции распределения - student2.ru .

Полигон частот – это ломаная линия, получающаяся при соединении точек с координатами Оценка плотности вероятностей и функции распределения - student2.ru , т.е. соединяются середины верхних сторон прямоугольников гистограммы.

Аналогично определяется гистограмма и полигон относительных частот.

Для гистограммы относительных частот площадь частичного Оценка плотности вероятностей и функции распределения - student2.ru -го прямоугольника равна Оценка плотности вероятностей и функции распределения - student2.ru -относительной частоте элементов, попавших в Оценка плотности вероятностей и функции распределения - student2.ru -й интервал. Площадь гистограммы относительных частот равна сумме всех относительных частот, т. е. единице. При достаточно большом объеме выборки высоты построенных прямоугольников дают приближенные значения плотности распределения Оценка плотности вероятностей и функции распределения - student2.ru в средних точках Оценка плотности вероятностей и функции распределения - student2.ru интервалов Оценка плотности вероятностей и функции распределения - student2.ru . Гистограмма – кусочно-постоянная аппроксимация (неизвестной) плотности распределения генеральной совокупности.

Полигон относительных частот – это ломаная линия, соединяющая точки Оценка плотности вероятностей и функции распределения - student2.ru , Оценка плотности вероятностей и функции распределения - student2.ru ,…, Оценка плотности вероятностей и функции распределения - student2.ru , где Оценка плотности вероятностей и функции распределения - student2.ru - середины интервалов группирования, Оценка плотности вероятностей и функции распределения - student2.ru - соответствующие им относительные частоты. Полигон – кусочно-линейная аппроксимация плотности распределения генеральной совокупности.

Наглядное представление об интегральной функции распределения дают эмпирическая функция распределения и полигон накопленных относительных частот.

Эмпирической (выборочной) функцией распределения называется функция Оценка плотности вероятностей и функции распределения - student2.ru , определяющая для каждого значения Оценка плотности вероятностей и функции распределения - student2.ru относительную частоту события Оценка плотности вероятностей и функции распределения - student2.ru . Строится она так. Для данного числа Оценка плотности вероятностей и функции распределения - student2.ru подсчитывается число элементов вариационного ряда Оценка плотности вероятностей и функции распределения - student2.ru , меньших Оценка плотности вероятностей и функции распределения - student2.ru и делится на объем выборки:

Оценка плотности вероятностей и функции распределения - student2.ru

Используя функцию единичного скачка

Оценка плотности вероятностей и функции распределения - student2.ru ,

формулу для эмпирической функции распределения можно записать более компактно

Оценка плотности вероятностей и функции распределения - student2.ru .

Полигон накопленных частот – это график ломаной линии, соединяющей точки

Оценка плотности вероятностей и функции распределения - student2.ru , Оценка плотности вероятностей и функции распределения - student2.ru , … , Оценка плотности вероятностей и функции распределения - student2.ru , … , Оценка плотности вероятностей и функции распределения - student2.ru ,

c абсциссами, равными правым границам интервалов группирования, и ординатами, равными накопленным частотам.

Аналогично, полигон накопленных относительных частот – это ломаная линия, получающаяся соединением точек с координатами

Оценка плотности вероятностей и функции распределения - student2.ru , Оценка плотности вероятностей и функции распределения - student2.ru , … , Оценка плотности вероятностей и функции распределения - student2.ru , … , Оценка плотности вероятностей и функции распределения - student2.ru .

В математической статистике доказывается, что гистограмма и полигон относительных частот являются состоятельными оценками плотности распределения, а полигон накопленных относительных частот (или эмпирическая функция распределения) – состоятельной оценкой истинной функции распределения генеральной совокупности. При этом, чем больше объем выборки, тем мельче можно взять интервалы разбиения Оценка плотности вероятностей и функции распределения - student2.ru и тем точнее гистограмма и эмпирическая функция распределения будут аппроксимировать соответствующие теоретические распределения.

Число интервалов группирования эмпирических данных Оценка плотности вероятностей и функции распределения - student2.ru существенно влияет на вид гистограммы. Четких рекомендаций на этот счет не существует, ясно лишь то, что это число не должно быть «очень малым» или «очень большим». Для выборок среднего объема (несколько сотен элементов) число интервалов обычно выбирают в диапазоне 8 – 12. Согласно рекомендации ВНИИ Метрологии им. Д.И. Менделеева в зависимости от объема выборки Оценка плотности вероятностей и функции распределения - student2.ru число интервалов группирования Оценка плотности вероятностей и функции распределения - student2.ru следует выбирать согласно таблице

Оценка плотности вероятностей и функции распределения - student2.ru 40 – 100 100 – 500 500 – 1000 1000 – 10000
Оценка плотности вероятностей и функции распределения - student2.ru 7 – 9 8 – 12 10 – 16 12 – 22

Часто в литературе по математической статистике для выбора оптимального значения Оценка плотности вероятностей и функции распределения - student2.ru рекомендуется формула

Оценка плотности вероятностей и функции распределения - student2.ru ,

записанная с использованием десятичного, двоичного или натурального логарифма; или формула

Оценка плотности вероятностей и функции распределения - student2.ru ,

где Оценка плотности вероятностей и функции распределения - student2.ru - объем выборки. Существуют и иные рекомендации. Однако все рекомендуемые формулы не имеют строгого обоснования и дают лишь ориентировочное количество интервалов Оценка плотности вероятностей и функции распределения - student2.ru , которое при желании может быть изменено в ту или другую сторону.

При определении диапазона возможных значений параметра Оценка плотности вероятностей и функции распределения - student2.ru можно ориентироваться на формулы

Оценка плотности вероятностей и функции распределения - student2.ru , Оценка плотности вероятностей и функции распределения - student2.ru ,

дающие оценки минимального и максимального значения данного параметра. В качестве оптимального значения Оценка плотности вероятностей и функции распределения - student2.ru рекомендуется выбирать целое число из интервала Оценка плотности вероятностей и функции распределения - student2.ru . Обычно в этот интервал попадает несколько целых чисел; после построения гистограмм для каждого из этих чисел, «оптимальное» значение параметра Оценка плотности вероятностей и функции распределения - student2.ru определяется визуально. Для симметричных распределений в качестве значения Оценка плотности вероятностей и функции распределения - student2.ru рекомендуется выбирать нечетное целое число из интервала Оценка плотности вероятностей и функции распределения - student2.ru .

После определения Оценка плотности вероятностей и функции распределения - student2.ru вычисляется длина интервалов группирования

Оценка плотности вероятностей и функции распределения - student2.ru ,

и производятся все дальнейшие вычисления, необходимые для построения гистограммы, полигона и эмпирической функции распределения.

Доверительная область для функции распределения, соответствующая уровню доверия Оценка плотности вероятностей и функции распределения - student2.ru , определяется неравенствами

Оценка плотности вероятностей и функции распределения - student2.ru .

Эти неравенства выполняются сразу для всех значений Оценка плотности вероятностей и функции распределения - student2.ru с вероятностью, близкой к Оценка плотности вероятностей и функции распределения - student2.ru . Данный результат следует из теоремы Колмогорова А.Н., доказываемой в курсе теории вероятностей. Здесь Оценка плотности вероятностей и функции распределения - student2.ru - корень уравнения (квантиль функции распределения Колмогорова)

Оценка плотности вероятностей и функции распределения - student2.ru , (1)

а Оценка плотности вероятностей и функции распределения - student2.ru - функция (распределения) Колмогорова, определяемая абсолютно сходящимся функциональным рядом Оценка плотности вероятностей и функции распределения - student2.ru

Оценка плотности вероятностей и функции распределения - student2.ru . (2)

Этот ряд сходится крайне неравномерно, поэтому для достижения одной и той же точности при различных значениях Оценка плотности вероятностей и функции распределения - student2.ru приходится сохранять различное количество членов ряда (2). Оценки показывают следующее. Чтобы обеспечить точность вычисления функции Оценка плотности вероятностей и функции распределения - student2.ru порядка 10-6 в окрестности точки Оценка плотности вероятностей и функции распределения - student2.ru достаточно сохранить три члена ряда, при Оценка плотности вероятностей и функции распределения - student2.ru уже около 30 членов, а при Оценка плотности вероятностей и функции распределения - student2.ru около 2700 членов ряда. Таким образом, когда Оценка плотности вероятностей и функции распределения - student2.ru , количество членов ряда растет пропорционально Оценка плотности вероятностей и функции распределения - student2.ru . Но поскольку нас интересует только решение уравнения (1) при малых значениях Оценка плотности вероятностей и функции распределения - student2.ru , когда Оценка плотности вероятностей и функции распределения - student2.ru и Оценка плотности вероятностей и функции распределения - student2.ru , функцию (2) для наших целей можно записать в виде

Оценка плотности вероятностей и функции распределения - student2.ru , Оценка плотности вероятностей и функции распределения - student2.ru , (3)

сохранив в сумме всего три – пять слагаемых.

Когда вероятность Оценка плотности вероятностей и функции распределения - student2.ru близка к единице, квантиль функции распределения Колмогорова можно определить, не решая уравнение 1, по следующей приближенной формуле:

Оценка плотности вероятностей и функции распределения - student2.ru .

Наши рекомендации