Построение точечных оценок с помощью метода моментов. Вычисление эмпирических моментов
Предположим, что заранее известен вид теоретического распределения интересующего нас признака x, но параметры этого распределения не известны и их желательно найти как можно точнее по данным выборки.
Для решения задачи оценивания параметров теоретического распределения нам понадобится строить функции, зависящие от выборочных значений x1,..., xn. Любую функцию q(x1, ..., xn), зависящую от выборки и поэтому являющуюся случайной величиной, принято называть статистикой. Так, -сумма наблюдений и среднее арифметическое значение служат примерами статистик. Чтобы оценки неизвестных параметров, то есть статистики, давали хорошее приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять следующим требованиям:
- среднее значение оценки, взятое по всевозможным выборкам данного объёма, должно равняться истинному значению определяемого параметра; в этом случае оценку называют несмещённой;
- при увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра; в этом случае оценку называют состоятельной.
По выборке мы вычислим либо точечнуюоценку (значение подходящей статистики) для интересующего нас параметра, либо интервальную(т.е. интервал, с большой вероятностью накрывающий истинное значение параметра).
Очень часто параметры распределения вероятностей являются моментами распределения (или функциями от них). Например, нормальное распределение полностью определяется математическим ожиданием и дисперсией. Математическое ожидание является первым начальным моментом, а дисперсия – вторым центральным моментом распределения. Так что очень важно научиться строить оценки именно для моментов.
Начальный момент l-го порядка распределения вероятностей alнаходится по формулам:
- для дискретного распределения;
- для непрерывного распределения.
А l-й центральный момент blпо формулам:
- для дискретного распределения;
- для непрерывного распределения,
где m - математическое ожидание распределения, т.е. его первый начальный момент (суммирование выполняется по всем принимаемым значениям, интегрирование – по всей области определения).
Для построения точечных оценок для математического ожидания и дисперсии генеральной совокупности или любых других моментов сделаем очень простую вещь. Таблица статистического распределения выборки задает некоторое распределение вероятностей, а именно, распределение выборки. Представим себе, что все числа, полученные с помощью выборки, мы сложили в урну. Согласно классической схеме, если доставать случайным образом из урны числа, то вероятность р1достать число х1равна m1/n , вероятность р2достать число х2равна m2/n и так далее. То есть таблица статистического распределения действительно задает распределение выборки. Среднее, вычисленное для выборки по таблице статистического распределения, назовем эмпирическим средним.Его и возьмем в качестве оценки для математического ожидания генеральной совокупности. Дисперсию этого распределения назовем эмпирической дисперсиейи ее возьмем в качестве оценки для дисперсии генеральной совокупности. Так же можно сосчитать и любые другие эмпирические моменты.
Выбирая оценками такие статистики, мы воспользовались методикой, предлагаемой методом моментов. Так называется метод, при котором в качестве оценок для моментов распределения берутся эмпирические моменты (или моменты эмпирического распределения). Его применяют в тех случаях, когда оцениваемый параметр интересующего нас распределения является функцией от моментов распределения. Тогда в эту функцию вместо неизвестных теоретических значений моментов подставляют эмпирические значения. Например, в нашем случае оцениваемые параметры сами являются моментами. Математическое ожидание – первый начальный, а дисперсия – второй центральный момент. В качестве оценок для них мы и берем первый начальный и второй центральные моменты выборки. Аналогично по выборке строятся эмпирические оценки для функций моментов более высокого порядка: асимметрии – третьего центрального момента, деленного на среднеквадратическое отклонение в третьей степени, и эксцесса – четвертого центрального момента, деленного на квадрат дисперсии.
Итак, по выборке мы построили эмпирическое распределение, затем по нему сосчитаем эмпирическое среднее и эмпирическую дисперсию и другие моменты. Вспомним формулы для вычисления математического ожидания и дисперсии и других моментов по таблице дискретного распределения и применим их к построенной по выборке таблице статистического распределения.
Вычисление эмпирических моментов по вариационному ряду производится по следующим формулам (во всех формулах n - объем выборки):
начальный эмпирический момент l-го порядка
; (3.3)
центральный эмпирический момент l-го порядка
. (3.4)
В случае, когда применяется группировка данных или просто одно и то же значение xiв обрабатываемой последовательности повторяется miраз (задана таблица распределения), эти формулы приобретают следующий вид:
(3.5)
и
, (3.6)
где k – число разных значений вариант или, в случае группировки, интервалов.
Если формулу , применяемую для вычисления начального момента l-го порядка дискретной случайной величины, применить к эмпирическому распределению (когда в роли выступают ), то получим формулу (3.5), или, что то же, (3.3). В частности, - выборочное среднее. Обычно его обозначают . Итак,
(3.7)
для выборки, заданной вариационным рядом, и
(3.7а)
для выборки, заданной таблицей.
Выборочную дисперсию обычно обозначают S2.
В силу того, что верно тождество
,
для вычисления S2получаем формулу
(3.8)
для выборки, заданной вариационным рядом, и
(3.8а)
для выборки, заданной таблицей.
В отличие от МХ и DX, величины и S3случайные.
Пример. По выборке 4, 6, 7, 7, 10, 15, 18 (n=7) найти и S2.
=(4+6+7+7+10+15+18)/7=9,57.
S2=1/7(16+36+49+49+100+225+324)-(9,57)2=114,14-91,58=22,56.
Пример. Найти и S2по таблице
Варианты | ||||
mi | n=20 |
=(2×3+6×10+12×7)/20=7,5.
S2=1/20(4×3+36×10+144×49)-(7,5)2=(1/20)×7428-56,25 = 371,4-56,25=315,15.
Запомним: согласно методу моментов точечной оценкой для математического ожидания надо взять , оценкой для дисперсии - S2.