Iv. задача точечного оценивания

Пусть X~F(x, q). Аналитический вид функции F(x, q) известен, но значение параметра q – неизвестно. Требуется: понаблюдав n раз X, найти q хотя бы приближённо, т. е. требуется указать такую функцию от выборки Iv. задача точечного оценивания - student2.ru (x1, x2, ¼ , xn), чтобы можно было считать её приближением для q:

Iv. задача точечного оценивания - student2.ru (x1, x2, ¼ , xn).

Такая функция Iv. задача точечного оценивания - student2.ru называется точечной оценкой параметра q. Следует учитывать, что в данной постановке задачи параметр q может быть векторным – состоять из нескольких компонент; например, нормальный закон определяется двумя параметрами: a и s.

Предыдущие две задачи позволяют указать желательные свойства оценки:

1. Несмещенность: Iv. задача точечного оценивания - student2.ru (x1, x2, ¼ , xn)=q.

Несмещенность эквивалентна отсутствию систематической ошибки.

2. Среднеквадратическая ошибка должна быть достаточно мала. Обыч­но ищут оценки, для которых  Iv. задача точечного оценивания - student2.ru ®0 при n®¥; для них при достаточно большом объёме выборки среднеквадратическая ошибка оценки будет как угодно мала.

Иногда удаётся найти такую оценку Iv. задача точечного оценивания - student2.ru (x1, x2, ¼ , xn), для которой дисперсия Iv. задача точечного оценивания - student2.ru минимальна по сравнению со всеми мыслимыми оценками. Такая оцен­ка называется эффективной. Однако редко бывает так, что эффективная оценка, если она существует, имеет и достаточно простой вид, удобный для практических расчётов. Часто бывает выгоднее пользоваться неэффективными, но более простыми оценками, расплачиваясь увеличением объёма выборки.

Во всяком случае, при сравнении двух несмещённых оценок лучше та, у которой дисперсия меньше: она, как говорят, эффективнее другой.

3. Состоятельность: желательно, чтобы вероятность заметных отклонений Iv. задача точечного оценивания - student2.ru от q была достаточно мала. Это достигается, если оценка Iv. задача точечного оценивания - student2.ru подчиняется закону больших чисел:

Iv. задача точечного оценивания - student2.ru P{| Iv. задача точечного оценивания - student2.ru -q|<e}=1, для "e>0,

т. е., если Iv. задача точечного оценивания - student2.ru (x1, x2, ¼ , xn) сходится по вероятности к оцениваемому параметру. Ещё лучше, если имеет место обычная сходимость почти наверное.

Расскажем здесь о двух способах получения точечных оценок: о методе максимального правдоподобия и методе моментов.

Метод максимального правдоподобия Р. Фишера

Изложим этот метод отдельно для непрерывного и для дискретного случаев.

a. Пусть X – дискретная случайная величина с возможными значениями xi, вероятности которых pi(q) зависят от неизвестного параметра q; аналитический вид функций pi(q) известен. Наблюдаем X независимым образом n раз. Пусть значение xiнаблюдалось miраз. Вероятность получить ту выборку, которую мы получили, равна  Iv. задача точечного оценивания - student2.ru (q)=L(q) – функция неизвестного параметра q. При каких-то значениях q она меньше, при других – больше. Если эта вероятность при некотором q очень мала, то, надо полагать, такая выборка и не должна обычно наблюдаться. Но мы же её получили. Можно думать, что это произошло потому, что вероятность её получить достаточно велика. Принцип максимального правдоподобия состоит в том, чтобы в качестве оценки Iv. задача точечного оценивания - student2.ru параметра q брать то значение q, при котором вероятность L(q) нашей выборки максимальна. Функция L(q) получила название функции правдоподобия, а значение Iv. задача точечного оценивания - student2.ru , при котором функция правдоподобия достигает максимума, получило название оценки максимального правдоподобия параметра q. Изложенное рассуждение есть лишь эвристическое соображение, основанное на здравом смысле, а не на строгой логике, и вполне могло привести нас к неудаче. Практическое применение принципа Фишера, однако, приводит часто к весьма разумным и полезным результатам. Они-то и оправдывают этот принцип.

b. Пусть X – непрерывная случайная величина с плотностью вероятности p(x, q). Совместная плотность вероятности выборки равна L(q)= Iv. задача точечного оценивания - student2.ru p(xi, q) и называется функцией правдоподобия.

Принцип максимального правдоподобия состоит здесь в том, чтобы в качестве оценки параметра q брать точку Iv. задача точечного оценивания - student2.ru , в которой L(q) достигает максимума.

Сделаем несколько вычислительных замечаний.

Если L(q) – дифференцируемая функция, то поиск максимума ведётся обычными средствами анализа: ищется корень уравнения L¢(q)=0 и проверяется, действительно ли в нём экстремум. Часто в этом случае удобнее искать максимум не функции L(q), а функции lnL(q), используя монотонность логарифма.

Если параметр q меняется в конечном отрезке, то нужно исследовать также и концы отрезка.

Если параметр q векторный, то вместо обычной производной приходится рассматривать частные производные.

Посмотрим, как действует этот метод на конкретных примерах.

1°. X~P(l), q=l. Функция правдоподобия:

L(l)= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru  Þ lnL(l)= Iv. задача точечного оценивания - student2.ru mk(klnl-l-lnk!).

Лишь конечное число сомножителей в выражении L(l) отлично от единицы, так что вопрос о сходимости бесконечного произведения не встаёт.

Имеем:

Iv. задача точечного оценивания - student2.ru lnL(l)=0 Û  Iv. задача точечного оценивания - student2.ru mk( Iv. задача точечного оценивания - student2.ru -1)=0 Û  Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru kmk- Iv. задача точечного оценивания - student2.ru mk=0

и так как Iv. задача точечного оценивания - student2.ru mk=n, то корнем Iv. задача точечного оценивания - student2.ru lnL(l)=0 является  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru kmk= Iv. задача точечного оценивания - student2.ru .

Т. к. L(l) при l>0 положительна и, очевидно, L(0)=0, Iv. задача точечного оценивания - student2.ru L(l)=0, то экстремумом L(l) может быть только максимум.

Поскольку параметр l пуассоновской случайной величины является её математическим ожиданием, то результат λ» Iv. задача точечного оценивания - student2.ru , как мы знаем, весьма хорош.

2°. X~B(n, p). Считаем n известным, а p параметром: q=p:

Функция правдоподобия: L(p)= Iv. задача точечного оценивания - student2.ru ( Iv. задача точечного оценивания - student2.ru pkqn-k)mk.

Здесь не следует путать n с объёмом выборки, который равен Iv. задача точечного оценивания - student2.ru mk.

Имеем:

lnL(p)= Iv. задача точечного оценивания - student2.ru mk[ln Iv. задача точечного оценивания - student2.ru +klnp+(n-k)ln(1-p)].

Найдём корень производной функции lnL(p):

Iv. задача точечного оценивания - student2.ru lnL(p)=0 Û  Iv. задача точечного оценивания - student2.ru mk( Iv. задача точечного оценивания - student2.ru - Iv. задача точечного оценивания - student2.ru )=0.

Корень полученного уравнения:  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru .

Мы вновь получили разумный результат, поскольку

np=MX, а Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru .

Методом максимального правдоподобия Р. Фишера нами получена та же оценка математического ожидания биномиального закона, какую бы мы написали для np – выборочное среднее.

3°. Найдём оценку максимального правдоподобия для вероятности события A: P(A)=p, q=p.

Будем считать, что n раз наблюдаются значения случайной величины

X= Iv. задача точечного оценивания - student2.ru
1, если событие A произошло,
0, если событие A не произошло.

Функция правдоподобия: L(p)=pm(1-p)n-m.

Имеем:

lnL(p)=mlnp+(n-m)ln(1-p) Þ  Iv. задача точечного оценивания - student2.ru lnL(p)=0 Û  Iv. задача точечного оценивания - student2.ru - Iv. задача точечного оценивания - student2.ru =0 Þ  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru ,

Iv. задача точечного оценивания - student2.ru – корень уравнения. На концах отрезка [0, 1] функция L(p) обращается в ноль, а в остальных точках отрезка она положительна, так что единственная точка экстремума является точкой максимума.

Таким образом, метод максимального правдоподобия советует брать в качестве оценки вероятности события A его относительную частоту, что, как мы знаем, хорошо.

4°. X~Exp(m), q=m.

Функция правдоподобия: L(m)= Iv. задача точечного оценивания - student2.ru me-mxk, если xk³0, и L(m)º0, если хотя бы одно из xk=0. Так как все выборочные значения xkположительны, то

lnL(m)=nlnm-m Iv. задача точечного оценивания - student2.ru xk Þ  Iv. задача точечного оценивания - student2.ru lnL(m)=0 Û  Iv. задача точечного оценивания - student2.ru - Iv. задача точечного оценивания - student2.ru xk=0 Þ  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru .

Результат следует признать разумным, поскольку предлагается для Iv. задача точечного оценивания - student2.ru брать в качестве приближения Iv. задача точечного оценивания - student2.ru , а Iv. задача точечного оценивания - student2.ru =MX.

5°. X~N(a, s). Здесь параметр q состоит из двух компонент: q=(a, s).

Функция правдоподобия: L(a, s)= Iv. задача точечного оценивания - student2.ru exp Iv. задача точечного оценивания - student2.ru (- Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru ), откуда:

lnL(a, s)=-nlns-nln Iv. задача точечного оценивания - student2.ru - Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk-a)2.

Уравнения для нахождения точки экстремума:

Iv. задача точечного оценивания - student2.ru
Iv. задача точечного оценивания - student2.ru lnL(a, s)= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk-a)=0,
Iv. задача точечного оценивания - student2.ru lnL(a, s)=- Iv. задача точечного оценивания - student2.ru + Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk-a)2=0.

Отсюда находим точку экстремума ( Iv. задача точечного оценивания - student2.ru , Iv. задача точечного оценивания - student2.ru ):  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru xk= Iv. задача точечного оценивания - student2.ru ,  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru .

Таким образом, для нормального закона в качестве оценки максимального правдоподобия мы получаем: для параметра a – выборочное среднее, а для дисперсии s2 – так называемую выборочную дисперсию (её обозначают S2):

Iv. задача точечного оценивания - student2.ru ,s 2» Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )2=S2.

Легко проверить, что точка ( Iv. задача точечного оценивания - student2.ru , Iv. задача точечного оценивания - student2.ru ) действительно является точкой максимума функции L(a, s).

6°. X~R(a, b); q=(a, b).

Плотность вероятности равномерного закона:

p(x)= Iv. задача точечного оценивания - student2.ru
Iv. задача точечного оценивания - student2.ru , если xÎ[a, b],
0, если xÏ[a, b].

Функция правдоподобия:

L(a, b)= Iv. задача точечного оценивания - student2.ru
Iv. задача точечного оценивания - student2.ru , " xkÎ[a, b],
0, если xkÏ[a, b].

Здесь мы имеем случай, когда максимум достигается не в корне производной, а в точке разрыва функции правдоподобия. Ясно, что максимум может достигаться лишь в случае, когда все наблюдения xkнаходятся в промежутке [a, b], а при этом выражение Iv. задача точечного оценивания - student2.ru тем больше, чем ближе b к a, но сближать a и b можно лишь не выпуская все наблюдения из отрезка [a, b]. Следовательно, maxL(a, b) достигается при  Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru xk, Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru xk.

7°. Пусть Х имеет гамма-распределение: X~G(l, m), (l>0, m>0). Плотность распределения: p(x)= Iv. задача точечного оценивания - student2.ru xl-1e-mx, при x³0; q=(l, m).

Функция правдоподобия:

L(l, m)= Iv. задача точечного оценивания - student2.ru [ Iv. задача точечного оценивания - student2.ru xkl-1e-mxk], "xk>0,

её логарифм:

lnL(l, m)= Iv. задача точечного оценивания - student2.ru [llnm+(l-1)lnxk-mxk-lnG(l)].

Уравнения максимального правдоподобия:

Iv. задача точечного оценивания - student2.ru
Iv. задача точечного оценивания - student2.ru lnL= Iv. задача точечного оценивания - student2.ru [lnm+lnxk-y(l)]=0,
Iv. задача точечного оценивания - student2.ru lnL= Iv. задача точечного оценивания - student2.ru ( Iv. задача точечного оценивания - student2.ru -xk)=0,

где y(l)= Iv. задача точечного оценивания - student2.ru lnG(l) – логарифмическая производная гамма-функции, так что для оценок получаем систему двух уравнений:

Iv. задача точечного оценивания - student2.ru
Iv. задача точечного оценивания - student2.ru lnxk=n[y(l)-lnm],
Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru ,

и качество оценок уже не столь очевидно, как в предыдущих случаях.

Перейдем теперь к методу моментов.

Метод моментов

Пусть X~F(x, q1, q2, ¼ , qr), причём аналитический вид функции распределения случайной величины X известен. Для нахождения r неизвестных параметров нужно иметь r уравнений. Мы знаем, что хорошим приближением для функции распределения оказывается эмпирическая функция распределения: Fn(x)»F(x). Можно надеяться, что и числовые характеристики этих функций также близки друг к другу, в частности, близки моменты. Эмпирическая функция распределения представляет собой закон распределения дискретной случайной величины, возможные значения которой совпадают с выборочными значениями xi, а вероятности их равны Iv. задача точечного оценивания - student2.ru , в частности, для непрерывной случайной величины X с вероятностью 1 эти вероятности равны Iv. задача точечного оценивания - student2.ru . Выражения для моментов эмпирической функции распределения Fn(x) (их называют выборочными моментами) нетрудно написать:

ml= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru xkl, ml= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )l.

Необходимые нам уравнения для нахождения параметров q1, q2, ¼ , qrмы получим, приравнивая соответствующие моменты случайной величины X моментам распределения Fn(x):

ml(q1, q2, ¼ , qr)= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru xkl, l=1, 2, ¼ , r (       ,*)

Iv. задача точечного оценивания - student2.ru
или:

(**)
ml(q1, q2, ¼ , qr)= Iv. задача точечного оценивания - student2.ru ,
ml(q1, q2, ¼ , qr)= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )l, l=1, 2, ¼ , r.

Успех этого метода в значительной степени зависит от того, сколь сложной оказывается соответствующая система уравнений ((*) или (**)). Решения системы и берутся в качестве оценок  Iv. задача точечного оценивания - student2.ru , Iv. задача точечного оценивания - student2.ru , ¼ , Iv. задача точечного оценивания - student2.ru r для параметров q1, q2, ¼ , qr.

Iv. задача точечного оценивания - student2.ru
Например, для нормального закона система (**) имеет вид:

a= Iv. задача точечного оценивания - student2.ru ,
s2= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )2=S2,

что совпадает с оценкой максимального правдоподобия, и это подтверждает разумность идеи.

Вообще, для произвольной случайной величины по методу моментов для математического ожидания – первого начального момента – мы получаем

MX» Iv. задача точечного оценивания - student2.ru ,

а для дисперсии – второго центрального момента:

DX» Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )2=S2,

т. е. выборочную дисперсию. Первая оценка, как мы уже знаем, несмещенная, состоятельная, с дисперсией Iv. задача точечного оценивания - student2.ru = Iv. задача точечного оценивания - student2.ru DX, которая при n®¥ сколь угодно мала. А второй оценкой займёмся здесь. В частности, обнаружим, что она имеет смещение, т. е. имеет систематическую погрешность.

С этой целью вычислим MS2:

MS2=M{ Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru [(xk-MX)-( Iv. задача точечного оценивания - student2.ru -MX)]2}=
= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru M[(xk-MX)2]- Iv. задача точечного оценивания - student2.ru M[( Iv. задача точечного оценивания - student2.ru -MX) Iv. задача точечного оценивания - student2.ru (xk-MX)]+ Iv. задача точечного оценивания - student2.ru M[( Iv. задача точечного оценивания - student2.ru -MX)2]=
= Iv. задача точечного оценивания - student2.ru ×n×DX-2M[( Iv. задача точечного оценивания - student2.ru -MX)2]+M[( Iv. задача точечного оценивания - student2.ru -MX)2]=DX- Iv. задача точечного оценивания - student2.ru =DX- Iv. задача точечного оценивания - student2.ru DX= Iv. задача точечного оценивания - student2.ru DX.

Итак, MS2= Iv. задача точечного оценивания - student2.ru DX, что указывает на смещённость S2 как оценки для DX. Однако множитель Iv. задача точечного оценивания - student2.ru для больших n близок к единице, и смещение асимптотически исчезает. Практики часто этой систематической ошибкой пренебрегают. Нетрудно её полностью исключить, если переписать последнее равенство в таком виде:

M( Iv. задача точечного оценивания - student2.ru S2)=DX,

т.е. несмещенная оценка для дисперсии (обозначим её s2) равна

s2= Iv. задача точечного оценивания - student2.ru S2= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )2.

Вся поправка состоит лишь в том, чтобы делить сумму квадратов на число наблюдений без единицы.

Вместе с тем, этот пример показывает, что ни метод максимального правдоподобия, ни метод моментов не гарантируют несмещённости их оценок.

Отметим полезное тождество:

nS2=(n-1)s2= Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )2.

Мы решили здесь как частный случай задачу IV: нашли точечную несмещённую оценку дисперсии случайной величины X, имеющей дисперсию:

DX»s2= Iv. задача точечного оценивания - student2.ru Iv. задача точечного оценивания - student2.ru (xk- Iv. задача точечного оценивания - student2.ru )2.

V. ГРУППИРОВКА НАБЛЮДЕНИЙ

Если объём выборки очень велик, то обрабатывать весь массив собранных данных бывает иногда затруднительно. С целью облегчить вычислительную работу в таких случаях производят так называемую группировку наблюдений. Она бывает также необходима для некоторых статистических процедур.

Представим выборку (x1, x2, ¼ , xn) в виде вариационного ряда: y1£y2£
£¼£yn. Величина yn-y1 называется размахом выборки. Разобьём отрезок [y1, yn] на N равных частей длины D= Iv. задача точечного оценивания - student2.ru .

Поскольку неизбежно округление данных, следует договориться о концах интервалов: разбиваем весь отрезок [y1, yn] на отрезки

Dk=[xko- Iv. задача точечного оценивания - student2.ru , xko+ Iv. задача точечного оценивания - student2.ru ),

где xko– середина k-ого полузакрытого интервала. При таком разбиении последний интервал берём в виде

DN=[xNo- Iv. задача точечного оценивания - student2.ru , xNo+ Iv. задача точечного оценивания - student2.ru ].

Обозначим через mkчисло наблюдений, попавших в k-й интервал Dk. Числа  x1o<x2o<¼<xNo называют интервальным вариационным рядом, mk– приписанные этим точкам частоты.

В принципе, можно строить интервальный вариационный ряд, производя, если это нужно, разбиение и на неравные интервалы.

Вся дальнейшая работа (например, построение эмпирической функции распределения, оценки и т. д.) осуществляется уже с интервальным вариационным рядом. При этом нужно не забывать, что группировка вносит в статистические вычисления дополнительную ошибку – ошибку на группировку.

Число интервалов N выбирают так, чтобы частоты mkбыли достаточно велики, а само число N не слишком велико.

Разбиение на неравные интервалы производят в том случае, если на оси x есть области очень бедные попавшими туда наблюдениями.

Наши рекомендации