Оценки математического ожидания и дисперсии
Важнейшими числовыми характеристиками случайной величины Х являются её математическое ожидание mx=M[x] и дисперсияσ2x=D[x] = M[(X – mx)2] = M[x2] – . Число mx является средним значением случайной величины, около которого разбросаны значения величин Х, мерой этого разброса являются дисперсия D[x] и среднеквадратическое отклонение:
sx = (1.11)
Мы будем в дальнейшем рассмотривать важную задачу для исследования наблюдаемой случайной величины. Пусть имеется некоторая выборка (будем обозначать её S) случайной величины Х. Требуется по имеющейся выборке оценить неизвестные значения mxи .
Теория оценок различных параметров занимает в математической статистике значительное место. Поэтому рассмотрим сначала общую задачу. Пусть требуется оценить некоторый параметр a по выборке S. Каждая такая оценка a* является некоторой функцией a*=a*(S)от значений выборки. Значения выборки случайны, поэтому и сама оценка a*является случайной величиной. Можно построить множество различных оценок (то есть функций) a*, но при этом желательно иметь «хорошую» или даже «наилучшую», в некотором смысле, оценку. К оценкам обычно предъявляются следующие три естественных требования.
1. Несмещённость. Математическое ожидание оценки a* должно равняться точному значению параметра: M[a*] = a. Другими словами, оценка a* не должна иметь систематической ошибки.
2. Состоятельность.При бесконечном увеличении объёма выборки, оценка a*должна сходиться к точному значению, то есть при увеличении числа наблюдений ошибка оценки стремится к нулю.
3. Эффективность. Оценка a*называется эффективной, если она не смещена и имеет минимально возможную дисперсию ошибки. В этом случае минимален разброс оценки a*относительно точного значения и оценка в определённом смысле является «самой точной».
К сожалению, не всегда удаётся построить оценку, удовлетворяющую всем трём требованиям одновременно.
Для оценки математического ожидания чаще всего применяется оценка.
= ,(1.12)
то есть среднее арифметическое по выборке. Если случайная величина Xимеет конечные mxи sx, то оценка (1.12) не смещена и состоятельна. Эта оценка эффективна, например, если Xимеет нормальное распределение (рис.п.1.4, приложение 1). Для других распределений она может оказаться неэффективной. Например, в случае равномерного распределения (рис.п.1.1, приложение 1) несмещённой, состоятельной оценкой будет
(1.13)
В то же время оценка (1.13) для нормального распределения не будет ни состоятельной, ни эффективной, и будет даже ухудшаться с ростом объёма выборки.
Таким образом, для каждого типа распределения случайной величины Хследовало бы использовать свою оценку математического ожидания. Однако в нашей ситуации тип распределения может быть известен лишь предположительно. Поэтому будем использовать оценку (1.12), которая достаточно проста и имеет наиболее важные свойства несмещённости и состоятельности.
Для оценки математического ожидания по группированной выборке используется следующая формула:
= , (1.14)
которую можно получить из предыдущей, если считать все miзначений выборки, попавших в i–й интервал, равными представителю ziэтого интервала. Эта оценка, естественно, грубее, но требует значительно меньшего объёма вычислений, особенно при большом объёме выборки.
Для оценки дисперсии чаще всего используется оценка:
= , (1.15)
Эта оценка не смещена и состоятельна для любой случайной величины Х, имеющей конечные моменты до четвёртого порядка включительно.
В случае группированной выборки используется оценка:
= (1.16)
Оценки (1.14) и (1.16), как правило, смещены и несостоятельны, так как их математические ожидания и пределы, к которым они сходятся, отличны от mxи в силу замены всех значений выборки, попавших в i–й интервал, на представителя интервала zi.
Отметим, что при больших n,коэффициент n /(n – 1)в выражениях (1.15) и (1.16) близок к единице, поэтому его можно опустить.
Интервальные оценки.
Пусть точное значение некоторого параметра равно aи найдена его оценка a*(S)по выборке S. Оценке a*соответствует точка на числовой оси (рис.1.5), поэтому такая оценка называется точечной. Все оценки, рассмотренные в предыдущем параграфе, точечные. Практически всегда, в силу случайности
a* ¹ a, и мы можем надеяться только на то, что точка a*находится где–то вблизи a. Но насколько близко? Любая другая точечная оценка будет иметь тот же недостаток – отсутствие меры надёжности результата.
Рис.1.5. Точечная оценка параметра.
Более определённым в этом отношении являются интервальные оценки. Интервальные оценка представляет собой интервал Ib = (a , b), в котором точное значение оцениваемого параметра находится с заданной вероятностью b. Интервал Ibназывается доверительным интервалом, а вероятность b называется доверительной вероятностьюи может рассматриваться как надёжность оценки.
Доверительный интервал состоится по имеющейся выборке S, он случаен в том смысле, что случайны его границы a(S)и b(S), которые мы будем вычислять по (случайной) выборке. Поэтому bесть вероятность того, что случайный интервал Ib накроет неслучайную точку a. На рис. 1.6. интервал Ib накрыл точку a, а Ib*- нет. Поэтому не совсем правильно говорить, что a «попадает» в интервал.
Если доверительная вероятность bвелика (например, b = 0,999), то практически всегда точное значение aнаходится в построенном интервале.
Рис.1.6. Доверительные интервалы параметра aдля различных выборок.
Рассмотрим метод построения доверительного интервала для математического ожидания случайной величины Х,основанный на центральной предельной теореме.
Пусть случайная величина Химеет неизвестное математическое ожидание mxи известную дисперсию . Тогда, в силу центральной предельной теоремы, среднее арифметическое:
= , (1.17)
результатов n независимых испытаний величины Хявляется случайной величиной, распределение которой при больших n, близко к нормальному распределению со средним mxи среднеквадратическим отклонением . Поэтому случайная величина
(1.18)
имеет распределение вероятностей, которое можно считать стандартным нормальным с плотностью распределения j(t), график которой изображён на рис.1.7 (а также на рис.п.1.4, приложение 1).
Рис.1.7. Плотность распределения вероятностей случайной величины t.
Пусть задана доверительная вероятность bи tb -число, удовлетворяющее уравнению
b = Ф0(tb) – Ф0(-tb) = 2 Ф0(tb),(1.19)
где - функция Лапласа. Тогда вероятность попадания в интервал (-tb , tb)будет равна заштрихованной на рис.1.7. площади, и, в силу выражения (1.19), равна b. Следовательно
b = P(-tb < < tb) = P( – tb < mx < + tb ) =
= P( – tb < mx < + tb ) .(1.20)
Таким образом, в качестве доверительного интервала можно взять интервал
Ib = ( – tb ; + tb ), (1.21)
так как выражение (1.20) означает, что неизвестное точное значение mxнаходится в Ibс заданной доверительной вероятностью b. Для построения Ib нужно по заданному bнайтиtb из уравнения (1.19). Приведём несколько значений tb, необходимых в дальнейшем [3 , 5]:
t0,9 = 1,645; t0,95 = 1,96; t0,99 = 2,58; t0,999 = 3,3.
При выводе выражения (1.21) предполагалось, что известно точное значение среднеквадратического отклонения sх. Однако оно известно далеко не всегда. Воспользуемся поэтому его оценкой (1.15) и получим:
Ib = ( – tb ; + tb ). (1.22)
Соответственно, оценки и , полученные по группированной выборке, дают следующую формулу для доверительного интервала:
Ib = ( – tb ; + tb ). (1.23)
Отметим, что формула (1.22) имеет две погрешности. Первая связана с тем, что распределение величины tлишь приближённо равно j(t), но с ростом объёма выборки n точность приближения улучшается. Вторая погрешность обусловлена использованием вместо неизвестного точного значения sх. При большом объёме выборки и эта погрешность несущественна. Формула (1.23) использует группированную, то есть огрубленную выборку, поэтому и даёт результат, остающийся огрублённым и при бесконечном росте объёма выборки.
Следует отметить также, что можно построить сколько угодно доверительных интервалов для заданного b. Действительно, пусть t’bиt”bудовлетворяет условию b = Ф0(t”b) - Ф0(t’b), тогда интервал
Ib = ( + t’b ; + t”b ),
также с вероятностью bсодержит mx(рис.1.7.). Например, можно взять t’0,9 = - 4и t”0,9 = 1,282. Но в этом случае длина полученного интервала увеличится примерно в 1,6раза. Формула (1.21) используется потому, что она даёт кратчайший доверительный интервал.
Аналогичным образом могут быть найдены интервальные оценки других параметров, например, дисперсии [1, 5].