Точность и надежность оценки. Доверительные интервалы
Как уже было сказано выше, точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные выше, - точечные. При выборке малого объёма точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объёме выборки следует пользоваться интервальными оценками. Интервальной называют оценку, которая определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность и надёжность оценок (смысл этих понятий выясняется ниже).
Пусть найденная по данным выборки статистическая характеристика служит оценкой неизвестного параметра . Будем считать постоянным числом ( может быть и случайной величиной). Ясно, что тем точнее определяет параметр , чем меньше абсолютная величина разности . Другими словами, если и , то чем меньше , тем оценка точнее. Таким образом, положительное число характеризует точность оценки.
Однако статистические методы не позволяют категорически утверждать, что оценка удовлетворяет неравенству ; можно лишь говорить о вероятности , с которой это неравенство осуществляется.
Надёжностью (доверительной вероятностью) оценки по называют вероятность , с которой осуществляется неравенство . Обычно надёжность оценки задаётся наперёд, причём в качестве берут число, близкое к единице. Наиболее часто задают надёжность, равную 0,95; 0,99 и 0,999.
Пусть вероятность того, что , равна : .
Заменив неравенство равносильным ему двойным неравенством
, или , имеем .
Это соотношение следует понимать так: вероятность того, что интервал заключает в себе (покрывает) неизвестный параметр , равна . Доверительным называют интервал , который покрывает неизвестный параметр с заданной надёжностью .
Замечание. Интервал имеет случайные концы (их называют доверительными границами). Действительно, в разных выборках получаются различные значения . Следовательно, от выборки к выборке будут изменяться и концы доверительного интервала, т.е. доверительные границы сами являются случайными величинами – функциями от .
Так как случайной величиной является не оцениваемый параметр , а доверительный интервал, то более правильно говорить не о вероятности попадания в доверительный интервал, а о вероятности того, что доверительный интервал покроет .
Метод доверительных интервалов разработал американский статистик Ю. Нейман, исходя из идей английского статистика Р. Фишера.
Доверительные интервалы для оценки математического ожидания нормального распределения при известном .
Пусть количественный признак Х генеральной совокупности распределён нормально, причём среднее квадратическое отклонение этого распределения известно. Требуется оценить неизвестное математическое ожидание по выборочной средней . Поставим своей задачей найти доверительные интервалы, покрывающие параметр с надёжностью .
Примем без доказательства, что если случайная величина Х распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально. Параметры распределения таковы:
.
Приняв во внимание, что по условию нам задана вероятность , получаем следующую формулу (чтобы получить рабочую формулу, выборочную среднюю вновь обозначим через )
.
Смысл полученного соотношения таков: с надёжностью можно утверждать, что доверительный интервал покрывает неизвестный параметр ; точность оценки .
Укажем ещё, что число t определяется из равенства , или ; по таблице функции Лапласа находят аргумент t, которому соответствует значение функции Лапласа, равное .
Поясним смысл, который имеет заданная надёжность. Надёжность =0,95 указывает, что если произведено достаточно большое число выборок, то 95% из них определяет такие доверительные интервалы, в которых параметр действительно заключён; лишь в 5 % случаев он может выйти за границы доверительного интервала.
Доверительным вероятностям, как это видно из таблицы функции Лапласа, соответствуют следующие величины нормированных отклонений:
вероятности 1=0,95 соответствует t1= 1,96;
вероятности 2= 0,99 соответствует t2= 2,58;
вероятности 3= 0,999 соответствует t3= 3,29.
Выбор того или иного порога доверительной вероятности исследователь осуществляет исходя из практических соображений той ответственности, с какой делаются выводы о генеральных параметрах.
Доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном
Пусть количественный признак Х генеральной совокупности распределён нормально, причём среднее квадратическое отклонение неизвестно. Требуется оценить неизвестное математическое ожидание с помощью доверительных интервалов. Разумеется, невозможно воспользоваться результатами предыдущего параграфа, в котором предполагалось известным.
Оказывается, что по данным выборки можно построить случайную величину , которая имеет распределение Стьюдента с k = n-1 степенями свободы; здесь - выборочная средняя, S – «исправленное» среднее квадратическое отклонение, n – объём выборки.
Пользуясь распределением Стьюдента, находим:
.
Значит, доверительный интервал покрывает неизвестный параметр c надёжностью . По заданным n и в таблицах Стьюдента можно найти соответственное .
Пример. Случайная величина Х – вес полугодовалого поросенка в хозяйстве (то есть в генеральной совокупности) - распределена нормально. По выборке объёма n = 16 найдены выборочная средняя =20,2 кг и «исправленное» среднее квадратическое отклонение S=0,8 кг. Оценить неизвестное математическое ожидание при помощи доверительного интервала с надёжностью 0,95.
Решение. Найдём . Пользуясь таблицей, по =0,95 и n = 16 находим =2,13.
Найдём доверительные границы:
Итак, с надёжностью 0,95 неизвестный параметр заключён в доверительном интервале 19,774< <20,626 (кг).
Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения
Пусть количественный признак Х генеральной совокупности распределён нормально. Требуется оценить неизвестное генеральное среднее квадратическое отклонение по «исправленному» выборочному среднему квадратическому отклонению S.
Доверительный интервал, покрывающий параметр с заданной надёжностью находят по следующей формуле:
.
Здесь параметр q определяют, пользуются таблицей приложения 2, а S находят по выборке.
Пример. Случайная величина Х – вес полугодовалого поросенка в хозяйстве – (то есть в генеральной совокупности) распределён нормально. По выборке объёма n=25 найдено «исправленное» среднее квадратическое отклонение S=0,8 кг. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надёжностью 0,95.
Решение. По таблице приложения 2 по данным =0,95 и n=25 найдём q=0,32.
Искомый доверительный интервал таков:
0,8 (1 - 0,32)< <0,8 1(1+0,32), или
0,544< <1,056 (кг).
Замечание. Если q>1, то неравенство примет вид
0< <s(1+q).
7. Статистические гипотезы. Статистические критерии