Доверительные интервалы. Некоторые распределения математической статистики
Точечные оценки параметров распределений являются приближенными и могут быть приняты в качестве первоначальных ориентировочных результатов обработки наблюдений. Их недостаток заключается в том, что неизвестно с какой точностью они оценивают неизвестный параметр. Если число наблюдений велико, то точность оценки обычно бывает достаточной для практических выводов в силу состоятельности, несмещенности и эффективности.
Для выборок небольшого объема вопрос о точности является важным, поэтому наряду с точечным оцениванием параметров распределения интерес представляет интервальное оценивание. К сожалению, по причине малого объема выборки, нельзя на 100% гарантировать, что неизвестный параметр окажется внутри некоторого интервала. Поэтому приходится ограничиваться нахождением границ интервала, которому принадлежит неизвестный параметр, с некоторой наперед заданной вероятностью. Следовательно, задача интервального оценивания формулируется следующим образом: по данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно утверждать, что внутри этого интервала находится оцениваемый параметр. Сам параметр , хотя нам и не известен, является не случайным числом. Оценка
в силу гипотетической интерпретации выборки является случайной величиной. Случайной величиной являются и границы интервала оценивания, поэтому говорят о вероятности того, что интервал накроет неизвестное значение параметра.
Доверительной вероятностью или надежностью оценки называется такая вероятность , что событие с вероятностью
считается в рамках проводимого опыта практически невозможным. Вероятность
называется уровнем значимости. Разумеется, выбор надежности оценки, т.е. степени доверия, является компетенцией исследователя изучаемого процесса и полностью определяется физической сутью этого процесса. Понятно, что степень доверия парашютиста к надежности парашюта несравненно выше степени доверия комбайнера к надежности двигателя, хотя желательно, чтобы и она была достаточно высокой. В математической статистике обычно выбирают значения доверительной вероятности 0,9; 0,95; 0,99.
Определение. Доверительным интервалом ( ) для параметра
называют такой интервал, относительно которого с заранее выбранной доверительной вероятностью
можно утверждать, что он содержит (накроет) неизвестное значение параметра
, т.е. P(
=p=1 –
Кроме надежности, важную роль играет ширина доверительного интервала . Очевидно, чем она меньше, тем оценка параметра будет точнее. Наоборот, если интервал велик, то оценка мало пригодна для практики. Третий существенный элемент теории доверительных интервалов- число наблюдений
в выборке. Все три величины тесно взаимосвязаны.
Возникает вопрос: как же конкретно построить доверительный интервал для параметра по выборочным данным? Понятно, что его построение должно опираться на статистику
. Значения этой статистики определяют точечную оценку и границы интервала. Другими словами, границы доверительного интервала определяются видом закона распределения статистики
, т.е. ее рядом распределения для дискретной статистики или плотностью вероятности для непрерывной статистики.
Примеры построения доверительных интервалов изложены ниже. В практике математической статистики используются законы распределения, которые по их роли могут быть разбиты на две группы.
Роль первой группы заключается в адекватном описании механизма исследуемого реального процесса. В этом случае выбранный закон описывает распределение вероятностей случайной величины, имеющей четкую физическую интерпретацию (число дефектных изделий, заработная плата работников и т.д.). К этой группе относятся законы распределения, изучаемые в курсе теории вероятностей – биноминальный, Пуассона, нормальный, экспоненциальный, равномерный и другие.
Другая группа законов придумана специально и используется как вспомогательное математическое средство при реализации методов статистической обработки данных. К распределениям этого типа относятся в первую очередь распределения хи – квадрат, t распределение Стьюдента и F – распределение Фишера - Снедекора.
Рассмотрим распределние хи – квадрат.
Определение.Пусть - независимые случайные велечины, имеющие нормальные распределения с плотностью вероятностей
Случайная величина называется случайной величиной с распределением
(хи – квадрат) с
степенями свободы.
Очевидно, что поэтому для этого закона функция распределения
при
и плотность вероятностей
при . Относительно функции плотности вероятности отметим, во – первых, что она зависит от единственного параметра n – числа степеней свободы. Во – вторых, непосредственное вычисление интегралов с использованием плотности вероятности сложно и поэтому составлены таблицы для распределения хи – квадрат. Наконец, приведем без доказательств основные числовые характеристики распределения хи – квадрат:
График плотности вероятности хи – квадрат распределения показан на рис.2. При
функция убывает, асимптотически приближаясь к оси абсцисс. Начиная с
функция
имеет график, представляющий асимметричную кривую, имеющую максимум в точке
.
![]() |
Рис. 2. График плотности вероятности - распределения при числе степеней свободы
Как известно, вероятность попадания случайной величины на заданный интервал определяется по формуле
Для - распределенной случайной величины обычно таблицы составлены так, что по ним определяется вероятность
Если число степеней свободы велико, то распределение хи – квадрат оказывается близким к нормальному распределению
Определение. Пусть случайная величина X распределена нормально с плотностью вероятности а Y – независимая от X случайная величина, распределенная по закону хи – квадрат с n степенями свободы. Тогда случайная величина
называется распределенной по закону Стьюдента с n степенями свободы (или имеющей t – распределение с n степенями свободы).
Таблицы для t(п) - распределения имеются в учебных пособиях по статистике.
Отметим некоторые свойства t(п) - распределения.
Плотность вероятности зависит от одного параметра - числа степеней свободы n. t(п)- распределение симметрично относительно математического ожидания, равного нулю, поскольку его плотность вероятности является четной функцией. Дисперсия равна n(n-2) и существует при n>2.
t(п)- распределение Стьюдента при n®¥ становится нормальным с плотностью вероятности п(х,0,1).
На практике уже при n>30 распределение Стьюдента мало отличается от нормального, поэтому при больших n можно использовать нормальный закон. На рис. 3. приведены графики распределения Стьюдента при различных значениях n и график нормального распределения (т.е. при n®¥).
Для заданного уровня значимости a или доверительной вероятности
по таблицам t(п)- распределения определяются числа
удовлетворяющие соотношению
.
Определение. Случайная величина
где (k1),
(k2) - независимые случайные величины с распределениями хи-квадрат с k1, k2 степенями свободы соответственно, называется случайной величиной с распределением Фишера-Снедекора с k1, k2 степенями свободы.
График плотности вероятности для (k1, k2) = (10, ), (10, 50), (10, 10), (10, 4) приведены на рис. 4.
Рис.4.
Отметим некоторые свойства F-распределения.
Свойство 1. Распределение асимметрично.
,
.
Свойство 2. Если известны k1, k2 - степени свободы F-распределения, то по таблицам можно найти a% верхние критические точки, т.е. точки такие, для которых выполняется условие P(F(k1, k2)>
) = a . Нижние a% критические точки
, т.е. точки, для которых выполняется условие P(F(k1, k2)<
) = a находятся из следующих рассуждений. Поскольку
, то
P(F(k1, k2)< ) = P
= P
= P(F(k2, k1)>
), и условие P(F(k1, k2)<
)=a оказывается равносильным условию
P(F(k2,k1)> )=a. Таким образом, для нахождения a% нижней критической точки
распределения F(k1, k2) надо взять величину, обратную верхней a% критической точке
распределения F(k2, k1).
Например, для a = 0,05 требуется найти для распределения F(10,15) нижнюю критическую точку , т.е. точку, удовлетворяющую условию P[F(10,15)<
]=0,05. Для этого находим
из условия P[F(15,10)>
]=0,05
По таблицам получим =2,85, откуда
=1/2,85=0,351. Итак, Р(F(10,15)<0,351)=0,051.