Доверительные интервалы. Некоторые распределения математической статистики
Точечные оценки параметров распределений являются приближенными и могут быть приняты в качестве первоначальных ориентировочных результатов обработки наблюдений. Их недостаток заключается в том, что неизвестно с какой точностью они оценивают неизвестный параметр. Если число наблюдений велико, то точность оценки обычно бывает достаточной для практических выводов в силу состоятельности, несмещенности и эффективности.
Для выборок небольшого объема вопрос о точности является важным, поэтому наряду с точечным оцениванием параметров распределения интерес представляет интервальное оценивание. К сожалению, по причине малого объема выборки, нельзя на 100% гарантировать, что неизвестный параметр окажется внутри некоторого интервала. Поэтому приходится ограничиваться нахождением границ интервала, которому принадлежит неизвестный параметр, с некоторой наперед заданной вероятностью. Следовательно, задача интервального оценивания формулируется следующим образом: по данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно утверждать, что внутри этого интервала находится оцениваемый параметр. Сам параметр , хотя нам и не известен, является не случайным числом. Оценка в силу гипотетической интерпретации выборки является случайной величиной. Случайной величиной являются и границы интервала оценивания, поэтому говорят о вероятности того, что интервал накроет неизвестное значение параметра.
Доверительной вероятностью или надежностью оценки называется такая вероятность , что событие с вероятностью считается в рамках проводимого опыта практически невозможным. Вероятность называется уровнем значимости. Разумеется, выбор надежности оценки, т.е. степени доверия, является компетенцией исследователя изучаемого процесса и полностью определяется физической сутью этого процесса. Понятно, что степень доверия парашютиста к надежности парашюта несравненно выше степени доверия комбайнера к надежности двигателя, хотя желательно, чтобы и она была достаточно высокой. В математической статистике обычно выбирают значения доверительной вероятности 0,9; 0,95; 0,99.
Определение. Доверительным интервалом ( ) для параметра называют такой интервал, относительно которого с заранее выбранной доверительной вероятностью можно утверждать, что он содержит (накроет) неизвестное значение параметра , т.е. P( =p=1 –
Кроме надежности, важную роль играет ширина доверительного интервала . Очевидно, чем она меньше, тем оценка параметра будет точнее. Наоборот, если интервал велик, то оценка мало пригодна для практики. Третий существенный элемент теории доверительных интервалов- число наблюдений в выборке. Все три величины тесно взаимосвязаны.
Возникает вопрос: как же конкретно построить доверительный интервал для параметра по выборочным данным? Понятно, что его построение должно опираться на статистику . Значения этой статистики определяют точечную оценку и границы интервала. Другими словами, границы доверительного интервала определяются видом закона распределения статистики , т.е. ее рядом распределения для дискретной статистики или плотностью вероятности для непрерывной статистики.
Примеры построения доверительных интервалов изложены ниже. В практике математической статистики используются законы распределения, которые по их роли могут быть разбиты на две группы.
Роль первой группы заключается в адекватном описании механизма исследуемого реального процесса. В этом случае выбранный закон описывает распределение вероятностей случайной величины, имеющей четкую физическую интерпретацию (число дефектных изделий, заработная плата работников и т.д.). К этой группе относятся законы распределения, изучаемые в курсе теории вероятностей – биноминальный, Пуассона, нормальный, экспоненциальный, равномерный и другие.
Другая группа законов придумана специально и используется как вспомогательное математическое средство при реализации методов статистической обработки данных. К распределениям этого типа относятся в первую очередь распределения хи – квадрат, t распределение Стьюдента и F – распределение Фишера - Снедекора.
Рассмотрим распределние хи – квадрат.
Определение.Пусть - независимые случайные велечины, имеющие нормальные распределения с плотностью вероятностей
Случайная величина называется случайной величиной с распределением (хи – квадрат) с степенями свободы.
Очевидно, что поэтому для этого закона функция распределения при и плотность вероятностей
при . Относительно функции плотности вероятности отметим, во – первых, что она зависит от единственного параметра n – числа степеней свободы. Во – вторых, непосредственное вычисление интегралов с использованием плотности вероятности сложно и поэтому составлены таблицы для распределения хи – квадрат. Наконец, приведем без доказательств основные числовые характеристики распределения хи – квадрат: График плотности вероятности хи – квадрат распределения показан на рис.2. При функция убывает, асимптотически приближаясь к оси абсцисс. Начиная с функция имеет график, представляющий асимметричную кривую, имеющую максимум в точке .
Рис. 2. График плотности вероятности - распределения при числе степеней свободы
Как известно, вероятность попадания случайной величины на заданный интервал определяется по формуле
Для - распределенной случайной величины обычно таблицы составлены так, что по ним определяется вероятность
Если число степеней свободы велико, то распределение хи – квадрат оказывается близким к нормальному распределению
Определение. Пусть случайная величина X распределена нормально с плотностью вероятности а Y – независимая от X случайная величина, распределенная по закону хи – квадрат с n степенями свободы. Тогда случайная величина называется распределенной по закону Стьюдента с n степенями свободы (или имеющей t – распределение с n степенями свободы).
Таблицы для t(п) - распределения имеются в учебных пособиях по статистике.
Отметим некоторые свойства t(п) - распределения.
Плотность вероятности зависит от одного параметра - числа степеней свободы n. t(п)- распределение симметрично относительно математического ожидания, равного нулю, поскольку его плотность вероятности является четной функцией. Дисперсия равна n(n-2) и существует при n>2.
t(п)- распределение Стьюдента при n®¥ становится нормальным с плотностью вероятности п(х,0,1).
На практике уже при n>30 распределение Стьюдента мало отличается от нормального, поэтому при больших n можно использовать нормальный закон. На рис. 3. приведены графики распределения Стьюдента при различных значениях n и график нормального распределения (т.е. при n®¥).
Для заданного уровня значимости a или доверительной вероятности
по таблицам t(п)- распределения определяются числа удовлетворяющие соотношению .
Определение. Случайная величина
где (k1), (k2) - независимые случайные величины с распределениями хи-квадрат с k1, k2 степенями свободы соответственно, называется случайной величиной с распределением Фишера-Снедекора с k1, k2 степенями свободы.
График плотности вероятности для (k1, k2) = (10, ), (10, 50), (10, 10), (10, 4) приведены на рис. 4.
Рис.4.
Отметим некоторые свойства F-распределения.
Свойство 1. Распределение асимметрично.
, .
Свойство 2. Если известны k1, k2 - степени свободы F-распределения, то по таблицам можно найти a% верхние критические точки, т.е. точки такие, для которых выполняется условие P(F(k1, k2)> ) = a . Нижние a% критические точки , т.е. точки, для которых выполняется условие P(F(k1, k2)< ) = a находятся из следующих рассуждений. Поскольку , то
P(F(k1, k2)< ) = P = P = P(F(k2, k1)> ), и условие P(F(k1, k2)< )=a оказывается равносильным условию
P(F(k2,k1)> )=a. Таким образом, для нахождения a% нижней критической точки распределения F(k1, k2) надо взять величину, обратную верхней a% критической точке распределения F(k2, k1).
Например, для a = 0,05 требуется найти для распределения F(10,15) нижнюю критическую точку , т.е. точку, удовлетворяющую условию P[F(10,15)< ]=0,05. Для этого находим из условия P[F(15,10)> ]=0,05
По таблицам получим =2,85, откуда =1/2,85=0,351. Итак, Р(F(10,15)<0,351)=0,051.