Интервальная оценка для математического ожидания, если среднеквадратическое отклонение известно
Как показано выше, для статистика имеет нормальное распределение с математическим ожиданием m и среднеквадратическим отклонением . Значит, при построении доверительного интервала мы можем пользоваться свойствами и таблицей нормального распределения. Если уровень доверия задан равным b, то в таблице для стандартной нормальной величины находим число kbтакое, что
. (3.13)
Так как эта вероятность равна , то надо найти в таблице 4 (см. приложение) аргумент kbтакой, что F(kb)=b/2 . При этом надо помнить, что в данном случае известным является значение функции, а неизвестным – значение аргумента, так что не по аргументу ищется значение функции, а по значению функции ищется значение аргумента.
Например, k0,95= 1,96; k0,997= 3 (вспомните правило 3s).
Если уровень доверия задан равным 0,9; 0,95; 0,98; 0,99 или 0,997 (а это самые распространенные на практике значения), то проще воспользоваться таблицей 5 (см. приложение), задающей значения kbнормального распределения для перечисленных уровней доверия.
В силу того, что , имеем .
Следовательно,
. (3.14)
Стало быть, выполнив простые тождественные преобразования, мы установили, что с вероятностью b выполняется неравенство
, (3.15)
где kbнаходится из таблицы 5 или таблицы 4 стандартного нормального распределения по заданному уровню доверия b (см. 3.13).
Написанная формула отнюдь не означает, что неизвестный параметр m является случайной величиной. Ее смысл в том, что, если мы будем строить по экспериментальным данным интервал по указанной формуле, в среднем в случаев истинное значение неизвестного параметра m будет накрываться вычисленным по экспериментальным данным, а потому случайным интервалом (3.15).
Понятие доверительного интервала
Итак, интервал, построенный по выборке, и вероятность b того, что он накроет оцениваемое значение, связаны функциональной зависимостью. Эта схема применяется во всех рассуждениях, когда строятся интервальные оценки для параметров. Разработана специальная терминология, позволяющая кратко описать значение и вероятностный смысл интервальной оценки. А именно, говорят: для параметра построендоверительный интервал надежности (доверительной вероятности или гарантии, или уровня доверия) b. Иначе говоря, для изучаемых параметров
(МХ, DX и т.п.) разработаны правила (подобные формуле (3.15)), позволяющие по выборке и по заданной вероятности b (называемой доверительной или уровнем доверия) подсчитать границы двустороннего интервала. Этот интервал I bназывается доверительным с уровнем доверия b, и он, как и выборка, случаен, а вероятность накрытия им истинного значения параметра равна b, вероятность же ошибки a = 1 - b.
Величина уровня доверия, как мы видели, влияет на величину интервала: чем больше уровень доверия, тем шире интервал. Уровень доверия выбирается из соображений допустимого риска. Принято уровень доверия брать равным 0,95 или 0,99. Если, приняв уровень доверия 0,99, мы будем по выборкам строить доверительные интервалы, то в среднем 1 из 100, интервалов не будет содержать истинное значение параметра (какой именно 1 из 100, мы, конечно, не можем сказать). Если примем уровень доверия 0,95 и будем по выборкам строить доверительные интервалы, то в среднем 5 из 100 интервалов не будут содержать истинное значение параметра. Уровень доверия – это вероятность того, что мы не ошибемся, если поверим оценке, построенной с помощью выборки. Вероятность ошибки в мире, где царит случай, всегда остается. И математическая статистика предлагает нам самим решить, с какой вероятностью ошибки мы готовы смириться. Если цена ошибки высока (разорение, смертельный исход при операции), может быть, следует задать уровень доверия равным 0,999; если ошибка грозит тем, что придется взять кредит в банке – можно удовлетвориться уровнем 0,95. Если лекарство безвредно, то достаточно того, что “оно помогает с уровнем доверия 70%”, чтобы рекомендовать его для применения. В соответствии с выбранным уровнем доверия и вычисляются интервальные оценки. При этом, конечно, надо учитывать, что чем выше заказанный уровень доверия, тем более широким и расплывчатым будет ответ. Ответы математическая статистика выдает в виде формул, в которые входит уровень доверия. Так что часто они позволяют выбрать стратегию, позволяющую добиться желательной точности с нужным уровнем доверия к результатам. Мы видим, что формула (3.15)
- это формула доверительного интервала для математического ожидания m нормального распределения с уровнем доверия b для случая, когда известно среднеквадратическое отклонение распределения s. При взгляде на нее ясно, что чем больше n, тем уже интервал, а чем больше мы берем гарантию b, тем доверительный интервал шире. Кроме того, она позволяет оценить, каков должен быть объем выборки n, чтобы точность оценки, полученной по ней для генерального среднего, достигала заданного значения e (эпсилон) с уровнем доверия b. В случаях, когда определение выборки в нашей власти, мы можем вычислить, на сколько надо увеличить объем выборки, чтобы добиться нужной точности. Так как точность обратно пропорциональна корню из n, то для того, чтобы повысить точность в 2 раза, объем выборки надо увеличить в 4 раза; чтобы повысить точность в 10 раз, число испытаний надо увеличить в 100 раз.
Написанное соотношение было выведено в предположении, что дисперсия исходного распределения известна.