Общие сведения о доверительной вероятности, доверительных интервалах и методах исключения грубых ошибок измерения
Оценки, полученные по формулам (7.3), (7.5), (7.6) и (7.7), называются точечными. Для характеристики точности и надёжности оценки хстат пользуются доверительными интервалами и доверительными вероятностями.
Пусть для параметра х получена из n опытов несмещенная оценка хстат. Оценим вероятность, при которой допущенная при этом ошибка не превзойдет некоторой величины ε. Обозначим эту вероятность, называемую доверительной вероятностью, Ρ(ε):
Ρ(ε) = Ρ(|хстат - х | < ε). (7.8)
Доверительная вероятность - это есть вероятность того, что истинное значение х будет заключаться в пределах от хстат – ε до хстат +ε. Границы хстат – и хстат + ε называют доверительными границами, а интервал Iε = хстат ± ε - доверительным интервалом. Доверительный интервал характеризует точность полученного результата, а доверительная вероятность - его надёжность [4]. Если при испытаниях m значений измеряемой случайной величины х попадут в интервал (х1, х2), то при большом числе опытов отношение m к общему числу опытов N, называемое частостью, будет стремиться к постоянному числу. Для различных интервалов эти числа, естественно, будут различны. Рассматривая случайные ошибки как случайные величины, можно утверждать, что вероятность P[х Î (х1, х2)] попадания случайной величины х в интервал (х1, х2), равна
P[х Î (х1, х2)] ≈ m / N. (7.9)
Правило, позволяющее находить P[х Î (х1, х2)] для любых интервалов (х1, х2), и есть закон распределения вероятностей случайной величины х. Если закон распределения является нормальным, то вероятность попадания случайной ошибки х в симметричный интервал (- х1, х2) при (х1 > 0) оценивают выражением [1]
P[х Î (-х1, х2)] = P[|х| < х1] = 2Ф(х / σ) = 2Φ(t) = РД(t), (7.10)
где Ф(t) интеграл вероятности:
и Ф(-t) = - Ф(t); (7.11)
2Ф(х / σ) = 2Φ(t) = РД(t) (при t = х / σ) - интегральная функция Лапласа. Её значения для различных t протабулированы и приведены в таблице 7.6;
Ф(х / σ) = Φ(t) - интеграл вероятностей или функция Лапласа;
σ - среднеквадратическая ошибка.
Вероятность того, что случайная ошибка х не выйдет за границы ± tσ, (t > 0), равна
Ρ[|х| > tσ] = 1 - 2Φ(t). (7.12)
При х ³ 3σ (т.е. при t ³ 3) вероятность Ρ[|х| > tσ] становится настолько малой (Ρ[|х| > 3σ] =1 - 2Ф(3) = 0,0027), что выход случайной ошибки за трехсигмовый интервал считают практически невозможным. Это правило получило название правила трёх сигм. Оно находит широкое практическое применение для исключения грубых ошибок измерения (промахов), для которых |х| > 3σ, из статистического ряда. Если среднеквадратическая ошибка σ заранее неизвестна, то с помощью формулы (7.5) вычисляют статистическую оценку среднеквадратичного отклонения σстат, а затем исключают грубые ошибки измерения для которых
|х| > 3 σстат. (7.13)
Таблица 7.6 - Интегральная функция Лапласа РД(t) = 2Φ(t) [1, 4, 30] и Ф(-t) = - Ф(t)
t | РД(t) | t | РД(t) | t | РД(t) |
0.00 | 0.0000 | 0.75 | 0.5467 | 1.50 | 0.8864 |
0.05 | 0.0399 | 0.80 | 0.5763 | 1.55 | 0.8789 |
0.10 | 0.0797 | 0.85 | 0.6047 | 1.60 | 0.8904 |
0.15 | 0.1192 | 0.90 | 0.6319 | 1.65 | 0.9011 |
0.20 | 0.1585 | 0.95 | 0.6579 | 1.70 | 0.9109 |
0.25 | 0.1974 | 1.00 | 0.6827 | 1.75 | 0.9199 |
0.30 | 0.2357 | 1.05 | 0.7063 | 1.80 | |0.9281 |
0.35 | 0.2737 | 1.10 | 0.7287 | 1.85 | 0.9357 |
0.40 | 0.3108 | 1.15 | 0.7419 | 1.90 | 0.9426 |
0.45 | 0.3473 | 1.20 | 0.7699 | 1.95 | 0.9488 |
0.50 | 0.3829 | 1.25 | 0.7887 | 2.00 | 0.9545 |
0.55 | 0.4177 | 1.30 | 0.8064 | 2.25 | 0.9756 |
0.60 | 0.4515 | 1.35 | 0.8230 | 2.50 | 0.9876 |
0.65 | 0.4843 | 1.40 | 0.8385 | 3.00 | 0.9973 |
0.70 | 0.5161 | 1.45 | 0.8529 | 4.00 | 0.9999 |
Согласно таблицы 7.6, если мы хотим исключить ошибки измерения величины х, вероятность появления которых Ρ[|х|> tσ] меньше 5% (РД(t) = 2Ф(t) = 0,95), то убирают значения х > 1,96 σстат (t > 1,96). Если мы хотим исключить ошибки измерения величины х, вероятность появления которых Ρ[|х|> tσ] меньше 1% (РД(t) = 2Ф(t) = 0,99), то убирают значения х > 2,576 σстат (t > 2,576). Если мы хотим исключить ошибки измерения величины х, вероятность появления которых Ρ[|х|> tσ] меньше 0,1% (РД(t) = 2Ф(t) = 0,999), то убирают значения х > 3,291 σстат (t > 3,291). Здесь сотые и тысячные доли величины t уточнены по более подробным таблицам из [1]. При вычислении σстат с помощью формулы (7.5) следует не включать в вычисления подозрительное значение х, которое проверяется на предмет его возможного исключения из статистического ряда.
Для исключения грубых ошибок измерения существует также критерий Ирвина, о котором не указывается, что он применим при определенном распределении. Метод или критерий Ирвина основан на оценке разности двух наибольших или наименьших членов выборки. Определяется величина λ, равная [10]
λ = (х2 - х1) / σстат (7.14 а)
или
λ = (хn - хn-1) / σстат, (7.14б)
в зависимости от того, с какой стороны выборки расположен резко выделяющийся член выборки. По приведенной таблице 7.7 в зависимости от объема выборки n при уровне значимости α = 0,95 находят критическое значение λ = 0,95. Если рассчитанная λ ≤ λ(a = 0,95), то оцениваемый результат является случайным и не подлежит исключению из выборки. Если λ > λ(a = 0,95), то следует исключить из выборки оцениваемое резко выделяющееся наименьшее или наибольшее значение случайной величины (или оба вместе), так как оно представляет собой грубую ошибку. После исключения ошибки необходимо снова вычислить значения xстат и σстат. В [10] описаны и некоторые другие методы исключения грубых ошибок измерения.
Таблица 7.7 - Значения критерия Ирвина λ(a = 0,95) для уровня значимости α = 0,95 в зависимости от объёма выборки n [10]