Методы исключения результатов с грубыми погрешностями
Грубые погрешности (промахи) относятся к числу погрешностей, изменяющихся случайным образом при повторных наблюдениях. Они явно превышают по своему значению погрешности, оправданные условиями проведения эксперимента. В /9/ под промахом понимается значение погрешности, отклонение которого от центра распределения существенно превышает значение, оправданное объективными условиями измерения. Поэтому с точки зрения теории вероятности появление промаха маловероятно.
Причинами грубых погрешностей могут быть неконтролируемые изменения условий измерений, неисправность, ошибки оператора и др. /3/.
Для исключения грубых погрешностей применяют аппарат проверки статистических гипотез.
В метрологии используются статистические гипотезы, под которыми понимают гипотезы о виде неизвестного распределения, или о параметрах известных распределений.
Примеры статистических гипотез:
1) рассматриваемая выборка (или ее отдельный результат) принадлежит генеральной совокупности;
2) генеральная совокупность распределена по нормальному закону;
3) дисперсии двух нормальных совокупностей равны между собой.
Во-первых, в двух гипотезах сделано предположение о виде неизвестного распределения и принадлежности отдельных (подозрительных) результатов данному виду распределения, а в третьей - о параметрах двух известных распределений. Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Нулевой (основной) называют выдвинутую гипотезу. А конкурирующей (альтернативной) называют ту, которая противоречит нулевой.
При выдвижении и принятии гипотезы могут иметь место следующие четыре случая:
1) гипотеза принимается, причем и в действительности она правильная;
2) гипотеза верна, но ошибочно отвергается. Возникающую при этом ошибку называют ошибкой первого рода, а вероятность ее появления называют уровнем значимостии обозначают ;
3) гипотеза отвергается, причем в действительности она неверна;
4) гипотеза неверна, но ошибочно принимается. Возникающую при этом ошибку называют ошибкой второго рода, а вероятность ее появления обозначают .
Величину , т. е. вероятность, что гипотеза будет отвергнута, когда она ошибочна, называют мощностью критерия.
Следует заметить, что в нормативной документации по статистическому контролю качества продукции и учебниках по управлению качеством вероятность признать негодной партию годных изделий (т. е., совершить ошибку первого рода) называют “риском производителя”, а вероятность принять негодную партию – “риском потребителя”.
Все статистические критерии являются случайными величинами, принимающими определенные значения (таблицы критических значений). Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают. Критической называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Область принятия гипотезы и критическая область разделены критическими точками, в качестве которых и выступают табличные значения критериев.
Область непринятия гипотезы, как показано на рисунке 3.1, может быть односторонней (правосторонней или левосторонней) и двух сторонней.
Правосторонней называют критическую область, определяемую неравенством , где – положительное число (рисунок 3.1, а).
Левосторонней называют критическую область, определяемую неравенством , где – отрицательное число (рисунок 3.1, б).
Двусторонней называют критическую область, определяемую неравенствами ; , где . Если критичсекие точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами: , , или равносильным неравенством (рисунок 3.1, в).
Основной принцип проверки статистических гипотез формулируется следующим образом: если наблюдаемое (опытное) значение критерия принадлежит критической области – гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы – гипотезу принимают.
Рисунок 3.1 – Графическая интерпретация к распределению области принятия гипотезы |
Проверку статистической гипотезы проводят для принятого уровня значимости (принимается равным 0,1; 0,05; 0,01 и т. д.). Так принятый уровень значимости означает, что выдвинутая нулевая статистическая гипотеза может быть принята с доверительной вероятностью . Или есть вероятность отвергнуть эту гипотезу (совершить ошибку первого рода), равная .
Нулевая статистическая гипотеза подтверждает принадлежность проверяемого “подозрительного” результата измерения (наблюдения) данной группе измерений.
Формальным критерием аномальности результата наблюдений (а, следовательно, и основанием для принятия конкурирующей гипотезы: “подозрительный” результат не принадлежит данной группе измерений) при этом служит граница, отнесенная от центра распределения на величину , т. е.:
, | (3.1) |
где – результат наблюдения, проверяемый на наличие грубой погрешности;
– коэффициент, зависящий от вида и закона распределения, объема выборки, уровня значимости /5/.
Таким образом, границы погрешности зависят от вида распределения, объема выборки и выбранной доверительной вероятности.
При обработке уже имеющихся результатов наблюдений произвольно отбрасывать отдельные результаты не следует, так как это может привести к фиктивному повышению точности результата измерений. Группа измерений (выборка) может содержать несколько грубых погрешностей и их исключение производят последовательно, по одному.
Все методы исключения грубых погрешностей (промахов) могут быть разделены на два основных типа:
а) методы исключения при известном генеральном СКО;
б) методы исключения при неизвестном генеральном СКО.
В первом случае и СКО вычисляется по результатам всей выборки, во втором случае из выборки перед вычислением удаляются подозрительные результаты.
В случае ограниченного числа наблюдений и (или) сложности оценки параметров закона распределения рекомендуется /16/ исключать грубые погрешности, используя приближенные коэффициенты вида распределения. При этом исключаются значения и , где , – границы промахов, определяемые выражениями:
; | (3.2) |
, | (3.3) |
где – коэффициент, значение которого выбирается в зависимости от заданной доверительной вероятности в диапазоне от 0,85 до 1,30 (рекомендуется /16/ выбирать максимальное значение А, т. е. в курсовой работе А следует принять равным 1,3);
– контрэксцесс, значение которого зависит от формы закона распределения величины (ЗРВ).
После исключения промахов операции по определению оценок центра распределения и СКО результатов наблюдений и измерений необходимо повторить.
Поскольку на практике чаще встречаются измерения при неизвестном СКО (ограниченное число наблюдений), в пособии рассмотрены следующие критерии проверки подозрительных (с точки зрения погрешностей) результатов наблюдений: Ирвина, Романовского, вариационного размаха, Диксона, Смирнова, Шовене.
Поскольку критериальные требования (коэффициенты), определяющие границу, за которой находятся “грубые” (в смысле погрешностей) результаты наблюдений у разных авторов различны, то проверку следует выполнять сразу по нескольким критериям (рекомендуется использовать не меньше трех, из рассматриваемых ниже). Окончательное заключение о принадлежности “подозрительных” результатов рассматриваемой совокупности наблюдений следует делать по большинству критериев. Кроме этого выбор критерия для определения грубых погрешностей должен выполняться после построения гистограммы результатов наблюдений. По виду гистограммы выполняется предварительная идентификация вида закона распределения (нормальный, близкий к нормальному или отличный от него).
Критерий Ирвина
Для полученных экспериментальных данных определяют коэффициент по формуле:
, | (3.4) |
где , – наибольшие значения случайной величины;
– среднее квадратическое отклонение, вычисленное по всем значениям выборки.
Затем этот коэффициент сравнивается с табличным значением , возможные значения которого приведены в таблице 3.1.
Таблица 3.1 – Критерий Ирвина .
Число измерений n | Уровень значимости | |
q=0,05 | q=0,01 | |
2,8 | 3,7 | |
2,2 | 2,9 | |
1,5 | 2,0 | |
1,3 | 1,8 | |
1,2 | 1,7 | |
1,1 | 1,6 | |
1,0 | 1,5 | |
0,9 | 1,3 | |
0,8 | 1,2 |
Если , то нулевая гипотеза не подтверждается, т. е. результат - ошибочный, и он должен быть исключен при дальнейшей обработке результатов наблюдений.
Критерий Романовского
Конкурирующая гипотеза о наличии грубых погрешностей в подозрительных результатах подтверждается, если выполняется неравенство:
, | (3.5) |
где – квантиль распределения Стьюдента при заданной доверительной вероятности с числом степеней свободы ( - число подозрительных результатов наблюдений). Фрагмент квантилей для распределения Стьюдента представлен в таблице 3.2.
Точечные оценки распределения и СКО S результатов наблюдений вычисляется без учета подозрительных результатов наблюдений.
Таблица 3.2 – Критерий Стьюдента (квантили Стьюдента)
Число степеней свободы k | ||||||||||||||
Довери- тельная вероят- ность p | ∞ | |||||||||||||
0,90 | 2,35 | 2,13 | 2,01 | 1,94 | 1,86 | 1,81 | 1,78 | 1,73 | 1,72 | 1,70 | 1,68 | 1,67 | 1,66 | 1,64 |
0,95 | 3,18 | 2,78 | 2,57 | 2,45 | 2,31 | 2,23 | 2,18 | 2,10 | 2,07 | 2,04 | 2,02 | 2,00 | 1,98 | 1,96 |
0,99 | 5,84 | 4,60 | 4,03 | 3,71 | 3,36 | 3,17 | 3,06 | 2,98 | 2,82 | 2,75 | 2,70 | 2,86 | 2,62 | 2,58 |