Определение закона распределения результатов измерений или случайных погрешностей измерений
Лекция 8 ОБРАБОТКА РЕЗУЛЬТАТОВ прямых ИЗМЕРЕНИЙ
Прямые многократные измерения
Прямые многократные измерения делятся на равно- и неравноточные. Равноточными называются измерения, которые проводятся средствами измерений одинаковой точности по одной и той же методике при неизменных внешних условиях. При равноточных измерениях СКО результатов всех рядов измерений равны между собой.
Перед проведением обработки результатов измерений необходимо удостовериться в том, что данные из обрабатываемой выборки статистически подконтрольны, группируются вокруг одного и того же центра и имеют одинаковую дисперсию.
Задача обработки результатов многократных измерений заключается в нахождении оценки измеряемой величины и доверительного интервала, в котором находится ее истинное значение.
Исходной информацией для обработки является ряд из n (n >4) результатов измерений х1, х2, x3,..., хn, из которых исключены известные систематические погрешности, – выборка. Число n зависит как от требований к точности получаемого результата, так и от реальной возможности выполнять повторные измерения.
Последовательность обработки результатов прямых многократных измерений состоит из ряда этапов:
1 Определение точечных оценок закона распределения результатов измерений.На этом этапе определяются:
• среднее арифметическое значение измеряемой величины
;
• СКО результата измерения Sx
;
• СКО среднего арифметического значения
.
В соответствии с критериями, рассмотренными в лекции 6, грубые погрешности и промахи исключаются, после чего проводится повторный расчет оценок среднего арифметического значения и его СКО. В ряде случаев для более надежной идентификации закона распределения результатов измерений могут определяться другие точечные оценки: коэффициент асимметрии, эксцесс и контрэксцесс, энтропийный коэффициент.
Определение закона распределения результатов измерений или случайных погрешностей измерений.
Первым шагом при идентификации закона распределения является построение по исправленным результатам измерений хi, где i = 1, 2,..., n, вариационного ряда (упорядоченной выборки), а также уi, где у1 = min(хi) и уn= mах(xi). В вариационном ряду результаты измерений (или их отклонения от среднего арифметического) располагают в порядке возрастания. Далее этот ряд разбивается на оптимальное число m, как правило, одинаковых интервалов группирования длиной h = (у1 + уn)/m .
Оптимальным является такое число интервалов m, при котором возможное максимальное сглаживание случайных флуктуации данных сопровождается с минимальным искажением от сглаживания самой кривой искомого распределения. Для практического применения целесообразно использовать выражения mmin = 0.55n0,4 и mmax = 1.25n0,4,
которые получены для наиболее часто встречающихся на практике распределений с эксцессом, находящимся в пределах от 1,8 до 6, т.е. от равномерного до распределения Лапласа.
Искомое значение m должно находится в пределах от mmin до mmах, быть нечетным, так как при четном m в островершинном или двухнедельном симметричном распределении в центре гистограммы оказываются два равных по высоте столбца и середина кривой распределения искусственно уплощается.
В случае если гистограмма распределения явно двухмодальная, число столбцов может быть увеличено в 1,5 - 2 раза, чтобы на каждый из двух максимумов приходилось примерно по m интервалов. Полученное значение длины интервала группирования h всегда округляют в большую сторону, иначе последняя точка окажется за пределами крайнего интервала.
Далее определяют интервалы группирования экспериментальных данных в виде
Δ1 = (y1, y1+h); Δ2 = (y1+h, y1+2h);....; Δn = (yn–h, yn),
и подсчитывают число попаданий nk (частоты.) результатов измерений в каждый интервал группирования. Сумма этих чисел должна равняться числу измерений. По полученным значениям рассчитывают вероятности попадания результатов измерений (частности) в каждый из интервалов группирования по формуле = Pk/Δk, где k=1, 2,...,m.
Проведенные расчеты позволяют построить гистограмму, полигон и кумулятивную кривую.
Для построения гистограммыпо оси результатов наблюдений х (рисунок 8.1,а) откладываются интервалы Δk в порядке возрастания номеров и на каждом интервале строится прямоугольник высотой Pk. Площадь, заключенная под графиком, пропорциональна числу наблюдений n. Иногда высоту прямоугольника откладывают равной эмпирической плотности вероятности = Pk/Δk = nk/(nΔk), которая является оценкой средней плотности в интервале Δk. В этом случае площадь под гистограммой равна единице. При увеличении числа интервалов и соответственно уменьшении их длины гистограмма все более приближается к гладкой кривой – графику плотности распределения вероятности.
Полигонпредставляет собой ломаную кривую, соединяющую середины верхних оснований каждого столбца гистограммы (смотри рисунок 8.1,а). Он более наглядно, чем гистограмма, отражает форму кривой распределения. За пределами гистограммы справа и слева остаются пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс. Эти точки при построении полигона соединяют между собой отрезками прямых линий. В результате совместно с осью х образуется замкнутая фигура, площадь которой в соответствии с правилом нормирования должна быть равна единице (или числу наблюдений при использовании частостей).
Кумулятивная кривая– это график статистической функции распределения. Для ее построения по оси результатов наблюдений х (рисунок 8.1,б) откладывают интервалы Δk в порядке возрастания номеров и на каждом интервале строят прямоугольник высотой
Значение Fk называется кумулятивной частностью, а сумма nk – кумулятивной частотой.
Рисунок 8.1 – Гистограмма, полигон (а) и кумулятивная кривая (б).
По виду построения зависимостей может быть оценен закон распределения результатов измерений.
3 Статистические критерии оценки нормальности распределения.В качестве способа оценки близости распределения выборки экспериментальных данных к принятой аналитической модели закона распределения используются критерии согласия. Известен целый ряд критериев согласия, предложенных разными авторами. Наибольшее распространение в практике получил критерий Пирсона (критерий хи–квадрат). Идея этого метода состоит в контроле отклонений гистограммы экспериментальных данных от гистограммы с таким же числом интервалов, построенной на основе распределения, совпадение с которым определяется. Использование критерия Пирсона возможно при большом числе измерений (n > 50) и заключается в вычислении величины 2 (хи – квадрат):
(8.1)
где nj, Nj – экспериментальные и теоретические значения частот в i-м интервале разбиения; m – число интервалов разбиения; Рi – значения вероятностей в том же интервале разбиения, соответствующие выбранной модели распределения;
При n → ∞ случайная величина имеет распределение .Пирсона с числом степеней свободы v = m–1–r, где r – число определяемых по статистике параметров, необходимых для совмещения модели и гистограммы. Для нормального закона распределения r = 2, так как закон однозначно характеризуется указанием двух его параметров – математического ожидания и СКО.
Если бы выбранная модель в центрах всех т столбцов совпадала с экспериментальными данными, то все т разностей (ni – Ni) были бы равны нулю, а, следовательно, и значение критерия также было бы равно нулю. Таким образом, есть мера суммарного отклонения между моделью и экспериментальным распределением.
Критерий не инвариантен к числу столбцов и существенно возрастает с увеличением их числа. Поэтому для использования его при разном числе столбцов составлены таблицы квантилей распределения входом, в которые служит так называемое число степеней свободы v = (m–1–r). Чтобы совместить модель, соответствующую нормальному закону, с гистограммой, необходимо совместить координату центра, а для того, чтобы ширина модели соответствовала ширине гистограммы, ее нужно задать как r = 2 и v = m–3. Часть квантилей распределения приведена в таблице 8.1.
Таблица 8.1
Значения при различном уровне значимости
Если вычисленная по опытным данным мера расхождения меньше определенного из таблицы значения . то гипотеза о совпадении экспериментального и выбранного теоретического распределений принимается. Это не значит, что гипотеза верна. Можно лишь утверждать, что она правдоподобна, т.е. она не противоречит опытным данным. Если же выходит за границы доверительного интервала, то гипотеза отвергается как противоречащая опытным данным.
Методика определения соответствия экспериментального и принятого законов распределения заключается в следующем:
• определяют оценки среднего арифметического значения и СКО ;
• группируют результаты многократных наблюдений по интервалам длиной h, число которых определяют так же, как и при построении гистограммы;
• для каждого интервала разбиения определяют его центр хi0 и подсчитывают число наблюдений ni, попавших в каждый интервал;
• вычисляют число наблюдений для каждого из интервалов, теоретически соответствующее выбранной аналитической модели распределения. Для этого сначала от реальных середин интервалов хi0 производят переходи нормированным серединам
zi = (хi0 – )/Sх .
Затем для каждого значения zi, с помощью аналитической модели находят значение функции плотности вероятностей f(zi). Например, для нормального закона
По найденному значению f(zi) определяют ту часть Ni, имеющихся наблюдений, которая теоретически должна быть в каждом из интервалов Ni=nh f(zi)/Sх, где n – общее число наблюдений;
• если в какой-либо интервал теоретически попадает меньше пяти наблюдений, то в обеих гистограммах его соединяют с соседним интервалом. После этого определяют число степеней свободы v = m–1–r, где m – общее число интервалов. Если было произведено укрупнение, то m – число интервалов после укрупнения;
• по формуле (8.1) определяют показатель разности частот ;
• выбирают уровень значимости критерия q. Он должен быть небольшим, чтобы была мала вероятность, совершить ошибку первого рода. По уровню значимости и числу степеней свободы v по табл. 8.1 находят границу критической области такую, что
Р{ > } = q.
Вероятность того, что полученное значение превышает , равна q и мала. Поэтому, если оказывается, что > , то гипотеза о совпадении экспериментального и теоретического законов распределения отвергается. Если же < , то гипотеза принимается.
Чем меньше q, тем больше значение (при том же числе степеней свободы v), тем легче выполняется условие < и принимается проверяемая гипотеза. Но при этом увеличивается вероятность ошибки второго рода. В связи с этим нецелесообразно принимать 0,02 q 0,01.
Иногда вместо проверки с односторонней критической областью применяют проверки с двусторонними критическими областями. При этом оценивается вероятность Р{ > } = q Уровень значимости критерия q делится на две части: q = q1+q2. Как правило, принимают q1=q2. По табл. 8.1 для Р{ > }=0 находят при уровне значимости q1 и числе степеней свободы v и для уровня значимости 1 – q2 и том же n. Гипотеза о совпадении распределений принимается, если .
При n <15 принадлежность экспериментального распределения к нормальному не проверяется.
4 Определение доверительных границ случайной погрешности.Если удалось идентифицировать закон распределения результатов измерений, то с его использованием находят квантильный множитель zР при заданном значении доверительной вероятности Р. В этом случае доверительные границы случайной погрешности Δ = ± zp .
5 Определение границ не исключенной систематической погрешности θ результата измерений.Под этими границами понимают найденные нестатистическими методами границы интервала, внутри которого находится неисключенная систематическая погрешность. Она образуется из ряда составляющих: как правило, погрешностей метода и средств измерений, а также субъективной погрешности. Границы неисключенной систематической погрешности принимаются равными пределам допускаемых основных и дополнительных погрешностей средств измерений, если их случайные составляющие пренебрежимо малы. Они суммируются по правилам, которые будут рассмотрены нами позже. Доверительная вероятность при определении границ θ принимается равной доверительной вероятности, используемой при нахождении границ случайной погрешности.
6 Определение доверительных границ погрешности результата измерения Δр. Данная операция осуществляется путем суммирования СКО случайной составляющей и границ неисключенной систематической составляющей в θ зависимости от соотношения θ/ по правилам, которые будут рассмотрены в лекции 10
7 Запись результата измерения.Результат измерения записывается в виде
х = ± ΔР
при доверительной вероятности Р = Рд. При отсутствии данных о виде функции распределения составляющих погрешности результаты измерений представляют в виде , , n, θ при доверительной вероятности Р = Рд.