Элементы теории вероятностей и математической статистики.
Случайной называется величина, которая в результате опытов может принимать различные заранее неизвестные значения. Конкретное значение хi , появляющееся в результате опыта, называется реализацией случайной величины.
Пусть i= 1,2,. . . , N номера опытов, N их число, а xi– реализации, полученные при повторении опытов. Пусть х0 – истинное значение случайной величины, нам неизвестное.
Обозначим Δxi= x0 - xi абсолютную ошибку i-го измерения, тогда xi= x0 - Δxi. Просуммировав эти равенства по всем i, получим:
или
, | (3) |
где среднее арифметическое всех реализаций. Можно показать, что второе слагаемое в этом выражении стремиться к 0, если N стремиться к бесконечности. Таким образом, среднее арифметическое всех реализаций стремиться к истинному значению случайной величины при стремлении к бесконечности числа измерений. Отсюда можно сделать вывод, что увеличение числа измерений приводит к увеличению точности*.
Возможность тех или иных реализаций характеризуют вероятностью их появления. При этом вероятность достоверного события принято считать равной 1, а невозможного – равной 0.
В том случае, когда величины xi могут принимать непрерывный ряд значений, следует говорить не о вероятности конкретного значения xi, а о вероятности попадания результата измерений в некоторый интервал Δxi. Разобьем всю область значений x на одинаковыеинтервалы шириной Δx каждый.
Найдем число реализаций ΔNi, попадающих в каждый i-ый интервал и относительную частоту их появления ΔNi/N Представим результаты графически. По оси абсцисс отложим значение величины x, а относительную частоту ΔNi/N представим высотой полоски, построенной на интервале Δxiкак на основании. | Рис.1 |
Полученный график носит название гистограммы и характеризует распределение данной серии наблюдений. При большом числе измерений на гистограмме проявятся основные статистические закономерности:
1. полученные значения измеряемой величины симметрично распределяются относительно некоторого среднего значения ;
2. большие отклонения от среднего будут встречаться реже, чем малые.
| Если увеличивать число измерений и одновременно сужать ширину интервалов Δx, то в пределе при Δx → 0 и N → ∞ ломаная линия, ограничивающая гистограмму сверху, будет стремиться к плавной колоколообразной кривой (рис.2). | |||
Рис.2 |
Такая кривая характеризует распределение результатов измерений при бесконечно большом числе наблюдений. Если при построении такой гистограммы по оси ординат откладывать относительную частоту появления реализации, отнесенную к единичному интервалу: ΔNi/(N ·Δx), то получающаяся в пределе кривая будет характеризовать распределение плотности вероятности получения результата хизм=х. Ордината этой кривой – плотность вероятности
(4) |
Величина dP(x)=f(x)dx – вероятность того, что результат наблюдения хизм окажется в пределах от результата х до результата х +dx (рис. 2). Площадь под всей кривой f(x) имеет смысл появления хоть какого-нибудь результата наблюдений, то есть вероятности достоверного события, поэтому она равна единице. Это условие нормировки для непрерывной случайной величины.
(5) |
Вероятность того, что измеренное значение будет лежать в интервале [x1, x2] определится выражением:
(6) |
то есть, равна площади, ограниченной кривой f(x) в этом интервале.
Кривая распределения результатов характеризует гипотетическую совокупность бесконечного числа наблюдений данной величины. Максимум кривой соответствует наиболее вероятному значению х= . Форма кривой зависит от точности измерений. Если точность высокая – большие отклонения встречаются редко, – то кривая имеет вид острого пика. Большая ширина колокола означает наличие больших случайных отклонений, то есть меньшей точности.
Законы теории вероятностей построены как асимптотические при Dх®0 и N®¥. Математическая статистика приближенно использует эти законы при конечных Dх и N.
Теория вероятностей утверждает, что случайные величины на практике наиболее часто подчиняются, так называемому, закону нормального распределения или закону распределения Гаусса. Плотность распределения определяется выражением:
f(x) = exp[ ] | (7) |
Как видно из формулы (7) нормальная плотность распределения полностью определяется двумя параметрами - теоретическим средним , и величиной s2, которую называют генеральной дисперсией распределения. Значение задает положение максимума*, s2 - его ширину. Величина дисперсии характеризует разброс результатов измерений (точность), чем меньше разброс, тем меньше будет s2, на графике это отразится как более узкий и высокий максимум.
Параметр s называется теоретическим средне квадратичным отклонением реализаций (или стандартным отклонением). Нетрудно убедиться, что в точках x = ± σ график функции f(x) имеет точки перегиба.
Такая же кривая описывает и распределение ошибок. Достаточно перенести начало координат в точку х= и тогда по оси абсцисс вместо х будут отложены значения ошибок Dх (отклонений от среднего). График функции f(Δx) изображен на рисунке 3.
Рис.3. Кривые нормального распределения Гаусса для трех значений параметра s.
Функция плотности распределения вероятности позволяет рассчитать теоретическое среднее значение реализаций измеряемой величины, его называют математическим ожиданием х0 случайной величины:
(8) |
Величина генеральной дисперсии также может быть вычислена с помощью этой функции:
(9) |
Вероятность Р того, что значение случайной величины х, получаемой при одном измерении, окажется внутри заданного интервала (х1 < x < x2) определится выражением:
, | (10) |
Это выражение называют интегралом вероятности. Данное соотношение позволяет решить две задачи – можно задать необходимый интервал и найти соответствующую вероятность; а можно, наоборот, задав требуемую вероятность, найти интервал, в который попадает искомое значение х. На практике чаще пользуются второй возможностью.
Эту вероятность называют доверительной вероятностью, а границы интервала - доверительными границами.
Воспользовавшись интегралом (10) можно определить, что вероятности попасть при одном измерении в интервал:
x0 - σ< x < x0+σ | равна | 0,683 (68,3%) |
x0 - 2σ< x < x0+2σ | - | 0,950 (95%) |
x0 - 3σ< x < x0+3σ | - | 0,997 (99,7%) |
Видно, что вероятность того, что результат измерения отличается от среднего больше чем на 3σ, очень мала (0,3%), именно на основании этого факта такие результаты принято считать промахом – «правило трех сигм».
Иногда интеграл вероятности представляют в другом виде. Вводится новая переменная e, которая определяется соотношением:
e=(х - х0)/ σ, тогда de=dх/ σ и интеграл вероятности (10) принимает вид:
(11) |
Доверительные границы тогда будут определяться как Δх =±e×σ. Величина eзадается требуемой вероятностью.
Из сказанного ранее следует, что с вероятностью 68,3% отдельная реализация будет отличаться от х0 (от математического ожидания) не больше, чем на σ; с вероятностью 95% - не больше чем на 2σ, соответственно и т. д.
Распределение Стьюдента.
На практике мы никогда не имеем дело с бесконечным числом измерений и не можем, следовательно, определить точно ни значение σ, ни значение х0.
В качестве оценки значения математического ожидания для выборки из n реализаций принято рассматривать их среднее арифметическое значение:
В качестве оценки дисперсии вводится величина выборочной дисперсии и величина выборочного среднеквадратичного отклонения , определяемые:
и | (12) |
Можно показать, что при стремлении n к бесконечности → σ2.
Очевидно, что среднее арифметическое значение всех реализаций отличается от х0 меньше чем отдельное значение. Другими словами дисперсия ( ) и среднеквадратичное отклонение ( ) среднего арифметического меньше чем дисперсия и среднеквадратичное отклонение отдельного измерения. В теории вероятности доказываются следующие соотношения:
и = σ2 /n | (13) |
и | (14) |
Если мы имеем дело с конечным (и обычно не очень большим) числом измерений, то распределение уже не является Гауссовым. Качественно характер распределения подобен нормальному, но описывается другой функцией плотности распределения вероятности и носит название - распределение Стьюдента (псевдоним английского математика В. Госсета).
Распределение Стьюдента, в отличие от Гауссова, не определяется однозначно дисперсией и средним значением реализаций, а зависит еще от числа измерений n. В распределение Стьюдента входит параметр t , называемый коэффициентом Стьюдента, он зависит от двух величин – от числа измерений и от доверительной вероятности, поэтому указывается с двумя индексами: tp,n . Таблица наиболее часто используемых коэффициентов Стьюдента приведена в приложении (§1). Коэффициент Стьюдента связывает среднеквадратичную ошибку среднего арифметического с величиной доверительного интервала.
(15) |
Чем больше требуемая вероятность, тем больше коэффициент Стьюдента и, следовательно, больше доверительный интервал. С увеличением числа измерений значение коэффициента Стьюдента убывает.
Окончательный результат представляют в виде:
(16) |
Как следует из сказанного, увеличение числа измерений необходимо для увеличения точности результатов. С ростом n среднее арифметическое ближе к истинному значению х0 и доверительный интервал Δх при заданной вероятности Р будет меньше.
Однако не следует забывать о существовании помимо случайных погрешностей еще и неисключенных систематических. Большое число измерений уменьшает только случайную ошибку, но, учитывая наличие систематической погрешности, проводить слишком большое число измерений нерационально.