Формула полной вероятности. 3 страница
Таблица статистическоиъй функций распределения имеит вид:
xi | |||||
F*(x) | 0,02 | 0,010 | 0,030 | 0,58 |
Числовые характеристики статистического распределения.
Мы ввели в рассмотрение различные характеристики случайных величин: математическое ожидание дисперено, начальные и центровые моменты различных порядков . Эти числовые характеристики играют большую роль в теорий вероятности. Аналогичные числовые характеристики существуют и для статистических распределений. Каждой числовой характеристике случайной величены x соответствует её статистическая аналогия. Для основной характеристике положении математического ожидания случайной величены - такой аналогией является средние арифметическое наблюдаемых значений (статистическое математической ожидание, статистическое средние, выборочное средние) случайной величены:
Где xi -значение случайной величены, наблюдаемой в i-ом опыте, и число опытов. Согласно закону больших чисел, при неограниченном увеличение числа опытов статистическое среднее приближается(сходится по вероятности) к математическому ожиданию.
Если выражение дисперсии заменить математическое ожидание его статистической аналогией - статистическим (средним арифметическим), мы получим статистическую дисперсию случайной величины х
-статистическое средние
Аналогично определяется статистические начальные и центральные моменты любых порядков
Все эти определения аналогичны рассматриваемым нами числовым характеристикам случайной величины, с той разницей, что в них везде вместо математического ожидания фигурирует статистическое математическое ожидание. При увеличении числа наблюдений, очевидно, все статистические характеристики будут сходится по вероятности соответствующим математическим характеристикам и при достаточном x могут быть приняты приближению равным им.
При очень большом количестве опытов при ручном вычислении характеристик по вышеприведенным формулам становится чрезмерно грамоздким можно
применить следующий прием воспользуемся же мы же разрядами на которые был расскласифицирован статистический материал для построения статистического ряда листограммы , а будем считать приближению значение случайной величины в каждом разряде постоянным и равным среднему значению, которое выступает в роли «представителя» разряда.
Тогда статистические характеристики будут выражаться приближонными формулами;
Где Хi –«представитель» i-го разряда или средние значение i-го разряда
Pi*чистота i-го разряда
К-число разрядов
Во всяком статистическом распределении неизбежно присутствуют элименты случайности, связанные с тем, что число наблюдений ограниченно, что проведены именно те, а не другие опыты, давшие именно те, а не другие результаты.Только при очень большом числе наблюдений эти элименты случайностей зглаживаются , и случайные явления обнаруживает в полной мере присущего ему закономерность. На практике мы почти никогда не имеем дела с таким большим числом наблюдений и вынуждены считаться с тем , что любому статистическому распределению свойственны в большей или меньшей мере черты случайности. По этому при обработке статистического материала часто приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую распределения , выраженную лишь существенные черты статистического материала, но не случайности, связанные с недостаточным объемом экспериментальных данных. Такие задачи называются задачей выравнивания (сглаживания) статистических рядов.
Задача выравнивания заключается в том , чтобы подобрать теоритическую главную кривую распределения, с той или иной точек звения наилучшим образом описывающую данное статистическое рапределение.
Задача о наилучшим выравнивании статистических рядов, как и вообще задача онаилушчем систематическом представлении геометрических функций, есть задача в значительной степени неопределенная и решение ее зависит от того, что условимся считать «НАИЛУЧШИМ».
Как правило, принципиальный вид теоретической кривой выбирается зарание из отображения , связаных с существом задачи, а в некоторых случаях просто с внешним видом статистического распределения. Аналитическое выражение выбраной кривой распределения зависит от некоторых параметров; задача выравнивания статистического ряда переходит в задачу рационального выбора тех значений параметров , при которых соответствие между статистическим и теоритическим распределениями оказывается наилучшим .
Предположим , например , что иследуемая величена Х есть ошибка измерения , возникающая в результате сумирования воздействий множиства независимых элеминтарных ошибок; тогда из теоретических соображений можно считать , что величена Х подчиняется нормальному закону;
И задача выравнивания переходит в задачу о рациональном выборе…………………………..
Бывают случаи , когда заранее известно , что величина X распределена статистически приблизительно равномерно на Некотором интервале ; тогда можно поставить задачу о рациональном выборе параметров того закона равномерной плоскости.
Которым можно наилучшим образом заменить (выровнять) задонное статистическое распределение.
Следует при этом иметь в виду, что любая аналитическая функция f(x), с помощью которой выравнивается статистическое распределение , должна обладать основными свойствами четности распределения:
Предположим, что, исходя из тех или иных соображений, нами выбрана функция f(x), удовлетворяющая этим условиям, с помощью которой мы хотим выравнять данное статистическое распределение; в выражение этой функции входит несколько параметров а, в,…; требуется подобрать эти параметры так, чтобы функция f(x) наилучшим образом описывала данный статистический материал. Одним из методов, применяемых для решения этой задачи- это так называемый метод моментов.
Согласно методу моментов, параметры а, в,… выбираются с таким расчетом, чтобы несколько важнейших числовых характеристик (моментов) теоретического распределения были равны соответствующим статистическим характеристикам. Например, если теоретическая кривая f(x) зависит только от двух параметров а и в, эти параметры выбираются так, чтобы математическое ожидание Мх и Дх теоретического разделения совпадало с соответствующими характеристиками Мх* и Дх*.
Если кривая зависит от трех параметров, можно подобрать их так, чтобы совпадали первые три момента и т.д.
Пример:
Нами рассмотрено статистическое распределение ошибки измерения случайной величины.Известно, что ошибка измерения случайной величины распределена по нормальному закону распределения
Следовательно, выравнивание распределения сводится к определению параметров m и [Ђ1] d.
Вычислим приближённо статистические ошибки измерения по формуле:
Причем за представителя каждого разряда хj примем его середину
Для определения дисперсии вычислим начальный момент
Построим на одном графике гистограмму и выравнивающую ее кривую распределения
Из графика видно, что теоретическая кривая распределения f(x), сохраняя, в основном существенные особенности статистического распределения , свободна от случайных неправильностей хода гистограммы, которые , по видимому, могут быть отнесены за счет случайных причин.
Критерий согласия.
Мы рассмотрим один из вопросов, связанных с проверкой правдоподобия гипотез, а именно – вопрос о согласованности теоретического и статистического распределения.
Допустим, что данное статистическое распределение f*(x) выровнено с помощью некоторой статистической кривой f(x).
Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что подобранная нами кривая плохо выравнивает данное статистическое распределение. Для ответа на такой вопрос служат так называемые «критерии согласия “.
Идея применения критериев согласия заключается в следующем.
На основании данного статистического материала нам предстоит проверить гипотезу А, состоящую в том, что случайная величина Х подчиняется некоторому определенному закону распределения. Этот закон может быть задан в той или иной форме: например в виде функции распределения F(x) или в виде плотности распределения f(x), или же в виде совокупностей вероятностей pI, где pI – вероятность того, что величина Х попадет в пределы I – того разряда.
Так как из этих форм функция распределения F(x) является наиболее общей и определяет собой любую другую, будем формулировать гипотезу Н как состоящую в том, что величина Х имеет функцию распределения F(x).
Для того, чтобы принять или опровергнуть гипотезу Н, характеризующую степень расхождения теоретического и статистического распределений. Величина V может быть выбрана различными способами; например, в качестве V можно взять сумму квадратов отклонений теоретических вероятностей pI от соответствующих частей рI* или же сумму тех же квадратов с некоторыми коэффициентами («весами»), или же максимальное отклонение статистической функции распределения F*(x) от теоретической F(x) и т. д. Допустим, что величина V выбрана тем или иным способом. Очевидно, что есть некоторая случайная величина. Закон распределения этой случайной величины x, над которой проводились опыты, и от числа опытов n. Если гипотеза H верна, то закон распределения величены V определяется законом распределения величены X (функцией F(x)) и числом n.
Допустим, что этот закон распределения нам известен. В результате данной серии опытов обнаружено, что выбранная нами мера расхождения V приняла некоторое значение U. Спрашывается, можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим распределением и, следовательно на непригодность гипотезы H? Для ответа на этот вопрос предположим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения V окажется не меньше, чем наблюденное нами в опыте значение U, т. е. вычислим вероятность события:
P (V³U)
Если эта вероятность весьма мала, то гипотезу Н следует отвергнуть как мало правдоподобную; если же эта вероятность значительна, следует признать, что экспериментальные данные не противоречат гипотезе Н.
Возникает вопрос о том, каким же способом следует выбрать меру расхождения V? Оказывается, что при некоторых способах ее выбора закон распределения величины V обладает весьма простыми свойствами и при достаточно большом и практически не зависит от функции F(x). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.
Рассмотрим один из наиболее часто применяемых критериев согласия – так называемый «критерий c2» или «критерий Пирсона».
Предположим, что произведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение. Результаты опытов сведены в k разрядов и оформлены в виде статистического ряда:
Pi* | P1* | P2* | ............ | Pi* | ............ | Pk* |
Ji | X1,X2 | X2,X3 | ............ | Xi,Xi+1 | ........... | Xk,Xk+1 |
Требуется проверить, согласуются ли экспериментальные данные с гипотезой о том, что случайная величина х имеет данный закон распределения (заданный Далее возникает вопрос о том, как выбрать коэфициэнт пропорциональности .
Распределен
ия «теоретическим».
Зная теоретический закон распределения, можно найтитеоретические -вероятности попадания случайной величены в каждый из разрядов Р1,Р2,.....,Рi,.......Рк.
Проверяя согласованность еоретического и статического распределений, мы будем исходить из расхождений между теоретическими [МАЛ2] вероятностямиРi, и 8наблюдаемыми частицами Pi *.Естественно выбрать мерой схождения между теоретическим истатестическим распределениями сумму квадратов отклонений
(Pi – Pi),взятых с некоторыми весами Ci.
Коофициенты CI(веса разрядов) вводятся потому, что в общем случае отклонения, относящиеся к различным разрядам, нельзя считать равноправными по значительности .Действительно, одно и то же по абсолютной велечине отклонениеPi*-Pi может быть мало значительным, если сама вероятность Pi велика, и очень заметным, если она мала.Поэтому естественно веса Ci взять обратно пропорциональными вероятностям разрядов Pi.
Далее возникает вопрос о том, как выбрать коэфициэнт пропорциональности .
КАРЛ ПЕРЕТИ (английский математик, профессор прикладной математики лондонского университета 1857-1936) сказал, что если положить
То при больших N закон распределения величины U обладает весьма простыми свойствами: он практически не зависит от функции распределения F(X) и от числа опытов и, а зависит только от числа разрядов K, а именно, этот закон при увеличении и приближается к
ИЛИ введем и под знак суммы и,учитывая ,что
Где Mi- число значений в I – том разряде:
Распределение Х2зависит от параметра r, называемого числом степенейсвободыраспределения. Число степеней свободы r равно числу разрядов k минус число называемых условий(связей), наложенных на частоты pi*. ПРИМЕРАМИ ТАКИХ условий могут быть:
1.
если мы требуем только того, чтобысумма частот была равна единице
(что требование накладываетсявовсех случаях);
2
если мы требуем, кроме того, сведения теоретической и статистической дистанций и т.д.
Для распределения c2 составлены специальные таблицы. Пользуясь этими таблицами, можно для каждого значения и числа степеней свободы r найти вероятность р того, что величина, распределенная по закону Х2 превзойдетэто значение. В таблицерапределенияХ2 входами являются: значения вероятности р и числастепенейсвободы r. Числа, стоящие в таблице, представляют собойсоответствующиезначения Х2.
\
В практических применяемых теории вероятностей очень часто приходиться сталкиваться с задачами, в которых результат опыта описывается не одной случайной величиной, а двумя и более случайными величинами, образующие комплекс или систему.
Например, одна из центральных идей кибернетики (науке об управлении) является идея черного ящика.
Черный ящик может быть изобретен в следующем виде
Имеется n входных n не выходных параметров. Каждый из этих параметров является случайной величиной, все вместе они образуют комплекс или систему случайных величин.
Свойства системы нескольких случайных величин не исчерпываются свойствами отдельных величин, и ее составляющих; помимо того они включают также связи(зависимости) между случайными величинами.
(Y® -¥) ИЛИ ДЕЛАЯ ЭТО
ОДНОВРЕМЕНО С ОБЕИМИ ГРАНИЦАМИ ; ПРИ ЭТОМ ВЕРОЯТНОСТЬ ПОПОДАНИЯ В КВАДРАТ СТРЕ МИТСЯ К 0
ПРИ ОДНОМ ИЗ АРГУМЕНТОВ , =+¥ , ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ СИСТЕМЫ ПРЕВРАЩАЕТСЯ ФУНКЦИЮ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧЕНЫ , СООТВЕТСТВУЩЕЙ ДРУГОМУ АРГУМЕНТУ:
F(X,+¥)=F1(X)
F(+¥,U)=F2(Y)
Вероятность попадания случайной точки в
прямоугольник R .
П РИ расмотрении ЗАКОНОВ распределения отдельных случайных величин мы вывели выражение для вероятности попадания случайной величины в пределы заданного участка .
Аналогичным вопросом для системы двух случайных величин является вопрос о вероятности попадания случайной точки (x, y)в пределы заданной области D НА плоскости xoy
|
|
|
Событие , состоящее в попадание случайной точки (x,y) в область D обозначается (x,y ) Ì D.
Вероятность попадания случайной точки в заданную область выражается наиболее просто в том случае , когда эта область представляет собой прямоугольник со сторанами , параллельными координатными осями .
Выразим через функцию распределения системы вероятность попадания случайной точки (x,y) в прямоугольник R , ОГРАНИЧЕнный абциссами a и b и ординатами .
При этом следует условится , куда мы будем относить границы прямоугольника . Анологично окну , как мы делали для одной случайной величины , условимся включать в прямоугольник R ЕГО нижнею и левую границы и не включать верхнию и правою . ТОГДА событие (х,у) Ì R будет равносильно произведению двух событий aÍ х <b и gÍ у <d .
Выразим вероятность этого события через функцию распределения системы. Для этого рассмотрим на плоскости хоу четыре бесконечных квандранта с вершинами в точках (b,d);(a,d);(b,g);(a,g).
|
|
|
|
Плюс вероятности попадания в квадрант (a,g) (так как мы дважды вычли вероятность попадания в этот квадрант ). Отсюда получаем формулу, выражающую вероятность попадания в прямоугольник через функцию распределения системы:
P((x,y) Ì R)=F(b,d)-F(a,d)-F(b,g)+F(a,g).
Плотность распределения системы двух случайных величин.
Функция распределения системы двух случайных величин существует для систем любых случайных величин, как прерывных, так и непрерывных. Условное практическое значение имеет систему непрерывных случайных величин. Распределение системы непрерывных величин обычно характеризуют не функцией распределения, а плотностью распределения.
Вводя в рассмотрение плотность распределентя для одной случайной величины мы определяем её как предел отношения вероятности попадания на малый участок к длине этого участка при её неограниченном уменьшении. Аналогично определим плотность распределения системы двух величин.
Пусть имеется система двух непрерывных величин (х,у), которая интерпретируется случайной точкой на плоскости хоу. Рассмотрим на этой плоскости малый прямоугольник R со сторонами дельта х и у, примыкающий к точке с координатами х,у.
Вероятность попадания в этот прямоугольник равна
P((x,y)<R)=F(x+Dx, y+Dy)-F(x+Dx,y)-F(x,y+Dy)+F(x,y)
Разделим вероятность попадания в прямоугольник R на площадь этого прямоугольника перейдем к пределу при Dх®0 и Dу®0
Предположим, что функция F(x,y) не только непрерывна, но и деференцируема: тогда правая часть формулы представляет собой вторую симетричную часть производной функции F(x,y) по х и у.
Обозначим эту производную f (x,y):
Функция f (x,y) называется плотностью распределения.
Т.о., плотность распределения системы проедставляет собой предел отношения вероятности поподания в малый прямоугольник к площади этого прямоугольника, когда оба его размера стремятся к нулю.
Геометрически функцию f(x,y) можно изобразить некоторой поверхностью
Эта поверхность аналогична кривой распределения для одной случайной величины и называется поверхностью распределения.
Если пересечь поверхность распределения f (x,y) плоскостью параллельной хоу и спроектировать полученное сечение на плоскость хоу, получится кривая, в каждой точке, которой плотность распределения постоянна. Такие кривые называются кривыми равной плотности. Кривые равной плотности очевидно представляют собой поверхностью распределения. Часто бывает удачно задавать распределение семействам кривых равной плотности
Рассматривая плотность распределения f(x) для одной случайной величины, мы ввели понятие «элемента вероятности » f(x)dx.
Это есть вероятность попадания случайной величины х на элементарный участок dx, прилегающий к точке х.
Аналогичное понятие «элемента вероятности» вводится и для системы двух случайных величин. элементом вероятности в данном случае называется выражение
F (x,y)dxdy.
Очевидно, элементом вероятности есть нечто иное, как вероятность попадания в элементарный прямоугольник со сторонами dx,dy, примыкающий к точке х,у.