Центральная предельная теорема
Нетрудно доказать, что сумма любого конечного числа независимых нормально распределенных случайных величин также распределена по нормальному закону.
Если независимые случайные величины не распределены по нормальному закону, то можно наложить на них некоторые весьма нежесткие ограничения, и их сумма будет все-таки распределена нормально.
Эту задачу поставили и решили в основном русские ученые П. Л. Чебышев и его ученики А. А. Марков и А. М. Ляпунов.
Теорема (Ляпунов).
Если независимые случайные величины имеют конечные математические ожидания и конечные дисперсии , число их достаточно велико, а при неограниченном возрастании
,
где - абсолютные центральные моменты третьего порядка, то сумма их с достаточной степенью точности имеет распределение
(Фактически мы приводим не теорему Ляпунова, а одно из следствий из нее, так как этого следствия вполне достаточно для практических приложений.Поэтому условие , которое названо условием Ляпунова, является более сильным требованием, чем необходимо для доказательства собственно теоремы Ляпунова.)
Смысл условия состоит в том, что действие каждого слагаемого (случайной величины) невелико по сравнению с суммарным действием их всех. Многие случайные явления, встречающиеся в природе и в общественной жизни, протекают именно по такой схеме. В связи с этим теорема Ляпунова имеет исключительно большое значение, а нормальный закон распределения является одним из основных законов в теории вероятностей.
Пусть, например, производится измерение некоторой величины . Различные уклонения наблюдаемых значений от истинного ее значения (математического ожидания) получаются в результате воздействия очень большого числа факторов, каждый из которых порождает малую ошибку , причем . Тогда суммарная ошибка измерения является случайной величиной, которая по теореме Ляпунова должна быть распределена по нормальному закону.
При стрельбе из орудия под влиянием очень большого числа причин случайного характера происходит рассеяние снарядов на некоторой площади. Случайные воздействия на траекторию снаряда можно считать независимыми. Каждая причина вызывает лишь незначительное изменение траектории по сравнению с суммарным изменением под воздействием всех причин. Поэтому следует ожидать, что отклонение места разрыва снаряда от цели будет случайной величиной, распределенной по нормальному закону.
По теореме Ляпунова мы вправе ожидать, что, например, рост взрослого мужчины является случайной величиной, распределенной по нормальному закону. Эта гипотеза, как и рассмотренные в предыдущих двух примерах, хорошо согласуется с наблюдениями. В подтверждение приведем распределение по росту 1000 взрослых рабочих мужчин и соответствующие теоретические численности мужчин, т. е. число мужчин, которые должны иметь рост указанных групп, если исходить из предположения о распределении роста мужчин по нормальному закону.
Рост, см | количество мужчин | |
экспериментальные данные | теоретические прогнозы | |
143—146 | ||
146—149 | ||
149—152 | ||
152—155 | ||
155—158 | ||
158— 161 | ||
161— 164 | ||
164—167 | ||
167—170 | ||
170—173 | ||
173—176 | ||
176—179 | ||
179 —182 | ||
182—185 | ||
185—188 |
Более точного совпадения экспериментальных данных с теоретическими трудно было ожидать.
Можно легко доказать как следствие теоремы Ляпунова - предложение, которое будет необходимо в дальнейшем для обоснования выборочного метода.
Предложение.
Сумма достаточно большого числа одинаково распределенных случайных величин имеющих абсолютные центральные моменты третьего порядка, распределена по нормальному закону.
Предельные теоремы теории вероятностей, теоремы Муавра-Лапласа объясняют природу устойчивости частоты появлений события. Природа эта состоит в том, что предельным распределением числа появлений события при неограниченном возрастании числа испытаний (если вероятность события во всех испытаниях одинакова) является нормальное распределение.
Система случайных величин.
Рассмотренные выше случайные величины были одномерными, т.е. определялись одним числом, однако, существуют также случайные величины, которые определяются двумя, тремя и т.д. числами. Такие случайные величины называются двумерными, трехмерными и т.д.
В зависимости от типа, входящих в систему случайных величин, системы могут быть дискретными, непрерывными или смешанными, если в систему входят различные типы случайных величин.
Более подробно рассмотрим системы двух случайных величин.
Определение. Законом распределения системы случайных величин называется соотношение, устанавливающее связь между областями возможных значений системы случайных величин и вероятностями появления системы в этих областях.
Пример. Из урны, в которой находятся 2 белых и три черных шара вынимают два шара. Пусть - число вынутых белых шаров, а случайная величина определяется следующим образом:
Составим таблицу распределения системы случайных величин :
\ | |||
Поскольку - вероятность того, что белых шаров не вынуто (значит, вынуто два черных шара), при этом , то
.
Вероятность - вероятность того, что вынут один белый шар (и, значит, один черный), при этом , тогда
.
Вероятность - вероятность того, что вынуто два белых шара (и, значит, ни одного черного), при этом , тогда
.
Вероятность - вероятность того, что белых шаров не вынуто (и, значит, вынуто два черных шара), при этом , тогда
.
Вероятность - вероятность того, что вынут один белый шар (и, значит, один черный), при этом , тогда
.
Вероятность - вероятность того, что вынуто два белых шара (и, значит, ни одного черного), при этом , тогда
.
Таким образом, ряд распределения двумерной случайной величины имеет вид:
\ | |||
0,3 | 0,6 | ||
0,1 |
Определение. Функцией распределения системы двух случайных величин называется функция двух аргументов F(x, y), равная вероятности совместного выполнения двух неравенств X<x, Y<y.
Отметим следующие свойства функции распределения системы двух случайных величин:
1) ;
2) Функция распределения является неубывающей функцией по каждому аргументу:
3) Верно следующее:
4)
5) Вероятность попадания случайной точки (X, Y) в произвольный прямоугольник со сторонами, параллельными координатным осям, вычисляется по формуле:
Плотность распределения системы двух случайных величин.
Определение. Плотностью совместного распределения вероятностей двумерной случайной величины (X, Y) называется вторая смешанная частная производная от функции распределения.
Если известна плотность распределения, то функция распределения может быть найдена по формуле:
Двумерная плотность распределения неотрицательна и двойной интеграл с бесконечными пределами от двумерной плотности равен единице.
По известной плотности совместного распределения можно найти плотности распределения каждой из составляющих двумерной случайной величины.
; ;
Условные законы распределения.
Как было показано выше, зная совместный закон распределения можно легко найти законы распределения каждой случайной величины, входящей в систему.
Однако, на практике чаще стоит обратная задача – по известным законам распределения случайных величин найти их совместный закон распределения.
В общем случае эта задача является неразрешимой, т.к. закон распределения случайной величины ничего не говорит о связи этой величины с другими случайными величинами.
Кроме того, если случайные величины зависимы между собой, то закон распределения не может быть выражен через законы распределения составляющих, т.к. должен устанавливать связь между составляющими.
Все это приводит к необходимости рассмотрения условных законов распределения.
Определение. Распределение одной случайной величины, входящей в систему, найденное при условии, что другая случайная величина приняла определенное значение, называется условным законом распределения.
Условный закон распределения можно задавать как функцией распределения так и плотностью распределения.
Условная плотность распределения вычисляется по формулам:
Условная плотность распределения обладает всеми свойствами плотности распределения одной случайной величины.
Условное математическое ожидание.
Определение. Условным математическим ожиданиемдискретной случайной величины Y при X = x (х – определенное возможное значение Х) называется произведение всех возможных значений Y на их условные вероятности.
Для непрерывных случайных величин:
,
где f(y/x) – условная плотность случайной величины Y при X=x.
Условное математическое ожидание M(Y/x)=f(x) является функцией от х и называется функцией регрессии Х на Y.
Пример. Найти условное математическое ожидание составляющей Y при
X= x1=1 для дискретной двумерной случайной величины, заданной таблицей:
Y | X | |||
x1=1 | x2=3 | x3=4 | x4=8 | |
y1=3 | 0,15 | 0,06 | 0,25 | 0,04 |
y2=6 | 0,30 | 0,10 | 0,03 | 0,07 |
Аналогично определяются условная дисперсия и условные моменты системы случайных величин.
Зависимые и независимые случайные величины.
Определение. Случайные величины называются независимыми, если закон распределения одной из них не зависит от того какое значение принимает другая случайная величина.
Понятие зависимости случайных величин является очень важным в теории вероятностей.
Условные распределения независимых случайных величин равны их безусловным распределениям.
Определим необходимые и достаточные условия независимости случайных величин.
Теорема. Для того, чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы функция распределения системы (X, Y) была равна произведению функций распределения составляющих.
Аналогичную теорему можно сформулировать и для плотности распределения:
Теорема. Для того, чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы плотность совместного распределения системы (X, Y) была равна произведению плотностей распределения составляющих.
Определение. Корреляционным моментом mxyслучайных величин Х и Y называется математическое ожидание произведения отклонений этих величин.
Практически используются формулы:
Для дискретных случайных величин:
Для непрерывных случайных величин:
Корреляционный момент служит для того, чтобы охарактеризовать связь между случайными величинами. Если случайные величины независимы, то их корреляционный момент равен нулю.
Корреляционный момент имеет размерность, равную произведению размерностей случайных величин Х и Y. Этот факт является недостатком этой числовой характеристики, т.к. при различных единицах измерения получаются различные корреляционные моменты, что затрудняет сравнение корреляционных моментов различных случайных величин.
Для того, чтобы устранить этот недостаток применятся другая характеристика – коэффициент корреляции.
Определение. Коэффициентом корреляции rxy случайных величин Х и Y называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин.
Коэффициент корреляции является безразмерной величиной. Для независимых случайных величин коэффициент корреляции равен нулю.
Свойство: Абсолютная величина корреляционного момента двух случайных величин Х и Y не превышает среднего геометрического их дисперсий.
Свойство: Абсолютная величина коэффициента корреляции не превышает единицы.
Случайные величины называются коррелированными, если их корреляционный момент отличен от нуля, и некоррелированными, если их корреляционный момент равен нулю.
Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости.
Если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными.
Часто по заданной плотности распределения системы случайных величин можно определить зависимость или независимость этих величин.
Наряду с коэффициентом корреляции степень зависимости случайных величин можно охарактеризовать и другой величиной, которая называется коэффициентом ковариации. Коэффициент ковариации определяется формулой:
Пример. Задана плотность распределения системы случайных величин Х и Y.
Выяснить являются ли независимыми случайные величины Х и Y.
Для решения этой задачи преобразуем плотность распределения:
Таким образом, плотность распределения удалось представить в виде произведения двух функций, одна из которых зависит только от х, а другая – только от у. Т.е. случайные величины Х и Y независимы. Разумеется, они также будут и некоррелированы.
Линейная регрессия.
Рассмотрим двумерную случайную величину (X, Y), где X и Y – зависимые случайные величины.
Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная.
Для определения этой функции остается только найти постоянные величины a и b.
Определение. Функция g(X) называется наилучшим приближением случайной величины Y в смысле метода наименьших квадратов, если математическое ожидание
принимает наименьшее возможное значение. Также функция g(x) называется среднеквадратической регрессиейY на X.
Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле:
в этой формуле mx=M(X), my=M(Y), коэффициент корреляции величин Х и Y.
Величина называется коэффициентом регрессииY на Х.
Прямая, уравнение которой
,
называется прямой сренеквадратической регрессииY на Х.
Величина называется остаточной дисперсиейслучайной величины Y относительно случайной величины Х. Эта величина характеризует величину ошибки, образующейся при замене случайной величины Y линейной функцией g(X)=aХ + b.
Видно, что если r=±1, то остаточная дисперсия равна нулю, и, следовательно, ошибка равна нулю и случайная величина Y точно представляется линейной функцией от случайной величины Х.
Прямая среднеквадратичной регрессии Х на Y определяется аналогично по формуле:
Прямые среднеквадратичной регрессии пересекаются в точке (тх, ту), которую называют центром совместногораспределенияслучайных величин Х и Y.
Линейная корреляция.
Если две случайные величины Х и Y имеют в отношении друг друга линейные функции регрессии, то говорят, что величины Х и Yсвязаны линейной корреляционной зависимостью.
Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то Х и Y связаны линейной корреляционной зависимостью.
1.Равномерный закон распределения.
На практике встречаются случайные величины, о которых заранее известно, что они могут принять какое-либо значение в строго определенных границах, причем в этих границах все значения случайной величины имеют одинаковую вероятность (обладают одной и той же плотностью вероятностей).
Например, при поломке часов остановившаяся минутная стрелка будет с одинаковой вероятностью (плотностью вероятности) показывать время, прошедшее от начала данного часа до поломки часов. Это время является случайной величиной, принимающей с одинаковой плотностью вероятности значения, которые не выходят за границы, определенные продолжительностью одного часа. К подобным случайным величинам относится также и погрешность округления. Про такие величины говорят, что они распределены равномерно, т. е. имеют равномерное распределение.
Определение. Непрерывная случайная величина Х имеет равномерное распределение на отрезке [а, в], если на этом отрезке плотность распределения вероятности случайной величины постоянна, т. е. если дифференциальная функция распределения f(х) имеет следующий вид:
Иногда это распределение называют законом равномерной плотности. Про величину, которая имеет равномерное распределение на некотором отрезке, будем говорить, что она распределена равномерно на этом отрезке.
Найдем значение постоянной с. Так как площадь, ограниченная кривой распределения и осью Ох, равна 1, то
откуда с=1/(b-a).
Теперь функцию f(x) можно представить в виде
Построим функцию распределения F(x), для чего найдем выражение F(x) на интервале [a, b]:
Графики функций f(x) и F(x) имеют вид:
Найдем числовые характеристики.
Используя формулу для вычисления математического ожидания НСВ, имеем:
Таким образом, математическое ожидание случайной величины, равномерно распределенной на отрезке [a, b] совпадает с серединой этого отрезка.
Найдем дисперсию равномерно распределенной случайной величины:
откуда сразу же следует, что среднее квадратическое отклонение:
Найдем теперь вероятность попадания значения случайной величины, имеющей равномерное распределение, на интервал (a,b),принадлежащий целиком отрезку [a, b]:
Геометрически эта вероятность представляет собой площадь заштрихованного прямоугольника. Числа а и b называются параметрами распределенияи однозначно определяют равномерное распределение.
Пример1. Автобусы некоторого маршрута идут строго по расписанию. Интервал движения 5 минут. Найти вероятность того, что пассажир, подошедший к остановке. Будет ожидать очередной автобус менее 3 минут.
Решение:
СВ- время ожидания автобуса имеет равномерное распределение. Тогда искомая вероятность будет равна:
Пример2. Ребро куба х измерено приближенно. Причем
Рассматривая ребро куба как случайную величину, распределенную равномерно в интервале (a, b), найти математическое ожидание и дисперсию объема куба.
Решение:
Объем куба- случайная величина, определяемая выражением У= Х3. Тогда математическое ожидание равно:
Дисперсия: