Ковариация (корреляционный момент) и коэффициент корреляции
Условные законы распределения
Для дискретных величин были введены условные вероятности по формулам
и .
Для непрерывных величин аналогично вводятся плотности для условных законов распределения
и .
Числовые характеристики составляющих и двумерной случайной величины можно найти по формулам
,
,
,
.
Аналогичные характеристики можно ввести и для условных распределений, например, условные математические ожидания
, .
Условное математическое ожидание будет функцией от :
, (1)
и наоборот, условное математическое ожидание будет функцией от :
. (2)
Функции (1) и (2) называются функциями регрессии: (1) − на , а (2) − на . Графики этих функций называются линиями регрессии или кривыми регрессии.
Зависимые и независимые случайные величины
Определение. Случайные величины и называются независимыми, если условные законы любой из них совпадают с безусловными:
для дискретных случайных величин
, т.е. ,
для непрерывных
, т.е. .
Таким образом, плотность вероятности совместного распределения системы равна произведению плотностей распределения составляющих. Это условие является не только необходимым, но и достаточным для непрерывных случайных величин. Точнее, имеет место следующая теорема.
Теорема (критерий независимости случайных величин). Для того, чтобы случайные величины и были независимыми необходимо и достаточно, чтобы функция распределения системы была равна произведению функций распределения составляющих:
.
Кроме того, для непрерывных величин это условие равносильно следующему
.
(Доказательство см. в [1].)
Для независимых случайных величин , т.е. функция регрессии , , т.е. функция регрессии , а значит, линии регрессии −прямые, параллельные координатным осям.
Пример. Задана плотность вероятности совместного распределения системы
Найдем
.
.
Мы видим, что , т.е. случайные величины и являются независимыми.
Ковариация (корреляционный момент) и коэффициент корреляции
Для двумерной случайной величины характеристики ее составляющих и , , , никак не отражают зависимости между и или ее отсутствия. Поэтому вводится еще одна числовая характеристика − корреляционный момент или ковариация.
Определение. Ковариацией или корреляционным моментом случайных величин и называется математическое ожидание произведения отклонений этих величин от их математических ожиданий:
.
Используя формулы для математических ожиданий, получаем
для дискретных величин ,
для непрерывных величин .
Ковариация характеризует зависимость величин.
Свойства корреляционного момента
1. Для независимых случайных величин и .
2. Если , то случайные величины и зависимы.
3. . (Для доказательства достаточно раскрыть скобки под знаком математического ожидания в определении.) В частности
для дискретных величин ,
для непрерывных величин .
4. . (Свойство сразу вытекает из 3.)
5. . (Выразите дисперсию через математические ожидания.)
6. .
7. . (Доказательство этого свойства можно найти в [1, гл.14, § 17].)
Ковариация имеет размерность произведения размерностей случайных величин и и зависит от того, в каких единицах измерялись величины. Для получения безразмерной характеристики вводится понятие коэффициента корреляции.
Определение. Коэффициентом корреляции случайных величин и называется отношение корреляционного момента к произведению средних квадратических отклонений этих случайных величин:
.
Свойства коэффициента корреляции
1. Для независимых случайных величин и .
2. . Коэффициент корреляции по абсолютной величине не превосходит единицы.
3. Если , то случайные величины и связаны линейной зависимостью, т.е. .
Определение. Случайные величины и называются некоррелированными, если , и коррелированными, если .
Следует помнить, что понятия некоррелированности и независимости не совпадают, несмотря на внешнее сходство. Независимые величины − некоррелированные, но обратное неверно. Коррелированные величины − зависимые, но обратное неверно. Любые коррелированные величины всегда зависимые, любые независимые величины всегда некоррелированные. Это можно отразить на двудольном графе.
Пример. У случайных величин и , , , , . Найдите и .
Решение. .
.
Ответ. , .
В заключение рассмотрим пример на вычисление всех характеристик системы случайных величин.
Пример. Задан закон распределения системы случайных величин :
Найдите значение параметра . Найдите законы распределения составляющих и . Найдите условные законы распределения составляющих. Найдите , , , , , , .
Решение. а) Согласно свойству совместной плотности вероятности системы случайных величин (свойство 4 из §10) для заданной плотности также
, т.е. . Вычислим интеграл:
. Следовательно, .
Итак, плотность вероятности имеет вид
б) Законы распределения составляющих и найдем по формулам:
− плотность вероятности составляющей и
− плотность вероятности составляющей .
Если , то , а при
, поэтому
Аналогично, если , то , а при
, поэтому
в) Условные законы распределения составляющих и найдем по формулам:
и .
при , т.е.
при , т.е.
г) Математическое ожидание найдем по формуле
, а т.к. отлична от 0 только в области , то
.
Аналогично, .
Для вычисления дисперсии найдем . А т.к. отлична от 0 только в области , то
.
.
Аналогичные вычисления для дают .
Средние квадратические отклонения и .
д) Математическое ожидание найдем по формуле
. А т.к. отлична от 0 только в области , то
.
е) Корреляционный момент найдем по формуле .
.
Коэффициент корреляции вычисляется по формуле .
.
Так как коэффициент корреляции отличен от 0, случайные величины и коррелированные, а значит, зависимые.
Ответ. ,
,
, , , ,
, , .
Замечание. Симметричные значения для составляющих в данном примере получились благодаря симметричности плотности совместного распределения и области . В общем случае таких совпадений не будет.
Закон больших чисел
В 1913 г. В России был отмечен необычный юбилей − двухсотлетие закона больших чисел. В 1913 г. Была переведена на русский язык «Часть четвертая сочинения Я. Бернулли», опубликованного в 1713 г. через 8 лет после его смерти. Само название «закон больших чисел» принадлежит Пуассону (1781 − 1840).
Что такое «закон больших чисел»?
Под «законом больших чисел» в широком смысле слова понимается общий принцип, согласно которому (по словам А.Н. Колмогорова) совокупное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.
В узком (математическом) смысле слова закон больших чисел – это ряд теорем, в которых при тех или иных условиях устанавливается факт приближения средних характеристик большого числа испытаний к некоторым определенным постоянным.
Для каждой случайной величины нельзя предвидеть, какое она примет значение в итоге испытания. Но поведение суммы большого числа случайных величин почти утрачивает случайный характер и становится закономерным, здесь необходимое прокладывает себе дорогу сквозь множество случайностей.
Исторически первой формулировкой больших чисел считается теорема Бернулли, опубликованная в 1713 г. В дальнейшем были получены более простые её доказательства, основанные на неравенстве Чебышева[1].
Теорема Бернулли(современная формулировка).
При неограниченном числе испытаний в схеме Бернулли относительная частота (частость) появления события стремится по вероятности к вероятности события :
.
Теорема(неравенство Чебышева). Для любого и любой случайной величины , имеющей математическое ожидание и дисперсию , вероятность того, что случайная величина отклонится от не меньше чем на меньше либо равна :
. (1)
Доказательство(для непрерывной случайной величины): ○
. ●
− это верхняя граница вероятности, она может быть достаточно большой, существенно больше 1.
Так как события и противоположные, то другая форма неравенства Чебышева
. (2)
Здесь дается нижняя оценка вероятности рассматриваемого события.
Пример.Для любой случайной величины по неравенству Чебышева получаем
, в то время как для нормально распределённой величины , т. е. оценка по неравенству Чебышева менее точная, но применимая для всех без исключения случайных величин.
Теорема Чебышева.Если − попарно независимые случайные величины с равномерно ограниченными дисперсиями, т.е. , то при неограниченном увеличении их среднее арифметическое стремится по вероятности к среднему арифметическому их математических ожиданий: ,
т.е. для любого .
Доказательство. ○ По неравенству Чебышева , т.к. . ●
Таким образом, при большом числе случайных величин их среднее арифметическое − случайная величина, сколь угодно мало отличающаяся от постоянной величины , т.е. практически перестает быть случайной. В частности, если величины одинаково распределены , то .
Теорема Чебышева имеет важное практическое значение: при измерении некоторой величины , истинное значение которой неизвестно, проводят независимых измерений . Тогда . Этим обосновывается выбор среднего арифметического в качестве меры истинного значения .
Смысл теоремы Чебышева заключается в том, что хотя отдельные независимые величины могут принимать значения, далекие от своих математических ожиданий среднее арифметическое большого числа случайных величин с большой вероятностью принимает значение, близкое к некоторой константе, а именно к . Например, при измерении физической величины проводят несколько независимых измерений и их среднее арифметическое принимают в качестве истинного размера.
К числу теорем закона больших чисел относится и центральная предельная теорема Ляпунова[2]
Теорема(центральная предельная теорема Ляпунова). Распределение суммы попарно независимых случайных величин приближается к нормальному, если:
1. все эти величины имеют конечные математические ожидания и дисперсии
2. ни одна из величин по своим значениям резко не отличается от остальных.
Пример.В университете, куда ежедневно приходят 6400 студентов, имеется 2 входа. Каждый студент с вероятностью 0,5 заходит в любой из них и сдает пальто в соответствующий гардероб. Сколько вешалок должно быть в каждом гардеробе, чтобы с вероятностью, большей 0,997 их хватило?
Решение. С каждым студентом свяжем случайную величину , которая примет значение 1, если студент заходит с первого входа и 0 в противном случае. Тогда количество студентов, зашедших с первого входа и сдающих пальто в соответствующий гардероб, равно . Законы распределения составляющих, очевидно, таковы
0,5 | 0,5 |
Так как сумма большого числа одинаково распределенных величин по теореме Ляпунова подчиняется нормальному закону распределения, то , поэтому достаточно вешалок в промежутке , т.е. .
Ответ. 3320 вешалок.
[1] Пафнутий Львович Чебышёв (1821 −1894) − русский математик и механик, его работы по теории вероятностей имели огромное значение для развития математики.
[2] Александр Михайлович Ляпунов (1857 − 1918) − русский математик и механик, выдающийся представитель петербургской математической школы, созданной П.Л. Чебышевым.