Ковариация и коэффициент корреляции
Пусть X и Y -две дискретные случайные величины с законами распределения
|
X
и
|
Y
Пусть для этих величин математическое ожидание равно M(X) и M(Y), а дисперсия - D(X) и D(Y). В общем случае эти величины могут быть зависимыми и математическое ожидание для произведения величин X и Y должно вычисляться по формуле
M(X×Y)=Spij×xiyj,
ij
В данном выражении pij× - вероятность того, что величины X и Y одновременно примут значения xi и yj. Для независимых случайных величин
pij= pi× gj
Ковариацией случайных величин X и Y называют математическое ожидание произведения центрированных случайных величин
· ·
Cov(X, Y)=M(X×Y)=M([X-M(X)]×[Y-M(Y)])
Для дискретных случайных величин X и Y
· ·
Cov(X, Y)=M(X×Y)= Spij×[xi- M(X)]×[yj- M(Y)]
ij
Если в определении ковариации раскрыть скобки, получим:
Cov(X, Y)= M([X-M(X)]×[Y-M(Y)])=
=M([X×Y-M(X)×Y-M(Y)×X+M(X)×M(Y)]=
= M(X×Y)-2 M(X)×M(Y)+M(X)×M(Y)=
== M(X×Y)-M(X)×M(Y)
Таким образом, мы получили для ковариации выражение, уже использованное ранее при доказательстве формулы для дисперсии суммы двух случайных величин. Как уже отмечалось, в случае, если X и Y - независимые величины, то Cov(X, Y)=0.
Ковариация нормированных случайных величин
Ù Ù
X=X/s(X) и Y=Y/s(Y)
называется коэффициентом корреляции.
Ù Ù
r( X, Y)= Cov(X, Y)=Cov(X, Y)/s(X)/s(Y)
Так же, как и ковариация, коэффициент корреляции обращается в 0, если величины X и Y независимы. Вместе с тем, обратное верно не всегда, то есть и для зависимых величин возможна ситуация, когда коэффициент корреляции равен 0.
Сверху значения модуля коэффициента корреляции ограничены единицей
|r(X, Y)|£1
Рассмотрим выражение
Ù Ù Ù Ù Ù Ù
D(X + Y)= D(X)+ D(Y)+2 Cov(X, Y)=2×[1+r(X, Y)]³0
Дисперсия не может быть отрицательной, поскольку в нее входят квадраты отклонений и неотрицательные вероятности. Для того, чтобы это условие было выполнено, необходимо, чтобы заключительное выражение в скобках было неотрицательным, то есть коэффициент корреляции обязан быть по модулю не больше единицы.
Равенство коэффициента корреляции единице выполняется только в том случае, когда величины X и Y связаны между собой линейной зависимостью
Пусть
|r(X, Y)|=1
Тогда
Ù Ù
D(X + Y)=0,
следовательно
Ù Ù
X + Y=C= const,
и
Ù Ù
Y= C +X, Y= C +s(Y)/s(X)×X,
то есть величины связаны линейно.
С другой стороны, если величины связаны линейной зависимостью
Y= aX+b,
то
M(Y)=aM(X)+b, D(Y)=a2D(X),
M(X×Y)= M(X×(aX+b))= aM(X2)+bM(X)
M(X)×M(Y)= a(M(X))2+bM(X)
и
Ù Ù
r( X, Y)= Cov(X, Y)=Cov(X, Y)/s(X)/s(Y)=
=[M(X×Y)- M(X)×M(Y)]/s(X)/s(Y)= a·D(X)/(s(X)×s(X)×|a|)
Результат равен 1 при a ³0 и –1 при a <0
Непрерывные случайные величины.
Функция распределения и плотность вероятности непрерывной случайной величины
Дискретные случайные величины определены на множестве элементарных исходов, которое является конечным или счетным. Однако возможны ситуации, когда случайная величина принимает непрерывный ряд значений. В этой ситуации в качестве закона распределения можно ввести функцию распределения вероятностей случайной величины. Мы вводили такую функцию для дискретного случая, и теперь можем написать ее для непрерывной случайной величины.
Как и в дискретном случае, под функцией распределения будем понимать функцию F(x), определяющую вероятность того, что случайная величина X примет значение, меньшее чем x.
F(x)=P(X<x), -¥<x<¥
Функция распределения непрерывной случайной величины является дифференцируемой. Производная функции распределения
f(x)=dF(X)/dx
является кусочно-непрерывной и носит название плотности вероятности.
Будем говорить, что задана непрерывная случайная величина X, если задан ее закон распределения в виде функции распределения F(X) или плотности вероятности f(x). Для этих функций выполняется целый ряд свойств :
1. 0£F(x)£1
2. F(-¥)=0, F(¥)=1
3. x2> x1, F(x2)³F(x1) - функция F(x) является неубывающей
x
4. F(x)=P(-¥<X<x)= ∫ f(t)×dt
-¥
5. f(x) ³0
x2
6. P(x1<x<x2)= ∫f(t)×dt= F(x2)- F(x1)
x1
¥
7. P(-¥<x<¥)= ∫f(t)×dt=1
-¥
8. P(X=x0)=0
Таким образом, зная закон распределения, всегда можно определить для случайной величины вероятность попасть в заданный интервал, однако в силу того, что случайная величина принимает бесконечно много значений, вероятность каждого конкретного значения равна 0.