Статистическая зависимость. Диаграмма рассеяния
Две случайные величины связаны статистически, если распределение одной зависит от значения, которое принимает другая (для сравнения: связаны функционально, если значение одной зависит от значения другой; при функциональной зависимости любому значению одной величины жестко соответствует некоторое значение другой).
Частный случай статистической связи – корреляционная, при которой среднее значение одной случайной величины зависит от значения другой (на рис. – слева). Справа показаны статистически связанные величины, которые не коррелированны – среднее значение y для всех x постоянно; однако распределение все же изменяется – увеличивается дисперсия (разброс) y. Для получения представления о наличии статистической связи используют диаграмму рассеяния (на рис.): каждая точка соответствует паре значений (x, y) одной единицы совокупности, например, (рост, вес) одного человека.
y | ● | ● | ● | ○ | ||||||||||||
● | ● | ● | ● | ○ | ○ | |||||||||||
● | ● | ● | ● | ○ | ○ | ○ | ||||||||||
● | ● | ● | ● | ● | ○ | ○ | ○ | ○ | ○ | |||||||
● | ○ | ○ | ○ | ○ | ○ | ○ | ||||||||||
● | ● | ● | ○ | ○ | ○ | ○ | ○ | |||||||||
● | ○ | ○ | ||||||||||||||
x |
Коэффициент корреляции
Для корреляционной связи двух величин существует оценка ее величины – коэффициент корреляции.
Свойства коэффициента корреляции:
1) для всех случаев значения находятся в интервале [–1,1];
2) для независимых величин равен нулю (обратное не обязательно верно!);
3) для связанных линейным соотношением y = kx + b он равен 1 или –1.
О силе связи судят по абсолютному значению коэффициента корреляции – чем оно больше, тем связь сильнее.
Найти коэффициент корреляции для случаев:
x | |||
y |
M x = 2, M y = 7; R = -1
x | |||
y |
M x = 1, M y = 5; R = 1
Функция регрессии. Уравнение линейной регрессии
Для двух случайных величин x и y регрессией называется любая функция f(x), приближенно представляющая статистическую зависимость y от x.
Например, существует функция , которая каждому x ставит в соответствие среднее значение y. Наилучшим прогнозом для случайной величины, при котором мы меньше всего будем ошибаться, является ее среднее. Рассмотрим выборку: 6, 12, 6, 8. Чаще всего в ней встречается значение 6. Оценим среднюю ошибку, которую мы получали бы, если каждый раз использовали в качестве прогноза 6:
Ош = 1/4 (0 + -6 + 0 + -2) = -2
А при использовании среднего значения 8:
Ош = 1/4 (-2 + 4 + -2 + 0) = 0
Чаще всего эту функцию приближенно представляют простой функцией, например, многочленом, прямой. Регрессия вида y = ax + b, называется линейной. Уравнение линейной регрессии: