Статистическая зависимость. Диаграмма рассеяния

Две случайные величины связаны статистически, если распределение одной зависит от значения, которое принимает другая (для сравнения: связаны функционально, если значение одной зависит от значения другой; при функциональной зависимости любому значению одной величины жестко соответствует некоторое значение другой).

Частный случай статистической связи – корреляционная, при которой среднее значение одной случайной величины зависит от значения другой (на рис. – слева). Справа показаны статистически связанные величины, которые не коррелированны – среднее значение y для всех x постоянно; однако распределение все же изменяется – увеличивается дисперсия (разброс) y. Для получения представления о наличии статистической связи используют диаграмму рассеяния (на рис.): каждая точка соответствует паре значений (x, y) одной единицы совокупности, например, (рост, вес) одного человека.

Статистическая зависимость. Диаграмма рассеяния - student2.ru y                      
                     
                   
             
Статистическая зависимость. Диаграмма рассеяния - student2.ru                  
                 
                           
                            x

Коэффициент корреляции

Для корреляционной связи двух величин существует оценка ее величины – коэффициент корреляции.

Статистическая зависимость. Диаграмма рассеяния - student2.ru

Свойства коэффициента корреляции:

1) для всех случаев значения находятся в интервале [–1,1];

2) для независимых величин равен нулю (обратное не обязательно верно!);

3) для связанных линейным соотношением y = kx + b он равен 1 или –1.

О силе связи судят по абсолютному значению коэффициента корреляции – чем оно больше, тем связь сильнее.

Найти коэффициент корреляции для случаев:

x
y

M x = 2, M y = 7; R = -1

x
y

M x = 1, M y = 5; R = 1

Функция регрессии. Уравнение линейной регрессии

Для двух случайных величин x и y регрессией называется любая функция f(x), приближенно представляющая статистическую зависимость y от x.

Например, существует функция Статистическая зависимость. Диаграмма рассеяния - student2.ru , которая каждому x ставит в соответствие среднее значение y. Наилучшим прогнозом для случайной величины, при котором мы меньше всего будем ошибаться, является ее среднее. Рассмотрим выборку: 6, 12, 6, 8. Чаще всего в ней встречается значение 6. Оценим среднюю ошибку, которую мы получали бы, если каждый раз использовали в качестве прогноза 6:

Ош = 1/4 (0 + -6 + 0 + -2) = -2

А при использовании среднего значения 8:

Ош = 1/4 (-2 + 4 + -2 + 0) = 0

Чаще всего эту функцию приближенно представляют простой функцией, например, много­членом, прямой. Регрессия вида y = ax + b, называется линейной. Уравнение линейной регрессии:

Статистическая зависимость. Диаграмма рассеяния - student2.ru

Наши рекомендации