Уравнение регрессии. Коэффициент корреляции
Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины от одной или нескольких других величин.
Кроме функциональной зависимости, которую мы рассматривали в третьей главе, существуют и другие виды зависимостей.
Определение 7.1.1. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой.
Определение 7.1.2. Корреляционной называют такую статистическую зависимость, когда при изменении одной из величин, изменяется среднее значение (математическое ожидание) другой.
Зная закон распределения двумерной случайной величины (Х, Y) можно найти так называемое модельное уравнение регрессии (или просто уравнение регрессии). На практике исследователь, как правило, располагает лишь выборкой пар значений (xi, yi) ограниченного объема. Первым этапом статистической обработки полученных результатов является составление корреляционной таблицы. В качестве примера рассмотрим следующую таблицу:
Таблица 1.
Y | 5–10 | 10–15 | 15–20 | 20–25 | ni | |
Х | yj xi | 7,5 | 12,5 | 17,5 | 22,5 | |
20–25 25–30 30–35 35–40 | 22,5 27,5 32,5 37,5 | – – | – | – | – – – | |
nj | n=20 |
По результатам наблюдений строят эмпирический аналог генерального уравнения линейной регрессии – выборочное уравнение линейной регрессии Y по Х:
,
где , х – переменные,
– соответствующие выборочные средние,
– выборочный коэффициент регрессии Y по Х, показывающий на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу,
где, в свою очередь, ,
– выборочная дисперсия переменной Х,
– выборочный корреляционный момент или выборочная ковариация.
Аналогично строится выборочное уравнение линейной регрессии Y по Х:
,
здесь только
– выборочный коэффициент регрессии Х по Y, показывающий на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу,
– выборочная дисперсия переменной Y, .
Графиком уравнения регрессии является выборочная кривая регрессии.
Рассмотрим линейную корреляционную зависимость Y от Х (уравнение регрессии Y по Х).
Определение 7.1.3.Показателем тесноты линейной связи зависимости Y от Х, является выборочный коэффициент корреляции (или просто коэффициент корреляции):
,
где – выборочная дисперсия переменной Х, – выборочная дисперсия переменной Y.
Коэффициент корреляции показывает на сколько величин изменится в среднем Y, когда Х увеличится на одно .
Справедливы также следующие формулы для коэффициента корреляции:
;
;
(здесь r имеет знак «+», если оба коэффициента регрессии имеют знак «+» и знак «–», в других случаях);
;
.
Примечание. Если данные не сгруппированы в виде корреляционной таблицы и представляют n пар чисел (xi, yi), то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах следует взять nij=ni=nj=1, а заменить на
Пример 7.1.1. По данным таблицы 1 найти: а) уравнения регрессии Y по Х и Х по Y, б) коэффициент корреляции между Y и Х.
○
а) ,
,
,
,
,
,
,
, .
Запишем теперь уравнения регрессии:
Y по Х: . Подставив найденные значения, получим:
, откуда .
Х по Y: ,
,
.
Найдем коэффициент корреляции:
●
Ранговая корреляция.