Приведены основы теории и пример решения задачи.
Тема 2. Коэффициент корреляции и линейная регрессия.
1) Пусть нам даны 2 выборки: и объема n. Как оценить силу связи этих переменных?
Решение этой задачи впервые было предложено Пирсоном, который использовал для этого коэффициент корреляции. Коэффициент корреляции Пирсона:
Здесь:
- выборочная ковариация.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
2. Связь между случайными величинами называется статистической связью. Наличие такой связи заключается в том, что изменение одной из переменных служит причиной для изменения другой. Это можно записать в виде уравнения регрессии y = f(x)+ε. Уравнение регрессии – это формула статистической связи между переменными. Формула статистической связи двух переменных называется парной регрессией и в случае рассмотрения линейной регрессии имеет вид:
=a+b +ε – модель парной регрессии.
Чаще всего, Y – зависимая, объясняемая переменная, а Х – независимая, объясняющая переменная.
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки линейных параметров регрессий используют метод наименьших квадратов (МНК). Данный метод позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна, т.е. .
Можно воспользоваться готовыми формулами:, ,
Для оценки качества модели используется коэффициент детерминации R.2 . Коэффициент детерминации R2 показывает, какая часть (доля) дисперсии результативного признака Y, обусловлена вариацией объясняющей переменной X. Показатель (1-R2) характеризует долю дисперсии , вызванную влиянием остальных, не учтенных в модели факторов. Заметим, что коэффициент детерминации R2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии. В случае линейной регрессии R2 = r2 xy . Коэффициент детерминации (в случае нелинейной регрессии – индекс)
Здесь:
Полная сумма квадратов отклонений (общий разброс зависимой переменной)
Сумма квадратов отклонений регрессии ( разброс, объясняемый регрессией )
Остаточная сумма квадратов отклонений (разброс, не объясняемый регрессией)
где yi –фактические значения зависимой переменной, - вычисленные по модели регрессии, - среднее значение зависимой переменной
Если R2 незначителен, то следует исследовать другие виды зависимостей.