Приведены основы теории и пример решения задачи.

Тема 2. Коэффициент корреляции и линейная регрессия.

1) Пусть нам даны 2 выборки: Приведены основы теории и пример решения задачи. - student2.ru и Приведены основы теории и пример решения задачи. - student2.ru объема n. Как оценить силу связи этих переменных?

Решение этой задачи впервые было предложено Пирсоном, который использовал для этого коэффициент корреляции. Коэффициент корреляции Пирсона:

Приведены основы теории и пример решения задачи. - student2.ru Приведены основы теории и пример решения задачи. - student2.ru

Здесь:

Приведены основы теории и пример решения задачи. - student2.ru - выборочная ковариация.

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;

2. Связь между случайными величинами называется статистической связью. Наличие такой связи заключается в том, что изменение одной из переменных служит причиной для изменения другой. Это можно записать в виде уравнения регрессии y = f(x)+ε. Уравнение регрессии – это формула статистической связи между переменными. Формула статистической связи двух переменных называется парной регрессией и в случае рассмотрения линейной регрессии имеет вид:

Приведены основы теории и пример решения задачи. - student2.ru =a+b Приведены основы теории и пример решения задачи. - student2.ru +ε – модель парной регрессии.

Чаще всего, Y – зависимая, объясняемая переменная, а Х – независимая, объясняющая переменная.

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки линейных параметров регрессий используют метод наименьших квадратов (МНК). Данный метод позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака Приведены основы теории и пример решения задачи. - student2.ru от теоретических Приведены основы теории и пример решения задачи. - student2.ru минимальна, т.е. Приведены основы теории и пример решения задачи. - student2.ru .

Можно воспользоваться готовыми формулами:, Приведены основы теории и пример решения задачи. - student2.ru , Приведены основы теории и пример решения задачи. - student2.ru

Для оценки качества модели используется коэффициент детерминации R.2 . Коэффициент детерминации R2 показывает, какая часть (доля) дисперсии результативного признака Y, обусловлена вариацией объясняющей переменной X. Показатель (1-R2) характеризует долю дисперсии Приведены основы теории и пример решения задачи. - student2.ru , вызванную влиянием остальных, не учтенных в модели факторов. Заметим, что коэффициент детерминации R2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии. В случае линейной регрессии R2 = r2 xy . Коэффициент детерминации (в случае нелинейной регрессии – индекс) Приведены основы теории и пример решения задачи. - student2.ru

Здесь:

Приведены основы теории и пример решения задачи. - student2.ru Полная сумма квадратов отклонений (общий разброс зависимой переменной)

Приведены основы теории и пример решения задачи. - student2.ru Сумма квадратов отклонений регрессии ( разброс, объясняемый регрессией )

Приведены основы теории и пример решения задачи. - student2.ru Остаточная сумма квадратов отклонений (разброс, не объясняемый регрессией)

где yi –фактические значения зависимой переменной, Приведены основы теории и пример решения задачи. - student2.ru - вычисленные по модели регрессии, Приведены основы теории и пример решения задачи. - student2.ru - среднее значение зависимой переменной

Если R2 незначителен, то следует исследовать другие виды зависимостей.

Наши рекомендации