Коэффициент корреляции Пирсона. Коэффициент корреляции Пирсона вычисляется по формуле:
Коэффициент корреляции Пирсона вычисляется по формуле:
, (1)
где — значения, принимаемые переменной X,
— значения, принимаемые переменной У;
— средняя по X,
— средняя по Y.
Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и Y распределены нормально.
Формула (1)предполагает, что из каждого значения переменной X, должно вычитаться ее среднее значение . Это неудобно. Поэтому для расчета коэффициента корреляции используют не формулу (1), а ее аналог, получаемый из этой формулы простыми преобразованиями:
, (2)
где
и ,
или модификацию этой формулы:
. (3)
В формуле (1)встречается величина . (4)
При делении на п (число значений переменной Х или Y) она называется ковариацией. Выражение (4) может быть подсчитано только в тех случаях, когда число значений переменной X равно числу значений переменной У и равно п. Формула (4) предполагает также, что при расчете коэффициентов корреляции нельзя произвольно переставлять элементы в коррелируемых столбцах.
Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:
1. Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.
2. Распределения переменных X и У должны быть близки к нормальному.
3. Число варьирующих признаков в сравниваемых переменных X и У должно быть одинаковым.
4. Таблицы уровней значимости для коэффициента корреляции Пирсона (таблица 20 Приложения) рассчитаны от п = 5 до п = 1000. Оценка уровня значимости по таблицам осуществляется при числе степеней свободы .
Линейная регрессия
Взаимосвязь между переменными величинами может быть описана разными способами. Например, эту связь можно описать с помощью различных коэффициентов корреляции (линейных, частных, корреляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (величиной) X ифункцией Y. В этом случае задача будет состоять в нахождении зависимости вида Y = F(X) или, напротив, в нахождении зависимости вида Х= F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией.
Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (А). Эти независимые переменные, а их может быть много, носят название предикторов.
Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят, как уравнения прямой, а именно так:
(1) (2)
В уравнении (1) Y— зависимая переменная, а X — независимая переменная, а0 свободный член, а а1— коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.
В уравнении (2) X — зависимая переменная, a Y — независимая переменная, b0 свободный член, а b1 — коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.
Линии регрессии пересекаются в точке , с координатами, соответствующими средним арифметическим значениям корреляционно связанных между собой переменных Х и Y. Линия АВ, проходящая через точку О, соответствует линейной функциональной зависимости между переменными величинами X и У, когда коэффициент корреляции между Х иУ равен . При этом наблюдается такая закономерность: чем сильнее связь между X и У, тем ближе обе линии регрессии к прямой АВ, и, наоборот, чем слабее связь между этими величинами, тем больше линии регресии отклоняются от прямой АВ. При отсутствии связи между X и Y линии регрессии оказываются под прямым углом по отношению друг к другу и в этом случае .
Количественное представление связи (зависимости) между X и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается, в нахождении коэффициентов а0, b0, а1и b1 и определении уровня значимости полученных аналитических выражений (1) и (2), связывающих между собой переменные X и Y.
При этом коэффициенты регрессии а1и b1 показывают, насколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициенты регрессии а1 и b1в уравнении (1), (2) можно подсчитать по формулам:
, (3) (4)
где - коэффициент корреляции между переменными X и Y;
Sx — среднеквадратическое отклонение, подсчитанное для переменной X;
Sу — среднеквадратическое отклонение, подсчитанное для переменной Y.
Коэффициент корреляции вычисляется по формуле:
(*)
или ее модификация
(см параграф коэффициент Пирсона)
Коэффициенты регрессии можно вычислить также без подсчета среднеквадратических отклонений по следующим формулам:
, (5) (6)
В том случае, если неизвестен коэффициент корреляции, коэффициенты регрессии можно вычислить по следующим формулам:
, (7) (8)
Величины а1, b1 и взаимосвязаны. Более того, зная две из них — всегда можно получить третью. Например, зная величины а1и b1 можно легко получить ;
(9)
Формула (9) очень важна, поскольку она позволяет по известным значениям коэффициентов регрессии а1и b1 определить коэффициент корреляции, и, кроме того, сравнивая вычисления по формулам (*) и (9), можно проверить правильность расчета коэффициента корреляции. Как и коэффициент корреляции, коэффициенты регрессии характеризуют только линейную связь и при положительной связи имеют знак плюс, при отрицательной — знак минус.
В свою очередь свободные члены а0и b0 вуравнениях регрессии придется вычислять по следующим формулам. Для подсчета свободного члена а0уравнения регрессии (1) используется формула:
(10)
Для подсчета свободного члена b0уравнения регрессии (2) используется формула:
(11)
Вычисления по формулам (7), (8), (10) и (11) достаточно сложны, поэтому при расчетах коэффициентов регрессии используют, как правило, более простой метод - метод наименьших квадратов. Он заключается в решении двух систем уравнений. При решении одной системы находятся величины а0и а1, и при решении другой — b0 и b1.
Общий вид системы уравнений для нахождения величин а0и а1таков:
(12)
Общий вид системы уравнений для нахождения величин — b0 и b1 таков:
(13)
Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:
1. Сравниваемые переменные X и У должны быть измерены в шкале интервалов или отношений.
2. Предполагается, что переменные Х и У имеют нормальный закон распределения.
3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.