Коэффициент корреляции Пирсона. Коэффициент корреляции Пирсона вычисляется по формуле:

Коэффициент корреляции Пирсона вычисляется по формуле:

, (1)

где — значения, принимаемые переменной X,

— значения, принимаемые переменной У;

— средняя по X,

— средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и Y распределены нормально.

Формула (1)предполагает, что из каждого значения пе­ременной X, должно вычитаться ее среднее значение . Это не­удобно. Поэтому для расчета коэффициента корреляции исполь­зуют не формулу (1), а ее аналог, получаемый из этой формулы про­стыми преобразованиями:

, (2)

где

и ,

или модификацию этой формулы:

. (3)

В формуле (1)встречается величина . (4)

При делении на п (число значений переменной Х или Y) она называется ковариацией. Выражение (4) может быть подсчи­тано только в тех случаях, когда число значений переменной X равно числу значений переменной У и равно п. Формула (4) предполагает также, что при расчете коэффициентов корреля­ции нельзя произвольно переставлять элементы в коррелируемых столбцах.

Для применения коэффициента корреляции Пирсона, необхо­димо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в интер­вальной шкале или шкале отношений.

2. Распределения переменных X и У должны быть близки к нор­мальному.

3. Число варьирующих признаков в сравниваемых переменных X и У должно быть одинаковым.

4. Таблицы уровней значимости для коэффициента корреляции Пирсона (таблица 20 Приложения) рассчитаны от п = 5 до п = 1000. Оценка уровня значимости по таблицам осуществ­ляется при числе степеней свободы .

Линейная регрессия

Взаимосвязь между переменными величинами может быть описана разными способами. Например, эту связь можно описать с помощью раз­личных коэффициентов корреляции (линейных, частных, кор­реляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (вели­чиной) X ифункцией Y. В этом случае задача будет состоять в на­хождении зависимости вида Y = F(X) или, напротив, в нахож­дении зависимости вида Х= F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией.

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее пред­сказание зависимой переменной (Y) по независимым перемен­ным (А). Эти независимые переменные, а их может быть много, носят название предикторов.

Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят, как уравнения пря­мой, а именно так:

(1) (2)

В уравнении (1) Y— зависимая переменная, а X — незави­симая переменная, а0 свободный член, а а1— коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении (2) X — зависимая переменная, a Y — незави­симая переменная, b0 свободный член, а b1 — коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Линии регрессии пересекаются в точке , с координа­тами, соответствующими средним арифметическим значениям корреляционно связанных между собой переменных Х и Y. Линия АВ, проходящая через точку О, соответствует линейной функци­ональной зависимости между переменными величинами X и У, когда коэффициент корреляции между Х иУ равен . При этом наблюдается такая закономерность: чем сильнее связь меж­ду X и У, тем ближе обе линии регрессии к прямой АВ, и, на­оборот, чем слабее связь между этими величинами, тем больше линии регресии отклоняются от прямой АВ. При отсутствии свя­зи между X и Y линии регрессии оказываются под прямым углом по отношению друг к другу и в этом случае .

Количественное представление связи (зависимости) между X и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается, в нахождении коэффициентов а0, b0, а1и b1 и определении уровня значимости полученных аналитических выражений (1) и (2), связывающих между собой переменные X и Y.

При этом коэффициенты регрессии а1и b1 показывают, на­сколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициенты регрессии а1 и b1в уравнении (1), (2) можно подсчитать по формулам:

, (3) (4)

где - коэффициент корреляции между переменными X и Y;

Sx — среднеквадратическое отклонение, подсчитанное для переменной X;

Sу — среднеквадратическое отклонение, подсчитанное для переменной Y.

Коэффициент корреляции вычисляется по формуле:

(*)

или ее модификация

(см параграф коэффициент Пирсона)

Коэффициенты регрессии можно вычислить также без под­счета среднеквадратических отклонений по следующим фор­мулам:

, (5) (6)

В том случае, если неизвестен коэффициент корреляции, коэф­фициенты регрессии можно вычислить по следующим формулам:

, (7) (8)

Величины а1, b1 и взаимосвязаны. Более того, зная две из них — всегда мож­но получить третью. Например, зная величины а1и b1 можно легко получить ;

(9)

Формула (9) очень важна, поскольку она позволяет по из­вестным значениям коэффициентов регрессии а1и b1 опреде­лить коэффициент корреляции, и, кроме того, сравнивая вы­числения по формулам (*) и (9), можно проверить пра­вильность расчета коэффициента корреляции. Как и коэффици­ент корреляции, коэффициенты регрессии характеризуют толь­ко линейную связь и при положительной связи имеют знак плюс, при отрицательной — знак минус.

В свою очередь свободные члены а0и b0 вуравнениях регрессии придется вычислять по следующим формулам. Для подсчета свободного члена а0уравнения регрессии (1) используется формула:

(10)

Для подсчета свободного члена b0уравнения регрессии (2) используется формула:

(11)

Вычисления по формулам (7), (8), (10) и (11) дос­таточно сложны, поэтому при расчетах коэффициентов регрессии используют, как правило, более простой метод - метод наименьших квадратов. Он заключается в решении двух систем уравнений. При решении одной системы на­ходятся величины а0и а1, и при решении другой — b0 и b1.

Общий вид системы уравнений для нахождения величин а0и а1таков:

(12)

Общий вид системы уравнений для нахождения величин — b0 и b1 таков:

(13)

Для применения метода линейного регрессионного анализа не­обходимо соблюдать следующие условия:

1. Сравниваемые переменные X и У должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что переменные Х и У имеют нормальный за­кон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

Наши рекомендации