Элементы теории корреляции. Линейная корреляция

Мы ввели понятия функции регрессии Y на Х: φ(х) = М(Y|Х = х), аналогично можно ввести понятие функции регрессии Х на Y: f(х) = М(Х|Y = у). Уравнения: φ(х) = М(Y|х) и f(у) = М(Х|у) называются уравнениями регрессии, а их графики – линиями регрессии. Левые части, т.е. условные математические ожидания генеральной совокупности, могут быть неизвестны. В таком случае их оценивают соответствующими параметрами, найденными по выборке: φ*(х)= – условная средняя; f * (у) = у – условная средняя. Эти уравнения являются уравнениями регрессии, а их графики линиями регрессии.

Если обе линии регрессии Y на X и X на Y — прямые, то корреляцию называют линейной.

Выборочное уравнение прямой линии регрессии Y на X имеет вид:

где – условная средняя; – выборочные средние признаков X и Y; – выборочные средние квадратические отклонения; — выборочный коэффициент корреляции, причем

.

Выборочное уравнение прямой линии регрессии X на Y имеет вид

.

Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то для поиска линий регрессии целесообразно перейти к условным вариантам:

,

где С1 – «ложный нуль» вариант X (новое начало отсчета); в качестве ложного нуля выгодно принять варианту, которая расположена примерно в середине вариационного ряда (условимся принимать в качестве ложного нуля варианту, имеющую наибольшую частоту); h1 – шаг, т.е. разность между двумя соседними вариантами Х; С2 – «ложный нуль» вариант Y; h2 – шаг вариант Y.

В этом случае выборочный коэффициент корреляции

.

Величины могут быть найдены либо методом произведений (при большом числе данных), либо непосредственно по формулам:

Зная эти величины, можно определить входящие в уравнение регрессии величины по формулам:

для оценки силы линейной корреляционной связи служит выборочный коэффициент корреляции rB.

Методические рекомендации для выполнения второго задания и решение нулевого варианта

Задание 2.По заданной таблице 1:

а) найти выборочный коэффициент корреляции и проверить его значимость при α = 0.05;

б) найти уравнение выборочной линии регрессии;

в) построить график линии регрессии и сопоставить ее с графиком линии, построенной с помощью средних;

Таблица 1

Y X
     
   
   
     
   
     

Решение.

а) Найдем выборочный коэффициент корреляции и проверим его значимость.

Для этого составим сначала таблицу 2 по условным вариантам, приняв С1 = 13, h1 = 2, C2 = 4, h2 = 1.

Таблица 2

V U
-2 -1 nv
-3      
-2    
-1    
     
   
     
nu n = 100

По таблице 2 найдем выборочные , ,σu, σv.

Cоставим таблицу 3.

Таблица 3

V U
-2 -1 ΣnuvU vU
-3 -18 -27 -1 -3       -19
-2 -16 -16 -12 -24 -2     -28
-1   -7 -7 -26 -2   -5
     
   
     
V=ΣnuvU -43 -34 -24   ΣvU=142
UV ΣnV=142  

По таблице 3 найдем выборочный коэффициент корреляции rB.

Для проверки значимости выборочного коэффициента корреляции выдвинем гипотезу Н0: rг = 0 и подберем критерий для ее проверки ;

Проверим гипотезу по этапам:

Этап 1. Нулевая гипотеза Н0: rг = 0, конкурирующая Н0: rг ≠ 0.

Этап 2. Зададимся уровнем значимости α = 0.05 (задан по условию).

Этап 3. Воспользуемся критерием и найдем его численное значение при n = 100 и rB = 0.75;

Этап 4. Найдем критическую область, которая является двусторонней, для чего воспользуемся таблицей и найдем tкр. = 1.98. Таким образом, критической областью является совокупность двух областей (- ∞; - 1.98) и (1.98; ∞).

Этап 5. Так как численное значение критерия принадлежит критической области, то выборочный коэффициент корреляции значим, что подтверждает факт корреляционной зависимости между Х и Y.

б) Найдем уравнение выборочной линии регрессии Y на Х в виде , для чего воспользуемся формулами:

Подставим найденные значения в искомое уравнение регрессии, получим: или .

в) Построим график линии регрессии и сопоставим ее с графиком линии, построенной с помощью средних, т.е. проверим согласованность, сравнивая средние, вычисленные: а) по условию; б) по корреляционной таблице.

x1 = 9

х2 = 11

х3 = 13

х4 = 15

х5 = 17

Для сравнения составим таблицу 4.

Таблица 4

По уравн. -0,04 1,78 3,6 5,42 7,24
По таблице 1,47 2,3 3,35 4,55 5,25

Изобразим данные на графике.

г) вычислим корреляционное отношение Y на Х, т.е. , где

n = 100, nx, ny – частоты х признака Х, частоты y признака Y.

– общая средняя признака Х, – условная средняя признака Y.

Составим таблицу 5, взяв таблицу 1, и дополнив ее строкой из условных средних.

Таблица 5

Y X ny
 
     
   
   
     
   
     
nx N = 100
1.47 2.30 3.35 4.55 5.25  

1.

2.

= 1.29.

3.

= 1.1.

4.

Так как ηxy = 0.85, rB = 0.75, т.е. ηxy ≠ rB, то говорят, что зависимость не является линейной.

Задания для проекта:

Задание 1. Обработать статистические данные признака выборочной совокупности, оформленные таблицей:

Наши рекомендации