Элементы теории корреляции. Линейная корреляция
Мы ввели понятия функции регрессии Y на Х: φ(х) = М(Y|Х = х), аналогично можно ввести понятие функции регрессии Х на Y: f(х) = М(Х|Y = у). Уравнения: φ(х) = М(Y|х) и f(у) = М(Х|у) называются уравнениями регрессии, а их графики – линиями регрессии. Левые части, т.е. условные математические ожидания генеральной совокупности, могут быть неизвестны. В таком случае их оценивают соответствующими параметрами, найденными по выборке: φ*(х)= – условная средняя; f * (у) = у – условная средняя. Эти уравнения являются уравнениями регрессии, а их графики линиями регрессии.
Если обе линии регрессии Y на X и X на Y — прямые, то корреляцию называют линейной.
Выборочное уравнение прямой линии регрессии Y на X имеет вид:
где – условная средняя; – выборочные средние признаков X и Y; – выборочные средние квадратические отклонения; — выборочный коэффициент корреляции, причем
.
Выборочное уравнение прямой линии регрессии X на Y имеет вид
.
Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то для поиска линий регрессии целесообразно перейти к условным вариантам:
,
где С1 – «ложный нуль» вариант X (новое начало отсчета); в качестве ложного нуля выгодно принять варианту, которая расположена примерно в середине вариационного ряда (условимся принимать в качестве ложного нуля варианту, имеющую наибольшую частоту); h1 – шаг, т.е. разность между двумя соседними вариантами Х; С2 – «ложный нуль» вариант Y; h2 – шаг вариант Y.
В этом случае выборочный коэффициент корреляции
.
Величины могут быть найдены либо методом произведений (при большом числе данных), либо непосредственно по формулам:
Зная эти величины, можно определить входящие в уравнение регрессии величины по формулам:
для оценки силы линейной корреляционной связи служит выборочный коэффициент корреляции rB.
Методические рекомендации для выполнения второго задания и решение нулевого варианта
Задание 2.По заданной таблице 1:
а) найти выборочный коэффициент корреляции и проверить его значимость при α = 0.05;
б) найти уравнение выборочной линии регрессии;
в) построить график линии регрессии и сопоставить ее с графиком линии, построенной с помощью средних;
Таблица 1
Y | X | ||||
Решение.
а) Найдем выборочный коэффициент корреляции и проверим его значимость.
Для этого составим сначала таблицу 2 по условным вариантам, приняв С1 = 13, h1 = 2, C2 = 4, h2 = 1.
Таблица 2
V | U | |||||
-2 | -1 | nv | ||||
-3 | ||||||
-2 | ||||||
-1 | ||||||
nu | n = 100 |
По таблице 2 найдем выборочные , ,σu, σv.
Cоставим таблицу 3.
Таблица 3
V | U | ||||||
-2 | -1 | ΣnuvU | vU | ||||
-3 | -18 -27 | -1 -3 | -19 | ||||
-2 | -16 -16 | -12 -24 | -2 | -28 | |||
-1 | -7 -7 | -26 | -2 | -5 | |||
V=ΣnuvU | -43 | -34 | -24 | ΣvU=142 | |||
UV | ΣnV=142 |
По таблице 3 найдем выборочный коэффициент корреляции rB.
Для проверки значимости выборочного коэффициента корреляции выдвинем гипотезу Н0: rг = 0 и подберем критерий для ее проверки ;
Проверим гипотезу по этапам:
Этап 1. Нулевая гипотеза Н0: rг = 0, конкурирующая Н0: rг ≠ 0.
Этап 2. Зададимся уровнем значимости α = 0.05 (задан по условию).
Этап 3. Воспользуемся критерием и найдем его численное значение при n = 100 и rB = 0.75;
Этап 4. Найдем критическую область, которая является двусторонней, для чего воспользуемся таблицей и найдем tкр. = 1.98. Таким образом, критической областью является совокупность двух областей (- ∞; - 1.98) и (1.98; ∞).
Этап 5. Так как численное значение критерия принадлежит критической области, то выборочный коэффициент корреляции значим, что подтверждает факт корреляционной зависимости между Х и Y.
б) Найдем уравнение выборочной линии регрессии Y на Х в виде , для чего воспользуемся формулами:
Подставим найденные значения в искомое уравнение регрессии, получим: или .
в) Построим график линии регрессии и сопоставим ее с графиком линии, построенной с помощью средних, т.е. проверим согласованность, сравнивая средние, вычисленные: а) по условию; б) по корреляционной таблице.
x1 = 9
х2 = 11
х3 = 13
х4 = 15
х5 = 17
Для сравнения составим таблицу 4.
Таблица 4
По уравн. | -0,04 | 1,78 | 3,6 | 5,42 | 7,24 |
По таблице | 1,47 | 2,3 | 3,35 | 4,55 | 5,25 |
Изобразим данные на графике.
г) вычислим корреляционное отношение Y на Х, т.е. , где
n = 100, nx, ny – частоты х признака Х, частоты y признака Y.
– общая средняя признака Х, – условная средняя признака Y.
Составим таблицу 5, взяв таблицу 1, и дополнив ее строкой из условных средних.
Таблица 5
Y | X | ny | ||||
nx | N = 100 | |||||
1.47 | 2.30 | 3.35 | 4.55 | 5.25 |
1.
2.
= 1.29.
3.
= 1.1.
4.
Так как ηxy = 0.85, rB = 0.75, т.е. ηxy ≠ rB, то говорят, что зависимость не является линейной.
Задания для проекта:
Задание 1. Обработать статистические данные признака выборочной совокупности, оформленные таблицей: