Тема №16 «Корреляционно-регрессионный анализ»

Цель:научиться составлять выборочные уравнения линейной регрессии в случае сгруппированных данных, вычислять выборочный коэффициент линейной корреляции и проводить оценку его значимости, проверять значимость уравнения линейной регрессии с помощью дисперсионного анализа, делать прогноз значений зависимой переменной.

Краткие теоретические сведения:

Основная задача корреляционного анализа – выявление связи между случайными переменными и оценка её тесноты.

Статистической зависимостью называется зависимость, при которой изменение одной из величин влечёт изменение распределения других величин.

Частным случаем статистической зависимости является корреляционная зависимость, при которой изменение одной из величин изменяет среднее значение других.

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

В психологических исследованиях имеет место статистический разброс данных: при одном и том же значении одной величины другая вели­чина принимает несколько значений и наоборот. Графическое изображение экспериментальных данных называется диаграммой рассеяния.

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

Необходимы ответы на вопросы:

1) какой вид имеет тенденция,

2) какая теснота между тенденцией и разбросом данных.

Для этого необходимо не сгруппированные данные подвергаются первичной обработке. Составляется корреляционная таблица.

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru   Тема №16 «Корреляционно-регрессионный анализ» - student2.ru   Тема №16 «Корреляционно-регрессионный анализ» - student2.ru   …   Тема №16 «Корреляционно-регрессионный анализ» - student2.ru   Тема №16 «Корреляционно-регрессионный анализ» - student2.ru
Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru
Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru
Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru
Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

где Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , Тема №16 «Корреляционно-регрессионный анализ» - student2.ru – середины интервалов, Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Для ответа на первый вопрос используем аппроксимацию. Наиболее простой вариант – квадратическая аппроксимация, которая обосновывает метод наименьших квадратов.

Суть его состоит в том, что сумма квадратов отклонений между экспериментальным и теоретическим значениями должна быть минимальной:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Если Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , тогда Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Из теории функции нескольких переменных известно, что для минимума необходимо равенство нулю всех частных производных:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

Решив данную систему относительно неизвестных коэффициентов Тема №16 «Корреляционно-регрессионный анализ» - student2.ru мы получим уравнения, которые называются уравнениями регрессии:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru - выборочное уравнение регрессии Тема №16 «Корреляционно-регрессионный анализ» - student2.ru на Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru - выборочное уравнение регрессии Тема №16 «Корреляционно-регрессионный анализ» - student2.ru на Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Для линейной зависимости:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

или

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

где Тема №16 «Корреляционно-регрессионный анализ» - student2.ru и Тема №16 «Корреляционно-регрессионный анализ» - student2.ru – выборочные коэффициенты регрессии Тема №16 «Корреляционно-регрессионный анализ» - student2.ru на Тема №16 «Корреляционно-регрессионный анализ» - student2.ru и Тема №16 «Корреляционно-регрессионный анализ» - student2.ru на Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Для их нахождения используются формулы и данные корреляционной таблицы:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Для ответа на второй вопрос вводим еще одну характеристику, учитывающую разброс данных вокруг линии регрессии, то есть тесноту связи - выборочный коэффициент корреляции:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

Знак ± берётся равным знаку коэффициентов регрессии, которые оба или положительны или отрицательны. При этом один коэффициент регрессии по абсолютной величине больше 1, другой - меньше 1. Коэффициент корреляции не имеет размерности и Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Так как выборка случайна, то отличное от нуля значение выборочного коэффициента линейной корреляции необходимо проверить на значимость.

1) на уровне a = 0,05 выдвигаем нулевую гипотезу Тема №16 «Корреляционно-регрессионный анализ» - student2.ru при конкурирующей Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

2) в качестве критерия проверки используем случайную величину Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

3) табличное значение Тема №16 «Корреляционно-регрессионный анализ» - student2.ru находим по таблице распределения Стьюдента,

4) если Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , то принимаем нулевую гипотезу, а значит, генеральный коэффициент линейной корреляции равен нулю.

Основная задача регрессионного анализа – установление формы и изучение зависимости между переменными, оценка функции регрессии, прогноз значений зависимой переменной.

В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной Тема №16 «Корреляционно-регрессионный анализ» - student2.ru от одной (или нескольких) неслучайной независимой переменной Тема №16 «Корреляционно-регрессионный анализ» - student2.ru : Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , где Тема №16 «Корреляционно-регрессионный анализ» - student2.ru - возмущение, характеризующее отклонение от функции регрессии.

Будем рассматривать только линейный регрессионный анализ.

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru определяется по МНК, а воздействие неучтённых случайных факторов и ошибок наблюдений в модели находится с помощью дисперсии возмущений или остаточной дисперсии, несмещённой оценкой этой дисперсии является выборочная остаточная дисперсия:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

где Тема №16 «Корреляционно-регрессионный анализ» - student2.ru – групповая средняя, найденная по уравнению регрессии, Тема №16 «Корреляционно-регрессионный анализ» - student2.ru – выборочная оценка возмущения или остаток регрессии.

Доверительный интервал прогноза среднего значения:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

где

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru находим по таблице распределения Стьюдента

При определении доверительного интервала для индивидуальных значений Тема №16 «Корреляционно-регрессионный анализ» - student2.ru зависимой переменной вместо Тема №16 «Корреляционно-регрессионный анализ» - student2.ru берём

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Доверительный интервал для прогнозов индивидуальных значений Тема №16 «Корреляционно-регрессионный анализ» - student2.ru определяется формулой:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Проверка значимости уравнения регрессии (используется дисперсионный анализ):

Вычисляем несмещённые оценки дисперсий зависимой переменной, обусловленных соответственно регрессией и воздействием неучтённых случайных факторов и ошибок, Тема №16 «Корреляционно-регрессионный анализ» - student2.ru - число оцениваемых параметров уравнения регрессии, Тема №16 «Корреляционно-регрессионный анализ» - student2.ru - число наблюдений по формулам:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Гипотеза о значимости уравнения регрессии принимается, если

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru , где Тема №16 «Корреляционно-регрессионный анализ» - student2.ru уровень значимости, Тема №16 «Корреляционно-регрессионный анализ» - student2.ru и отвергается, если Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Контрольные вопросы:

1. Статистическая и корреляционная зависимость.

2. Диаграмма рассеяния.

3. Корреляционная таблица.

4. Расчет средних по данным корреляционной таблицы.

5. Суть метода наименьших квадратов.

6. Выборочные коэффициенты линейной регрессии, их свойства и геометрический смысл.

7. Выборочные уравнения линейной регрессии.

8. Выборочный коэффициент линейной корреляции и его свойства.

9. Проверка гипотезы о значимости выборочного коэффициента линейной регрессии.

10. Основная задача регрессионного анализа.

11. Основные предпосылки регрессионного анализа.

12. Возмущения и дисперсия возмущений.

13. Доверительный интервал прогноза среднего значения.

14. Доверительный интервал прогноза индивидуального значения.

15. Проверка значимости уравнения регрессии.

Контрольные задания:

1. При исследовании пяти групп людей на степень подверженности гипнозу использовались различные методики. Получены следующие данные:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru 1,0 1,5 2,0 2,5 3,0
Тема №16 «Корреляционно-регрессионный анализ» - student2.ru 1,0 1,3 1,4 1,9 2,0

Проверить целесообразность линейной аппроксимации зависимости результатов исследований от конкретной методики и определить коэффициенты этой зависимости МНК.

2. Используя метод наименьших квадратов, сгладить с помощью функций заданного вида следующие табличные зависимости:

а) Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

x -1
y

б) Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

x
y

в) Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

x -2 -1
y 0,8 0,4 0,1

3. Составить выборочные уравнения линейной регрессии Y на Х и Х на Y, вычислить выборочный коэффициент корреляции по выборочным данным, представленным в таблице:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru Тема №16 «Корреляционно-регрессионный анализ» - student2.ru
       
   
   
   

4. При обследовании 50 учеников 4-го класса получены следующие данные о весе и росте учащихся:

(24,125) (28,128) (26,128) (30,133) (25,127) (26,127) (27,127) (28,130)

(26,127) (27,128) (27,128) (28,129) (28,130) (24,126) (28,130) (29,131)

(26,127) (28,131) (26,128) (29,130) (27,130) (29,130) (27,129) (26,127)

(28,129) (28,130) (25,128) (28,129) (29,131) (27,130) (27,129) (29,131)

(28,129) (27,128) (25,126) (27,129) (28,129) (27,129) (29,129) (27,128)

(28,129) (28,130) (26,128) (25,126) (30,132) (25,127) (26,129) (26,129)

(27,128) (29,132)

Представить результаты обследования в виде корреляционной таблицы. По данным корреляционной таблицы оценить тесноту связи между весом (X) и ростом (Y) учеников четвертого класса и составить выборочное уравнение линейной регрессии X на Y.

5. Проверить значимость выборочных коэффициентов корреляции, полученных в задачах 2 и 3 при Тема №16 «Корреляционно-регрессионный анализ» - student2.ru .

Задания для домашней работы:

1. Используя метод наименьших квадратов, сгладить с помощью функций заданного вида следующие табличные зависимости:

а) Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

x 1,8 2,4 2,7 3,3
y

б) Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

x 0,5
y

в) Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

x -2 1,2 1,5
y 0,3 0,2 0,2 0,2

2. При приёме на работу 14 кандидатам на вакантные должности было предложено два теста. Результаты тестирования (в баллах) приведены в таблице:

Тема №16 «Корреляционно-регрессионный анализ» - student2.ru
Тема №16 «Корреляционно-регрессионный анализ» - student2.ru

а) найти уравнение регрессии Тема №16 «Корреляционно-регрессионный анализ» - student2.ru по Тема №16 «Корреляционно-регрессионный анализ» - student2.ru ,

б) проверить значимость уравнения регрессии на 5%-ном уровне по Тема №16 «Корреляционно-регрессионный анализ» - student2.ru - критерию,

в) оценить среднее значение показателя второго теста с показателем первого 60 баллов и построить для него 95%-ный интервал, аналогичный доверительный интервал найти для индивидуальных значений.

Наши рекомендации