Корреляционная зависимость
Изучить:
а) виды зависимостей между признаками (функциональная, статистическая, корреляционная);
б) двумерная случайная величина и ее числовые характеристики;
в) момент связи (ковариация) между составляющими X и Y двумерной случайной величины;
г) коэффициент корреляции и его свойства;
д) выборочный коэффициент корреляции;
е) проверка гипотезы о значимости коэффициента корреляции генеральной совокупности.
Корреляционный анализ (correlation analysis) [лат. correlatio — соотношение] - раздел математической статистики, объединяющий практические методы исследования корреляционной связи между двумя и более случайными признаками или факторами.
Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной X, произойдет одновременно с пропорциональным изменением значения Y.
Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r=0, то связь между признаками отсутствует. Равенство r=0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.
Практическая значимость коэффициента корреляции определяется его величиной, возведенной в квадрат, получившая название коэффициента детерминации.
Задание 9
9.1.
По выборке X и Y построить поле корреляции и выдвинуть предположение о существовании (или не существовании) зависимости между признаками X и Y.
Рис.9.1
Из рисунка видно, что точки на графике расположены беспорядочно, соответственно можно сделать такой вывод, что корреляционной зависимости между признаками X и Y нет.
9.2.
Найти выборочный коэффициент корреляции и подтвердить (опровергнуть) вывод, сделанный в пункте 9.1.
Данные в корреляционной таблице представляют случайную выборку. Статистические числовые характеристики (Sх,Sy), полученные по этой выборке, являются оценками параметров генеральной совокупности, поэтому о тесноте зависимости между признаками X и Y мы судим по величине оценки коэффициента корреляции r. Следует проверить его значимость, т.е. установить – достаточна ли его величина при данном объеме выборки (n=20) для вывода о наличии корреляционной зависимости между признаками X и Y.
Выборочный коэффициент корреляции рассчитывается по формуле:
№ | |||||
1,96 | 3,4596 | 2,604 | |||
5,76 | 1,2996 | -2,736 | |||
0,16 | 3,4596 | 0,744 | |||
0,16 | 1,2996 | -0,456 | |||
0,16 | 8,1796 | 1,144 | |||
2,56 | 0,0196 | 0,224 | |||
11,56 | 0,7396 | 2,924 | |||
0,36 | 3,4596 | -1,116 | |||
5,76 | 0,7396 | 2,064 | |||
2,56 | 0,0196 | 0,224 | |||
2,56 | 1,2996 | 1,824 | |||
0,16 | 1,2996 | -0,456 | |||
1,96 | 1,2996 | -1,596 | |||
6,76 | 1,2996 | 2,964 | |||
0,36 | 8,1796 | -1,716 | |||
6,76 | 8,1796 | -7,436 | |||
6,76 | 9,8596 | 8,164 | |||
0,36 | 4,5796 | 1,284 | |||
0,16 | 8,1796 | 1,144 | |||
1,96 | 4,5796 | -2,996 | |||
сумма | 58,8 | 71,432 | 6,8 |
Табл.9.2.1
Так как значение коэффициента корреляции очень мало, то можно подтвердить предположение, сделанное в п. 9.1 и сказать, что связь слабая.
9.3.
Проверить гипотезу о значимости выборочного коэффициента корреляции.
Проверим значимость выборочного коэффициента корреляции r, т.е. установим достаточна ли его величина при данном объеме выборки для обоснованного вывода о наличии корреляционной связи.
1) H0: r=0;
H1: r 0
2) - уровень значимости.
3) По распределению Стьюдента:
4) (двусторонняя критическая область)
Рис.9.3.1
Вывод: Гипотеза не отвергается , т.е. между признаками X и Y отсутствует корреляционная зависимость.
Уравнение регрессии
Изучить:
а) понятие парной линейной регрессии;
б) составление системы нормальных уравнений;
в) свойства оценок по методу наименьших квадратов;
г) методику нахождения уравнения линейной регрессии.
Предположим, что между двумя признаками Х и У существует некоторая взаимосвязь (корреляционная зависимость), при которой с изменением одного признака изменяется и другой, но каждому значению признака Х могут соответствовать разные, заранее непредсказуемые значения признака У, и наоборот.
Основная задача корреляционного анализа состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных ( парных, множественных, частных) коэффициентов корреляции Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) заключается в оценке уравнений регрессии одной переменной по другой.
Связь между признаками бывает положительной и отрицательной.
Если с увеличением (уменьшением) одного признака в основном увеличиваются (уменьшаются) значения другого, то такая корреляционная связь называется прямой или положительной.
Если с увеличением (уменьшением) одного признака в основном уменьшаются (увеличиваются) значения другого, то такая корреляционная связь называется обратной или отрицательной.
Задание 10
10.1.
Предположив, что между признаками X и Y существует линейная зависимость, найти коэффициенты уравнения регрессии Y на X и записать уравнение в виде y = b0 + b1x.
№ | * | |||
сумма |
Табл.10.1.1
y = b0 + b1x.
10.2.
Построить полученную линию регрессии на поле корреляции признаков X и Y.
Рис.10.2 (линия регрессии)
Заключение
В ходе выполнения курсовой работы проводились исследования конкретной генеральной совокупности, которая представляет собой результаты тестирования 401 курсанта.
В результате выполнения заданий курсовой работы были:
· закреплены теоретические знания и практические навыки по математической статистике;
· изучены и сформулированы выводы о законе распределения, наличии и характере статистической связи между исследуемыми признаками;
· проведен анализ выборочной совокупности для дискретного и интервального статистических рядов двух числовых признаков.
· рассмотрен корреляционный и регрессионный анализ числовых признаков Х и Y;
Список литературы
1. В. Е. Гмурман “Теория вероятностей и математическая статистика”, «Высшая школа», 2004.
2. Кремер Г. «Математические методы статистики.» – М.: Мир, 1975
3. Колмогоров А.Н. Основные понятия теории вероятностей (2-е изд.) М.: Наука, 1974
4. Чернова Н.И. Лекции по теории вероятностей. Нсб: НГУ
5. Венцтель Е.С., Овчаров Л.А. Теория вероятностей. Задачи и упражнения. М.: Наука, 1969
6. Лихолетов И.И., Мацкевич И.П. Руководство к решению задач по высшей математике, теории вероятностей и математической статистике (2-е изд.). Мн.: Выш. школа, 1969
7.Конспект лекции.