Выборочный коэффициент корреляции и проверка его значимости
По величине ковариации можно сделать вывод о зависимости или независимости случайных величин (для независимых случайных величин теоретическая ковариация равна нулю). Кроме того, по ковариации можно определить направление взаимосвязи. При наличии положительной ковариации переменные изменяются в одном направлении (связь прямая), если же ковариация отрицательна, то переменные изменяются в разных направлениях (связь обратная).
Однако существенным недостатком ковариации является ее зависимость от единиц измерения случайных величин X и Y. Поэтому тесноту взаимосвязи случайных величин X и Y с помощью ковариации определять неудобно. Для этого вводится относительная мера взаимосвязи (безразмерная величина) – коэффициент корреляции:
= . (1.3)
где – средние квадратические отклонения случайных величин X и Y.
Этот коэффициент корреляции называют теоретическим или генеральным.
С помощью коэффициента корреляции определяется теснота линейной связи между случайными величинами в генеральной совокупности.
Зависимость между случайными величинами X и Y, характеризуемая коэффициентом корреляции, называется корреляцией.
Если , то случайные величины X и Y являются некоррелированными, если же , то случайные величины X и Y коррелированны.
Как правило, генеральный коэффициент корреляции неизвестен. О тесноте линейной связи между переменными судят не по величине , а по величине его точечной оценки, вычисленной по выборке.
Оценкой теоретического (генерального) коэффициента корреляции является выборочный коэффициент корреляции:
, (1.4)
где и – выборочные средние квадратические отклонения случайных величин и .
Замечание. В дальнейшем будем использовать следующие обозначения:
.
Так как вычисляется по значениям, случайно попавшим в выборку, то его величина меняется от выборки к выборке. В отличие от , выборочный коэффициент корреляции – величина случайная.
Пусть найденный по выборке коэффициент корреляции . Это еще не означает, что и . Чтобы установить, достаточна ли величина для обоснованного вывода о наличии линейной корреляционной связи между переменными X и Y, необходимо проверить значимость выборочного коэффициента корреляции .
Для этого выдвигаются нулевая (основная) и конкурирующая (альтернативная) гипотезы:
: rген = 0 (линейная корреляционная зависимость между переменными X и Y отсутствует, или статистически близок к нулю, т.е. статистически незначим),
: rген № 0 (переменные X и Y находятся в линейной корреляционной зависимости, или статистически далек от нуля, т.е. статистически значим).
По виду конкурирующей гипотезы определяют критическую область. В этом случае строят двустороннюю критическую область, описываемую неравенством: .
Нулевая гипотеза проверяется при заданном уровне значимости a с помощью случайной величины
, (1.5)
которая при справедливости имеет распределение Стьюдента с числом степеней свободы , где объем выборки.
По выборочным данным вычисляют tнабл, а по таблице критических точек распределения Стьюдента находят tкрит.дв(a, k) с учетом двусторонней критической области. Сравнивают tнабл и tкрит.дв(a, k).
Если , т. е. наблюдаемое значение критерия попало в область принятия гипотезы, то нет оснований отвергать нулевую гипотезу. А если tнабл попало в критическую область, т.е. , то нулевую гипотезу отвергаем, принимаем конкурирующую Н1.
Пример 1.1. Имеются выборочные данные о количестве внесенных удобрений ( , кг/га) и урожайности пшеницы ( , ц/га) по десяти фермерским хозяйствам:
a) найти выборочную ковариацию , используя определение и альтернативную формулу для ее вычисления;
b) найти выборочный коэффициент корреляции ;
c) используя t-критерий, проверить значимость при 5%-ом уровне значимости.
Решение. Результативный признак – урожайность пшеницы, ц/га; факторный признак – количество внесенных удобрений, кг/га.
Замечание. Поскольку в условии приведены результаты конкретной выборки, то и представляют здесь реализации случайных величин и в i-ом наблюдении. Поэтому они обозначены малыми строчными буквами.
a) Вычислим по данной выборке , используя определение. Сначала найдем выборочные числовые характеристики признаков и .
Расчеты представим в таблице:
№ набл. | ||||||
24,5 13,5 –0,5 17,5 | ||||||
Итого | 5630. |
Выборочная средняя факторного признака ;
Выборочная средняя результативного признака .
Таким образом, .
Теперь вычислим , используя альтернативное выражение, т.е. свойство 1:
= ,
где .
Заметим, что полученное разными способами значение совпадает.
b) Вычислим выборочный коэффициент корреляции по формуле (1.4):
rв = .
Ранее получили, что = 14,1. Используя свойства 1 и 3 выборочной ковариации, найдем выборочные дисперсии факторного и результативного признаков:
, где ;
, где
Таким образом, .
c) Проверим значимость выборочного коэффициента корреляции. Для этого выдвигаем гипотезы:
.
По условию уровень значимости .
Для проверки нулевой гипотезы используем случайную величину , имеющую при справедливости распределение Стьюдента с числом степеней свободы . По выборочным данным найдем наблюдаемое значение критерия tнабл = » 4,42. По таблице критических точек распределения Стьюдента определим tкрит.дв(0,05; 8) = 2,31. Сравниваем tнабл и tкрит(0,05; 8). Так как , т. е. tнабл попало в критическую область, нулевая гипотеза отвергается, принимается конкурирующая гипотеза: rген ¹ 0. Можно считать, что урожайность пшеницы и количество внесенных удобрений находятся в достаточно тесной корреляционной зависимости, rв значим.