Понятие корреляционного анализа и коэффициента корреляции
Термин «корреляция» впервые применил французский палеонтолог Ж. Кювье, кото- рый вывел закон «корреляции частей и органов животных» (этот закон позволяет восстанав- ливать по найденным частям тела весь облик животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто «связь», а «как бы связь»).
Корреляционный анализ –это проверка гипотез о связях между переменными с ис- пользованием коэффициентов корреляции.
Коэффициент корреляции –двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных.
Основное назначение корреляционного анализа – выявление связи между двумя или более изучаемыми переменными, которая рассматривается как совместное согласованное изменение двух исследуемых характеристик.
На языке математики взаимосвязи обычно описываются при помощи функций, кото- рые графически изображаются в виде линий:
а) линейная функция – если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину; любая другая связь не- линейная;
б) положительная (прямая) – если увеличение одной переменной связано с увеличени- ем другой;
в) отрицательная (обратная) – если увеличение одной переменной связано с уменьше- нием другой;
г) монотонная – если направление изменения одной переменной не меняется с возрас- танием (убыванием) другой переменной; в противном случае функцию называют немоно- тонной.
В психологии при изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество возможных причин изменчивости этих признаков. Результа- том является то, что даже существующая в реальности функциональная связь между пере- менными выступает эмпирически как вероятностная: одному и тому же значению одной пе- ременной соответствует распределение различных значений другой переменной (и наобо- рот). Простейшим примером является соотношение роста и веса людей. Полученная эмпири- чески положительная их взаимосвязь будет отличаться от строгой, линейной, идеальной ма- тематической функции, даже при всех ухищрениях исследователя.
Наглядное представление о характере вероятностной связи дает диаграмма рассеива- ния – график, оси которого соответствуют значениям двух переменных, а каждый испытуе- мый представляет собой точку (рис. 5).
Рис. 5 Диаграмма рассеивания частот
В качестве числовой характеристики вероятностной связи используют коэффициенты корреляции.
Коэффициент корреляции –это количественная мера силы и направления вероят- ностной взаимосвязи двух переменных; принимает значения в диапазоне от -1 до +1.
Сила связи– определяется по абсолютной величине корреляции и достигает макси- мума при условии взаимно однозначного соответствия: когда каждому значению одной пе- ременной соответствует только одно значение другой переменной; эмпирически взаимосвязь при этом совпадает с функциональной линейной связью. Абсолютная величина корреляции определяется по таблице «Критические значения коэффициентов корреляции Пирсона и Спирмена» (Приложение 2).
Направление связи– определяется прямым или обратным соотношением значений двух переменных: если возрастанию значения одной переменной соответствует возрастание значения другой переменной, то взаимосвязь называется положительной (прямой); если воз- растанию одной переменной соответствует убывание значения другой переменной, то взаи- мосвязь называется обратной (отрицательной). Показателем направления является знак ко- эффициента корреляции.
Надежность (достоверность) связи– определяется p-уровнем статистической значи- мости (чем меньше p-уровень, тем выше статистическая значимость, достоверность связи).
Основная проверяемая статистическая гипотеза – в отношении коэффициентов кор- реляции является ненаправленной и содержит утверждение о равенстве корреляции нулю в генеральной совокупности Н0:rxy=0. при её отклонении принимается альтернативная гипотеза Н1:rxy ≠0 о наличии положительной (отрицательной) корреляции – в зависимости от знака выборочного (вычисленного) коэффициента корреляции.
Содержательные выводы: если по результатам статистической проверки Н0:rxy=0 не отклоняется на уровне α, то содержательный вывод: связь между Х и Y не обнаружена. Если Н0:rxy=0 отклоняется на уровне α, то содержательный вывод: обнаружена положительная (отрицательная) связь между Х и Y.
Для статистического решения о принятии или отклонении Н0: обычно устанавлива- ют α=0,05, а для выборок больше 100 человек α=0,01. Если р≤α, Н0 отклоняется и делается содержательный вывод об обнаружении статистически достоверной (значимой) связи между изучаемыми переменными. Когда р>α, Н0 не отклоняется и содержательный вывод ограни- чивается констатацией того, что связь не обнаружена.
Критерием для отбора «достаточно сильных корреляций» может быть как абсолютное значение самого коэффициента корреляции (от 0,7 до 1,0), так и относительная величина этого коэффициента, определяемая по уровню статистической значимости (от 0,01 до 0,1), зависящему от размера выборки.
Традиционно рассматриваются три градации величин корреляции по силе связи:
- r≤0,3 – слабая связь (менее 10% от общей доли дисперсии);
- 0,3<r≤0,7 – умеренная связь (от 10 до 50% от общей доли дисперсии);
- r>0,7 – сильная связь (50% и более от общей доли дисперсии).
В малых выборках для дальнейшей интерпретации корректнее отбирать сильные кор- реляции на основании уровня статистической значимости.
Для исследований, которые проведены на больших выборках, лучше использовать аб- солютное значение коэффициентов корреляции.
Условия применения коэффициентов корреляции:
1. Переменные измерены в количественной (ранговой, метрической) шкале на одной и той же выборке объектов.
2. Связь между переменными является монотонной.