Корреляция: определение, виды, границы изменения коэффициента корреляции.
Корреляция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость — это статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.
Коэффициенты корреляции изменяются в пределах от -1 до +1. Значение -1 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1 означает, что переменные имеют строгую положительную корреляцию. Значение 0 означает отсутствие корреляции.
Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией, т.к. измеряет степень линейных связей между переменными.
Квадрат коэффициента корреляции (R Square) зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Коэффициент детерминации ,таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.
Очень часто две переменные коррелируют друг с другом только за счет того,что обе они согласованно меняются под влиянием некоторой третьей переменной. Иными словами, на самом деле связь между соответствующими свойствами отсутствует, но проявляется в статистической взаимосвязи (корреляции) под влиянием общей причины. Для численного определения степени взаимосвязи двух переменных при условии исключения влияния третьей применяют коэффициент частной корреляции (PartialCorrelation). Для вычисления частной корреляции достаточно знать три
коэффициента корреляции r-Пирсона между переменными X,Y и Z.
Если обе переменные, между которыми изучается связь, представлены впорядковой шкале, или одна из них — в порядковой, а другая — в метрической, то применяются ранговые коэффициенты корреляции: ρ-Спирмена илиτ-Кенделла. И тот, и другой коэффициент требует для своего примененияпредварительного ранжирования обеих переменных.
Если члены группы численностью Nбыли ранжированы сначала по переменной X, затем — по переменнойY, то корреляцию между переменными X иYможно получить, просто вычислив коэффициент r-Пирсона для двух рядоврангов. При условии отсутствия связей в рангах (т. е. отсутствия повторяющихся рангов) по той и другой переменной, формула для r-Пирсона можетбыть существенно упрощена в вычислительном отношении и преобразованав формулу, известную как ρ-Спирмена. Коэффициент корреляции ρ-Спирмена(Spearman’srho) равен коэффициенту корреляции r-Пирсона, вычисленному для двух предварительно ранжированных переменных.
Альтернативу корреляции Спирмена для рангов представляет корреляцияτ-Кендалла. В основе корреляции, предложенной М. Кендаллом, лежит идеяо том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y, то это свидетельствует о положительной связи, если не совпадает — то об отрицательной связи.
Если одна из двух переменных представлена в номинативной шкале, а другая — в числовой (ранговой или метрической), тосвязь между этими переменными лучше изучать путем сравнения групп поуровню выраженности числовой переменной.То же касается проблемы изучения связи между двумя номинативнымипеременными. Хотя и для этого случая существуют коэффициенты корреляции (К-Чупрова, С-Пирсона), но возможность их интерпретации весьмаограничена, в частности потому, что они отражают лишь силу связи, но не еенаправление. Поэтому и в этом случае проблему связи между двумя номинативными переменными лучше изучать путем сравнения градаций одной переменной по распределению другой переменной.
Исключением можно считать случай изучения связи двух бинарных переменных. Бинарная переменная имеет только две градации, обычно обозначаемые как 0 и 1. Примеры таких переменных: пол (мужской, женский), тревожность (низкая, высокая), успешность (низкая, высокая) и т. д.В этом случае допустимо применение r-Пирсона непосредственно к исходным данным — двум бинарным переменным, принимающимзначение 0 или 1, измеренным для каждого члена выборки численностью N.Результат применения r-Пирсона к двум бинарным переменным называется «фи-коэффициентом сопряженности» (Phi).Итак, φ-коэффициент есть просто r-Пирсона, вычисленный для бинарных данных. Интерпретация φ-коэффициента подобна интерпретации r-Пирсона.
Меры центральной тенденции.
Мера центральной тенденции (CentralTendency) — это число, характеризующее выборку по уровню выраженности измеренного признака.
Существуют три способа определения «центральной тенденции», каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.
Мода (Mode) — это такое значение из множества измерений, которое встречается наиболее часто. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.
Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.
Распределение может иметь и не одну моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.
Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае выделяют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.
Еще раз отметим, что мода — это значение признака, а не его частота.
Медиана (Median) — это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:
· если данные содержат нечетное число значений (8, 9, 10, 13, 15), то медиана есть центральное значение, т. е. Md= 10;
· если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значениями, т. е. Md= (8+9)/2 = 8,5.
Среднее (Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.
Меры изменчивости.
Меры изменчивости(Dispersion) применяются в психологии для численного выражения величины межиндивидуальной вариации признака.
Наиболее простой и очевидной мерой изменчивости является размах, указывающий на диапазон изменчивости значений. Размах (Range)— это просто разность максимального и минимального значений:
Ясно, что это очень неустойчивая мера изменчивости, на которую влияют любые возможные «выбросы». Более устойчивыми являются разновидности размаха: размах от 10 до 90-го процентиля (Р90 - Р10) или междуквартильный размах (Р75 — Р25). Последние две меры изменчивости находят свое применение для описания вариации в порядковых данных. А для метрических данных используется дисперсия.
Дисперсия (Variance) — мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от их арифметического среднего:
Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии. Величина дисперсии получается при усреднении всех квадратов отклонений:
Следует отличать теоретическую (генеральную) дисперсию — меру изменчивости бесконечного числа измерений (в генеральной совокупности, популяции в целом) и эмпирическую, или выборочную, дисперсию – для реально измеренного множества значений признака. Выборочное значение в статистике используется для оценки дисперсии в генеральной совокупности. Выше указана формула для генеральной (теоретической) дисперсии (Dx), которая, понятно, не вычисляется. Для вычислений используется формула выборочной (эмпирической) дисперсии (Dx), отличающаяся знаменателем:
Стандартное отклонение (Std. deviation)(сигма, среднеквадратическое отклонение) — положительное значение квадратного корня из дисперсии:
На практике чаще используется именно стандартное отклонение, а не дисперсия. Это связано с тем, что сигма выражает изменчивость в исходных единицах измерения признака, а дисперсия — в квадратах исходных единиц.
Свойства дисперсии:
1. Если значения измеренного признака не отличаются друг от друга (равны между собой) — дисперсия равна нулю. Это соответствует отсутствию изменчивости в данных.
2. Прибавление одного и того же числа к каждому значению переменной не меняет дисперсию. Прибавление константы к каждому значению переменной сдвигает график распределения этой переменной на эту константу (меняется среднее), но изменчивость (дисперсия) при этом остается неизменной.
3. Умножение каждого значения переменной на константу с изменяет дисперсию в с2 раз.
4. При объединении двух выборок с одинаковой дисперсией, но с разными средними значениями дисперсия увеличивается.