Корреляция: определение, виды, границы изменения коэффициента корреляции.

Корреляция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость — это статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Коэффициенты корреляции изменяются в пределах от -1 до +1. Значение -1 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1 означает, что переменные имеют строгую положительную корреляцию. Значение 0 означает отсутствие корреляции.

Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией, т.к. измеряет степень линейных связей между переменными.

Квад­рат коэффициента корреляции (R Square) зависимой и независимой перемен­ных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерми­нации. Коэффициент детерминации Корреляция: определение, виды, границы изменения коэффициента корреляции. - student2.ru ,таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) вли­янием другой переменной.

Очень часто две переменные коррелируют друг с другом только за счет того,что обе они согласованно меняются под влиянием некоторой третьей пере­менной. Иными словами, на самом деле связь между соответствующими свой­ствами отсутствует, но проявляется в статистической взаимосвязи (корреляции) под влиянием общей причины. Для численного определения степени взаимосвязи двух переменных при усло­вии исключения влияния третьей применяют коэффициент частной корреляции (PartialCorrelation). Для вычисления частной корреляции достаточно знать три
коэффициента корреляции r-Пирсона между переменными X,Y и Z.

Если обе переменные, между которыми изучается связь, представлены впорядковой шкале, или одна из них — в порядковой, а другая — в метричес­кой, то применяются ранговые коэффициенты корреляции: ρ-Спирмена илиτ-Кенделла. И тот, и другой коэффициент требует для своего примененияпредварительного ранжирования обеих переменных.

Если члены группы численностью Nбыли ранжированы сначала по пере­менной X, затем — по переменнойY, то корреляцию между переменными X иYможно получить, просто вычислив коэффициент r-Пирсона для двух рядоврангов. При условии отсутствия связей в рангах (т. е. отсутствия повторяю­щихся рангов) по той и другой переменной, формула для r-Пирсона можетбыть существенно упрощена в вычислительном отношении и преобразованав формулу, известную как ρ-Спирмена. Коэффициент корреляции ρ-Спирмена(Spearman’srho) равен коэффициен­ту корреляции r-Пирсона, вычисленному для двух предварительно ранжиро­ванных переменных.

Альтернативу корреляции Спирмена для рангов представляет корреляцияτ-Кендалла. В основе корреляции, предложенной М. Кендаллом, лежит идеяо том, что о направлении связи можно судить, попарно сравнивая между со­бой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y, то это свидетельствует о положительной свя­зи, если не совпадает — то об отрицательной связи.

Если одна из двух переменных представлена в но­минативной шкале, а другая — в числовой (ранговой или метрической), тосвязь между этими переменными лучше изучать путем сравнения групп поуровню выраженности числовой переменной.То же касается проблемы изучения связи между двумя номинативнымипеременными. Хотя и для этого случая существуют коэффициенты корреля­ции (К-Чупрова, С-Пирсона), но возможность их интерпретации весьмаограничена, в частности потому, что они отражают лишь силу связи, но не еенаправление. Поэтому и в этом случае проблему связи между двумя номинативными переменными лучше изучать путем сравнения градаций одной пе­ременной по распределению другой переменной.

Исключением можно считать случай изучения связи двух бинарных перемен­ных. Бинарная переменная имеет только две градации, обычно обозначаемые как 0 и 1. Примеры таких переменных: пол (мужской, женский), тревожность (низкая, высокая), успешность (низкая, высокая) и т. д.В этом случае допустимо применение r-Пирсона непосред­ственно к исходным данным — двум бинарным переменным, принимающимзначение 0 или 1, измеренным для каждого члена выборки численностью N.Результат применения r-Пирсона к двум бинарным переменным называется «фи-коэффициентом сопряженности» (Phi).Итак, φ-коэффициент есть просто r-Пирсона, вычисленный для бинар­ных данных. Интерпретация φ-коэффициента подобна интерпретации r-Пирсо­на.

Меры центральной тенденции.

Мера центральной тенденции (CentralTendency) — это число, характеризую­щее выборку по уровню выраженности измеренного признака.

Существуют три способа определения «центральной тенденции», каждо­му из которых соответствует своя мера: мода, медиана и выборочное среднее.

Мода (Mode) — это такое значение из множества измерений, которое встре­чается наиболее часто. Моде, или модальному интервалу признака, соответ­ствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.

Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.

Распределение может иметь и не одну моду. Когда все значения встреча­ются одинаково часто, принято считать, что такое распределение не имеет моды.

Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае вы­деляют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.

Еще раз отметим, что мода — это значение признака, а не его частота.

Медиана (Median) — это такое значение признака, которое делит упорядо­ченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким обра­зом, первым шагом при определении медианы является упорядочивание (ран­жирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:

· если данные содержат нечетное число значений (8, 9, 10, 13, 15), то ме­диана есть центральное значение, т. е. Md= 10;

· если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значения­ми, т. е. Md= (8+9)/2 = 8,5.

Среднее (Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.

Меры изменчивости.

Меры изменчивости(Dispersion) применяются в психологии для численного выраже­ния величины межиндивидуальной вариации признака.

Наиболее простой и очевидной мерой изменчивости является размах, ука­зывающий на диапазон изменчивости значений. Размах (Range)— это просто разность максимального и минимального значений:

Корреляция: определение, виды, границы изменения коэффициента корреляции. - student2.ru

Ясно, что это очень неустойчивая мера изменчивости, на которую влияют любые возможные «выбросы». Более устойчивыми являются разновидности размаха: размах от 10 до 90-го процентиля (Р90 - Р10) или междуквартильный размах (Р75 — Р25). Последние две меры изменчивости находят свое применение для описания вариации в порядковых данных. А для метрических данных используется дисперсия.

Дисперсия (Variance) — мера изменчивости для метрических данных, про­порциональная сумме квадратов отклонений измеренных значений от их арифметического среднего:

Корреляция: определение, виды, границы изменения коэффициента корреляции. - student2.ru

Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии. Величина дисперсии получается при усреднении всех квадратов отклонений:

Корреляция: определение, виды, границы изменения коэффициента корреляции. - student2.ru

Следует отличать теоретическую (генеральную) дисперсию — меру измен­чивости бесконечного числа измерений (в генеральной совокупности, попу­ляции в целом) и эмпирическую, или выборочную, дисперсию – для реально измеренного множества значений признака. Выборочное значение в стати­стике используется для оценки дисперсии в генеральной совокупности. Выше указана формула для генеральной (теоретической) дисперсии (Dx), которая, понятно, не вычисляется. Для вычислений используется формула выбороч­ной (эмпирической) дисперсии (Dx), отличающаяся знаменателем:

Корреляция: определение, виды, границы изменения коэффициента корреляции. - student2.ru

Стандартное отклонение (Std. deviation)(сигма, среднеквадратическое от­клонение) — положительное значение квадратного корня из дисперсии:

Корреляция: определение, виды, границы изменения коэффициента корреляции. - student2.ru

На практике чаще используется именно стандартное отклонение, а не дис­персия. Это связано с тем, что сигма выражает изменчивость в исходных еди­ницах измерения признака, а дисперсия — в квадратах исходных единиц.

Свойства дисперсии:

1. Если значения измеренного признака не отличаются друг от друга (рав­ны между собой) — дисперсия равна нулю. Это соответствует отсутствию из­менчивости в данных.

2. Прибавление одного и того же числа к каждому значению переменной не меняет дисперсию. Прибавление константы к каждому значению переменной сдвигает график распределения этой переменной на эту константу (меняется среднее), но из­менчивость (дисперсия) при этом остается неизменной.

3. Умножение каждого значения переменной на константу с изменяет дис­персию в с2 раз.

4. При объединении двух выборок с одинаковой дисперсией, но с разными средними значениями дисперсия увеличивается.

Наши рекомендации