Понятие коэффициента корреляции. Виды коэффициентов корреляции и специфика их применения в социологическом исследовании
Коэффициенты корреляции используются для оценки силы связи между двумя признаками (в том числе при проверке того, есть ли эта связь вообще).
Коэффициент корреляции— числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь.
Существует:
· Коэффициент корреляции Пирсона;
· Коэффициенты ранговой корреляции Спирмена
· Коэффициент ранговой корреляции Кендалла
· Коэффициент конкордации.
Коэффициент взаимной сопряженности Пирсона— оценка степени тесноты связи между качественными, но не альтернативными признаками.
Коэффициент корреляции рангов Спирмэна— непараметрическая оценка, позволяющая измерить тесноту связи как между количественными, так и между качественными признаками.
Коэффициент ранговой корреляции Спирмена. Формула расчета его имеет следующий вид:
где dj – разность рангов; /– общее число сопоставляемых пар.
Коэффициент ранговой корреляции показывает, насколько одинаковыми или различными оказываются ответы на один и тот же вопрос со стороны двух сравниваемых между собою групп респондентов.
Коэффициент корреляции Кенделла– мера линейной связи между случайными величинами. Корреляция Кенделла является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициента корреляции Кенделла лежит в диапазоне [-1;+1]. Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать.
Статистические методы применяются при обработке материалов социологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации.
Основной коэффициент корреляции Пирсона предназначен для оценки связи между двумя переменными, измеренными по метрической шкале, распределение которых соответствует нормальному (однако формула величины r дает достаточно точные результаты и в случаях аномальных распределений, а также в случаях, когда одна из переменных является дискретной).
Для распределений, считающихся нормальными, предпочтительнее пользоваться ранговыми коэффициентами корреляции Спирмена или Кенделла.Коэффициент корреляции изменяется на отрезке от –1 до +1.
Если между переменными существует сильная положительная связь, то значение r будет близко к +1. Если между переменными существует сильная отрицательная связь, то значение r будет близко к –1. Когда между переменными нет линейной связи или она очень слабая, значение r будет близко к 0.
Коэффициент корреляции Пирсона является мерой прямолинейной связи между переменными: его значения достигают максимума, когда точки на графике двумерного рассеивания лежат на одной прямой. Отношения между переменными часто оказываются не только вероятностными, но и непрямолинейными: монотонными или немонотонными. Если связь нелинейная, но монотонная, то вместо r Пирсона следует использовать ранговые корреляции Спирмена или Кенделла. Ранговыми они являются потому, что сравниваемые переменные предварительно ранжируют.
Оценка значимости: уровень значимости является мерой статистической достоверности результата вычисления, в случае с корреляцией служит основанием для интерпретации. Если исследование показало, что уровень значимости не превышает 0,05, то это значит, что с вероятностью 5% и менее корреляция является случайной. Обычно это является основанием для вывода о статистической достоверности корреляции. В противном случае (p>0,05) связь признается статистически недостоверной и не подлежит содержательной интерпретации.
Коэффициенты связи, основанные на критерии "хи-квадрат".
Приведем простой пример, иллюстрирующий рассматриваемый подход к пониманию связи между двумя номинальными признаками. Предположим, что перед нами стоит задача оценки того, зависит ли профессия респондента от его пола. Пусть наша анкета содержит соответствующие вопросы и в ней перечисляются пять вариантов профессий, закодированных цифрами от 1 до 5; для обозначения же мужчин и женщин используются коды 1 и 2 соответственно. Для краткости обозначим первый признак (т.е. признак, отвечающий вопросу о профессии респондента) через Y, а второй (отвечающий полу) - через X. Итак, наша задача состоит в том, чтобы определить, зависит ли Y от X.