Коэффициент корреляции Пирсона
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ
К ПРАКТИЧЕСКОМУ ЗАНЯТИЮ №6
Тема: «Методы оценки связи между переменными»
Красноярск
Статистическая (корреляционная) связь между признаками.
Основные виды связи
Одной из задач большинства медико-биологических исследований, является выявление взаимосвязей одного или нескольких явлений.
Постановка задачи в такого рода исследованиях обычно выглядит следующим образом: «Определить наличие и силу статистической связи какого-либо признака, от одного или нескольких других признаков. Знание взаимосвязи отдельных признаков дает возможность решать одну из кардинальных задач любого научного исследования: возможность предвидеть, прогнозировать развитие ситуации при изменении тех или иных известных характеристик объекта исследования.
Термин зависимость при статистической обработке материалов медико-биологических исследований должен использоваться весьма осторожно. С помощью статистических критериев можно дать только формальную оценку взаимосвязей. Попытки механически перенести данные статистических расчетов в объективную реальность могут привести к ошибочным выводам.
Например, утверждение: «Чем громче утром кричат воробьи, тем выше встает солнце», несмотря на явную несуразность, с точки зрения формальной статистики, это утверждение вполне правомерно. Таким образом, термин «зависимость» в статистическом анализе подразумевает только оценку соответствующих статистических критериев.
Принцип ковариацииимеет место,если основанием для заключения о наличии связи служит одновременное и параллельное изменение количественных характеристик.В математическом отношении задача сводится к определению меры взаимных численных изменений взаимосвязанных признаков. В качестве таких мер на практике особенно широко используют коэффициент корреляции, коэффициент ранговой корреляции Спирмена и др.
Принцип взаимной сопряженности предполагает установление связи между двумя событиями в тех случаях, когда с появлением одного события происходит другое событие.
Например: свет в окне может означать (с той или иной вероятностью), что хозяева находятся дома, кашель с мокротой может означать заболевание хроническим бронхитом. Если в серии повторяющихся наблюдений один из признаков (или его часть, градация) появляется одновременно с другим чаще, чем можно объяснить случайным стечением обстоятельств, то это служит основанием говорить о взаимосвязи, сопряженности появления этих признаков.
Любые явления в окружающем нас мире могут быть связаны прямой или обратной связью. Эта характеристика называется направленностью связи. По направленности связь может быть прямой или обратной.
Прямая (или положительная) связь характеризует зависимость, при которой увеличение или уменьшение значения одного признака ведет, соответственно, к увеличению или уменьшению - второго. Например: при увеличение температуры возрастает давление газа (при сохранении неизменным его объема). При уменьшении температуры - снижается и давление.
Обратная (или отрицательная) связь характеризуется такой зависимостью, когда при увеличении одного признака, второй – уменьшается, или наоборот, при уменьшении одного, второй - увеличивается. Обратная зависимость или обратная связь является основой нормального регулирования почти всех процессов жизнедеятельности любого организма.
Всякая из этих зависимостей по характеру связи может быть функциональной или статистической (корреляционной).
Функциональная зависимость - такой вид зависимости, когда каждому значению одного признака соответствует точное значение другого. Например: взаимосвязь площади кругаи длины окружности.
Умножив длину окружности на половину радиуса круга, можно точно определить площадь круга. Такую зависимость можно считать полной (исчерпывающей). Она полностью объясняет изменение одного признака изменением другого. Этот вид связи характерен для объектов, являющихся точкой приложения точных наук. В медико-биологических исследованиях сталкиваться с функциональной связью приходится крайне редко, поскольку объекты этих исследований имеют большую индивидуальную изменчивость. С другой стороны, характеристики биологических объектов зависят, как правило, от комплекса большого числа сложных взаимосвязей и не могут быть сведены к отношению двух или трех факторов.
Статистическая (корреляционная) зависимость. В этом случае при изменении величины одного признака изменяется тенденция (характер) распределения значений другого признака и, соответственно, характеристики этого распределения.
Например,средние значения изучаемых признаков. Если величины Х и У находятся в статистической связи, то это не означает, что при изменении величины Х величина У обязательно будет изменяться определенным образом. Это означает только то, что при достаточно большом числе наблюдений изменение величины Х сопровождается, как правило, изменением величины У. Такая тенденция существует только в общих чертах.
Например: при изменении роста человека меняется и масса тела. Однако эта зависимость не является полной, т. е. функциональной. У людей с одинаковым ростом может быть разная масса тела, поскольку на нее влияют и многие другие факторы (питание, здоровье и т. п.). При оценке статистических связей можно говорить только о тенденции, когда возрастание одного признака вызывает тенденцию возрастания или уменьшения другого признака.
Статистическая (корреляционная) связь вскрывается и описывается с помощью различных статистических характеристик, получаемых различными методами. Выбор метода для определения взаимосвязей обусловлен видом самих признаков, способами их группировки и предполагаемым характером связи. Подчас для выявления реально существующих взаимосвязей достаточно правильно составить статистическую таблицу распределения или построить наглядный график этого распределения.
Корреляционный анализ занимается измерением степени связи между двумя переменными х и у. Вначале мы предполагаем, что как х, так и у — количественные величины, например, рост и вес.
Предположим, что есть пара величин (х, у), измеренных у каждого из пациентов в выборке. Мы можем отметить точку, соответствующую паре величин каждого пациента, на двухмерном графике рассеяния точек (рис 1,2,3). Обычно мы располагаем переменную х на горизонтальной оси, а у — на вертикальной в той же диаграмме. Размещая точки для всех пациентов, мы получаем график рассеяния точек, которые говорят о соотношении между этими двумя переменными.
В результате могут возникнуть следующие ситуации:
Рисунок 1. Положительная (прямая) корреляционная связь
Рисунок 2 Отрицательная (обратная) корреляционная связь
Рисунок. 3 Корреляционная связь отсутствует
Коэффициент корреляции Пирсона
Говорят, что соотношение между х и у линейное, если прямая линия, проведённая через центральную часть скопления точек, максимально приближена к наибольшему их количеству. Мы измеряем, как близко находятся наблюдения к прямой линии, которая лучше всего описывает их линейное соотношение путём расчёта коэффициента корреляции Пирсона (r), обычно просто называемого коэффициентом корреляции.
Коэффициента корреляции Пирсона (r) определяет силу и направление связи между зависимой и независимой переменными
Свойства коэффициента r:
• r находится в интервале от — 1 до +1.
• Его знак показывает, увеличивается ли одна переменная, по мере того как увеличивается другая (положительный г) или уменьшается (отрицательный r).
• Его величина указывает, как близко расположены точки к прямой линии. В частности, если г =+1 или г = -1, то имеется абсолютная (функциональная) корреляция по всем точкам, лежащим на линии (рис 1, рис. 2); если г=0, то линейной корреляции нет (рис. 3). Чем ближе r к крайним точкам (±1), тем больше степень линейной связи.
• Коэффициент корреляции безразмерен, т.е. не имеет единиц измерения.
• Его величина действительна только в диапазоне значений х и у в выборке. Вы не можете заключить, что он будет иметь ту же величину при рассмотрении значений х или у, значительно больших, чем в выборке.
• х и у могут заменять друг друга, не влияя на величину r (rху~rух).
• Корреляция между х и у не обязательно означает соотношение «причины и следствия».
Сила корреляционной связи между признаками оценивается по коэффициенту r согласно таблице 1
Таблица 1
Распределение значений коэффициента линейной корреляции Пирсона
|
Следует отметить, что в случае биологических факторов тот или иной характер связи сохраняется, как правило, только в определенном интервале изменений признаков. За пределами этого интервала связь может ослабнуть, стать прямо противоположной по направлению либо совсем исчезнуть.
Например, при увеличении возраста ребенка сила скелетной мускулатуры увеличивается. В зрелом возрасте такой связи уже нет. А в старших возрастных группах тенденция становится обратной.
Когда не следует рассчитывать r:
Расчёт r может ввести в заблуждение, если:
• получено нелинейное соотношение между этими двумя переменными (рис. 4, а), например, квадратичное соотношение;
• данные включают более одного наблюдения по каждому пациенту;
• присутствуют аномальные значения (рис. 4, б);
• данные содержат подгруппы пациентов, для которых средние уровни наблюдений, по крайней мере по одной из переменных, отличаются (рис. 4,в).
Рисунок 4 Диаграммы, показывающие, когда не следует рассчитывать коэффициент корреляции (Пирсона), (а) - соотношение нелинейно, r — 0. (б) - при наличии выброса (выбросов), (в) - данные состоят из подгрупп.
По величине коэффициента устанавливают направление и силу связи. Достоверность коэффициента определяют по табличным значениям и при расчете средней ошибки. Коэффициент корреляции должен превышать свою ошибку не менее чем в 3 раза.
Главные условия для расчета коэффициента корреляции Пирсона:
· выборка состоит из n независимых пар величин х и у.
· по крайней мере, одна из этих двух переменных нормально распределена.
Средняя ошибка коэффициента корреляции. Поскольку коэффициент корреляции в клинических исследованиях рассчитывается обычно для ограниченного числа наблюдений, нередко возникает вопрос о надежности полученного коэффициента. С этой целью определяют среднюю ошибку коэффициента корреляции. При достаточно большом числе наблюдений (больше 100) средняя ошибка коэффициента корреляции (mr) вычисляется по формуле:
n - число наблюдений.
В том случае, если число наблюдений меньше 100 точнее определять среднюю ошибку коэффициента корреляции, по формуле:
С достаточной для медицинских исследований надежностью о наличии той или иной степени связи можно утверждать только тогда, когда величина коэффициента корреляции превышает или равняется величине трех своих ошибок (r ≥3mr). Обычно это отношение коэффициента корреляции (r) к его средней ошибке (mr) обозначают буквой tr и
Если tr ≥ 3, то коэффициент корреляции является статистически значимым.
Пример расчета
Необходимо определить, существует ли связь между количеством часов, посвященных студентом подготовке к тестовому экзамену по статистике и итоговым количеством правильных ответов (и соответственно итоговой оценкой). В тестирование включает в себя 100 вопросов из банка тестовых заданий. В таблице приведены данные о 6 случайно выбранных студентах.
Таблица 2