Корреляционная зависимость. Уравнения регрессии
Функциональные зависимости достаточно хорошо знакомы читателю. Часто эти зависимости можно выразить аналитически. Например, площадь круга зависит от радиуса (S = pr2), ускорение тела — от силы и массы (а = F/m0) и т. д.
При изучении объектов в биологии и медицине приходится иметь дело с функциональными связями другого рода. При этом определенному значению одного признака соответствует не одно значение другого, а целое распределение значений. Такая связь называется корреляционной связью, или просто корреляцией. Корреляционная связь, например, между возрастом и ростом детей выражается в том, что каждому значению возраста соответствует определенное распределение роста (а не одно единственное значение). При этом с увеличением возраста (до определенных пределов) возрастает и среднее значение роста.
Количественную характеристику взаимосвязи изучаемых признаков можно дать на основании вычисления показателя силы связи между ними (коэффициента корреляции) и определения зависимости одного признака от изменений другого (уравнения регрессии). Коэффициент корреляции определяет не только степень, но и направление связей между величинами. Если отсутствие функциональной зависимости между величинами условно соответствует нулевой корреляции, а полная функциональная зависимость — корреляции, равной единице, то сила корреляционной связи, вообще говоря, измеряется промежуточными значениями (от 0 до +1). При этом при положительном коэффициенте корреляции с увеличением одной величины возрастает и другая. Если же коэффициент корреляции отрицателен, то возрастание одного параметра сопровождается уменьшением другого.
В простом случае при линейной зависимости между исследуемыми параметрами используют коэффициент корреляции Бравэ — Пирсона, вычисляемый по формуле:
(3.32)
Здесь п — количество пар анализируемых признаков, —выборочные средние значения в распределениях соответствующих параметров, — средние квадратические отклонения. Рассчитанный по формуле (3.32) коэффициент корреляции сравнивают с теоретическим, который находят в специальной таблице с учетом определенного уровня значимости и объема выборки (см. табл. 12). Входными значениями таблицы являются число пар исследуемых признаков (п) и уровень значимости (0,05 или 0,01). При этом нулевая гипотеза заключается в том, что корреляционной связи между исследуемыми параметрами не существует. Если получают значения коэффициента корреляции больше табличного, с определенной степенью вероятности полагают, что корреляция в генеральной совокупности отличается от нуля.
Таблица 12. Критические значения выборочного коэффициента корреляции г для двух уровней значимости
п | 0,05 | 0,01 | п | 0,05 | 0,01 | п | 0,01 | 0,01 | п | 0,05 | 0,01 |
Примечание. Нуль целых и запятая в значениях r опущены. Нулевая гипотеза отбрасывается при r > r0 с данным уровнем значимости (0,05 или 0,01).
Покажем на примере, как рассчитывают коэффициент корреляции Бравэ—Пирсона.
*Оценить взаимосвязь частоты пульса X и максимального артериального давления Y у детей:
Х (удары/мин) 121,8 119,2 111,3 113,3 98,3 93,8
Y (мм.рт.ст) 99,5 103,0 103,1 106,8 99,1 99,2
Согласно нулевой гипотезе, корреляционной связи между изучаемыми параметрами нет. Рассчитаем выборочные средние значения и средние квадратичные отклонения для приведенных выше выборок исследуемых параметров: = 109,6; = 101,8; sх = 10,29 и sу = 2,81. По формуле (3.32) рассчитываем коэффициент корреляции r = 0,44. Затем обращаемся к таблице 12 и находим для шести пар признаков (п = 6), теоретическое значение коэффициента корреляции 0,811 при уровне значимости 0,05 и 0,917 при уровне значимости 0,01. В том и другом случае нулевая гипотеза оказывается справедливой и корреляционной связи между анализируемыми признаками не существует с вероятностью 0,95 и 0,99.
Количественное представление зависимости изменений одного признака от изменений другого позволяет получить показатели регрессии. Как правило, анализ регрессии начинают с графического изображения данных. При большом числе исходных данных для выявления общей закономерности вычисляются средние значения одного признака (у) в группах (классах), соответствующих определенному интервалу значений другого признака (х). При построении графика по усредненным данным точки на графике располагаются вдоль так называемой эмпирической линии регрессии. Затем проводят подбор и составление уравнения регрессии. С помощью такого уравнения можно теоретически рассчитать значения, которые должен принимать один признак при определенных значениях другого (уравнение прогноза).
Если предполагается существование линейной зависимости между исследуемыми признаками (линейная регрессия), то проводить регрессионный анализ наиболее просто. Часто при этом применяют графический метод. Для проведения линии регрессии используют прозрачную линейку, придавая ей такое положение, чтобы выше и ниже предполагаемой линии регрессии оказалось приблизительно одинаковое число эмпирических точек. На полученной прямой определяют координаты двух наиболее отдаленных точек x1, yl и х2, у2. Затем составляют систему двух уравнений:
Из полученной системы уравнений определяют неизвестные а и Наконец, при известных коэффициентах а и b записывают уравнение прогноза, на основании которого можно рассчитать значение параметра у при известном значении х.
В настоящее время при статистическом анализе экспериментальных данных ироко используются компьютерные вычислительные программы, позволяющие проводить корреляционный и регрессионный анализ. Более подробно практическое применение этого вида анализа рассматривается в курсе социальной гигиены и организации здравоохранения.