Выборочный коэффициент корреляции
После выбора вида уравнения регрессии и определения параметров этого уравнения должна быть решена вторая проблема корреляционного анализа, которая состоит в выяснении силы или, как говорят, тесноты связи между признаками Х и Y. Ранее мы видели, что эту задачу решает дисперсионный анализ, причем можно заметить, что методы дисперсионного анализа никак не учитывают форму связи признаков. В этом состоит сила дисперсионного анализа - с его помощью можно оценивать тесноту связи для любого вида уравнения регрессии. Вместе с тем в этой общности заключается и недостаток методов дисперсионного анализа, поскольку они не позволяют судить о том, насколько близко расположены точки, соответствующие экспериментальным данным к кривой определенного вида, например, к прямой регрессии на . Тесноту именно линейной зависимости признака Y от признака Х характеризует выборочный коэффициент корреляции r, который вводится следующим образом.
Вернемся к уравнению (19) прямой регрессии на , в котором коэффициент регрессии представим в виде:
, (20)
где .
Выражения, стоящие под радикалами, есть выборочные средние квадратические отклонения признаков Х и Y:
.
Выборочным коэффициентом корреляции r называется выражение вида:
(21)
Таким образом, уравнение прямой регрессии имеет вид
(22)
Отметим свойства коэффициента корреляции, которые позволяют использовать его для оценки тесноты линейной зависимости признака Y от Х.
Свойство 1. Абсолютная величина коэффициента не превосходит единицы:
(23)
Свойство 2. Выполнение условия r=±1 необходимо и достаточно для того, чтобы Y и Х были связаны линейной функциональной зависимостью.
Свойство 3. Если признаки X и Y связаны линейным уравнением регрессии, а коэффициент корреляции равен нулю, то все групповые средние признака Y одинаковы. В этом случае говорят, что между Х и Y нет линейной корреляционной зависимости.
Замечание. Если выборочный коэффициент равен нулю, то отсюда следует отсутствие у признаков Х и Y лишь линейной корреляционной связи. Однако при этом не исключается наличие нелинейной корреляционной (и даже функциональной!) зависимости.
Свойство 4. Коэффициент корреляции характеризует тесноту линейной корреляционной связи признаков: чем ближе к единице, тем теснее значения признака Y «ложатся» на прямую регрессии на ; чем ближе к нулю; тем связь слабее.
На практике для характеристики тесноты линейной корреляционной зависимости признаков используют так называемую шкалу Чеддока:
диапазон изменения | до 0,3 | 0,3-0,5 | 0,5-0,7 | 0,7-0,9 | выше 0,9 |
характеристика тесноты связи | слабая | умеренная | заметная | высокая | весьма высокая |
Необходимо, однако, высказать некоторые замечания относительно абсолютизации коэффициента корреляции в качестве оценки тесноты связи.
Коэффициент корреляции используется и в теории вероятностей, когда речь идет о совместном распределении случайных величин Х и Y. Доказывается, что если , то случайные величины зависимы. Для случайные величины некоррелированы, но не обязательно независимы. Исключение составляет случай двумерного нормального распределения.
В матстатистике при практической интерпретации выборочного коэффициента корреляции следует быть осторожными , чтобы не получить ошибочных выводов.