Элементы теории корреляции
График восстановленной функциональной зависимости y(x) по результатам измерений называется кривой регрессии. Для проверки согласия построенной кривой регрессии с результатами эксперимента обычно вводят следующие числовые характеристики:
- коэффициент корреляции (линейная зависимость);
- корреляционное отношение;
- коэффициент детерминированности.
При этом результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся численности тех пар (x, y) , компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Предполагая длины интервалов группировки (по каждой переменной) равными между собой, выбирают центры (соответственно ) этих интервалов и числа в качестве основы для расчетов.
Коэффициент корреляции является мерой линейной связи между зависимыми случайными величинами. Он показывает, насколько хорошо в среднем может быть представлена одна из величин в виде линейной функции от другой.
Коэффициент корреляции вычисляется по формуле:
, (8)
где и – среднее арифметическое значение соответственно по x и y.
Коэффициент корреляции между случайными величинами по абсолютной величине не превосходит 1. Чем ближе к 1, тем теснее линейная связь между x и y.
В случае нелинейной корреляционной связи условные средние значения располагаются около кривой линии. В этом случае в качестве характеристики силы связи рекомендуется использовать корреляционное отношение, интерпретация которого не зависит от вида исследуемой зависимости.
Корреляционное отношение вычисляется по формуле:
, (9)
где а числитель характеризует рассеяние условных средних около безусловного среднего .
Всегда . Равенство соответствует некоррелированным случайным величинам; равенство выполняется тогда и только тогда, когда имеется точная функциональная связь между y и x. В случае линейной зависимости y от x корреляционное отношение совпадает с квадратом коэффициента корреляции. Величина используется в качестве индикатора отклонения регрессии от линейной зависимости.
Корреляционное отношение является мерой корреляционной связи y с x в какой угодно форме, но не может дать представления о степени приближенности эмпирических данных к специальной форме.
Чтобы выяснить насколько точно построенная кривая отражает эмпирические данные, вводится еще одна характеристика – коэффициент детерминированности.
Для его описания рассмотрим следующие величины. - Полная сумма квадратов, где среднее значение . Можно доказать следующее равенство :
Первое слагаемое равно и называется остаточной суммой квадратов. Оно характеризует отклонение экспериментальных от теоретически полученных данных.
Второе слагаемое равно и называется регрессионной суммой квадратов. Оно характеризует разброс данных.
Очевидно, что справедливо следующее равенство
Коэффициент детерминированности определяется по формуле:
(10)
Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности , который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y.
Коэффициент детерминированности всегда не превосходит корреляционное отношение. В случае, когда выполняется равенство то можно считать, что построенная эмпирическая формула наиболее точно отражает эмпирические данные.