Статистическая связь двух переменных. Коэффициент корреляции
Во многих экономических задачах требуется выявить и оценить зависимость одной переменной Y от другой — X. Переменную Y в этом случае называют зависимой, выходной, объясняемой, результирующей, результативной переменной или просто — результатом. Переменную X, которая, как предполагается, влияет на результат Y, называют независимой, входной, объясняющей, предсказывающей, факторнойпеременнойили фактором.
Между переменными X и Y могут быть две категории связи:
1. Функциональная связь — если каждому значению фактора X соответствует единственное значение результата Y.
2. Статистическая (стохастическая, вероятностная) связь— если фиксированному значению фактора X соответствует не одно, а множество возможных значений результата Y, причем из-за влияния других факторов (неучтенных или случайных) заранее неизвестно, какое конкретно значение из этого множества примет Y.
Если функциональная связь между переменными проявляется в каждом отдельном случае, то наличие статистической связи можно выявить только в виде общей тенденции при массовом сопоставлении фактов.
Статистические связи между переменными исследуются методами корреляционно-регрессионного анализа, основными задачами которого являются: обнаружение связи между переменными и оценка ее тесноты (силы), описание связи математической функцией и оценка параметров этой функции, прогноз неизвестных значений результата при заданных значениях фактора (факторов).
Простейшей формой связи между двумя переменными (X и Y) является линейная связь. Для измерения ее тесноты и направления используется парный коэффициент линейной корреляции
, | (2.1) |
где , — средние значения переменных X и Y в исходных данных; n — число пар наблюдений X и Y.
Коэффициент корреляции имеет следующие свойства:
1. Коэффициент корреляции является показателем тесноты только линейной связи между переменными.
2. Коэффициент корреляции является безразмерной величиной и не зависит от выбора единиц измерения переменных.
3. Коэффициент корреляции принимает значения в интервале от –1 до +1.
4. Если переменные X и Y абсолютно независимы, то коэффициент корреляции равен нулю. Однако обратное утверждение в общем случае не верно. Равенство коэффициента корреляции нулю еще не означает, что переменные X и Y независимы. Это говорит лишь о том, что между ними отсутствует линейная связь, но может существовать связь другой формы.
5. Если коэффициент корреляции равен по абсолютной величине единице, то это указывает налинейную функциональную связь между переменными.
6. Чем ближе абсолютная величина коэффициента корреляции к единице, тем теснее линейная связь между переменными.
7. Положительное значение коэффициента корреляции означает, что линейная связь между переменными X и Y прямая, отрицательное значение указывает наобратную связь.
8. При расчете коэффициента корреляции по формуле (2.1) не имеет значения, какая из переменных зависимая, а какая — независимая. Поэтому .
Коэффициент корреляции является случайной величиной, так как он вычисляется по фактическим значениям переменных X и Y и, следовательно, зависит от особенностей исходных данных и их объема. Поэтому отличие коэффициента корреляции от нуля еще не означает, что переменные X и Y связаны линейным соотношением. Факт наличия такой связи обычно считается установленным, если коэффициент корреляции существенно (значимо) отличается от нуля или, другими словами, если абсолютная величина коэффициента корреляции превышает критическое значение:
, | (2.2) |
где — критическое значение коэффициента корреляции при принятом уровнем значимости a и числе степеней свободы (приложение 1); tтаб — табличное значение t-критерия Стьюдента при уровне значимости a и числе степеней свободы (приложение 3).
Здесь уровень значимости a — это вероятность отклонить на основе имеющихся статистических данных гипотезу об отсутствии линейной связи между двумя переменными, тогда на самом деле она верна. Другими словами, a — это наибольшая вероятность того, что вывод о наличии линейной связи будет ошибочным. Обычно уровень значимости задают равным 0,05.
Линейную связь между переменными принято считать тесной, если коэффициент корреляции превышает по абсолютной величине 0,8. Такие переменные называют коллинеарными.
На рис. 2.1 показаны графики, на которых по горизонтальной оси откладываются значения независимой переменной X, а по вертикальной оси — зависимой переменной Y. Каждая точка на графике соответствует одному из исследуемых объектов или одному моменту (интервалу) времени с известными значениями X и Y. Такой график называется полем корреляции или корреляционным полем.
а) функциональные связи: прямая (ry,x=1) и обратная (ry,x=–1) | б)тесная прямая связь (ry,x=0,85) |
в)значимая при a=0,05 обратная связь (ry,x=–0,6) | г)незначимая при a=0,05 прямая связь (ry,x=0,3) |
д) связь отсутствует (ry,x=0) | е)ярко выраженная нелинейная связь (ry,x=0) |
рис. 2.1. Линейные связи между двумя переменными (n=20)