Корреляционно-регрессионный анализ
Корреляционно-регрессионный анализ решает две важные, неразрывные и дополняющие друг друга задачи:
1) определение формы связи между признаками х и у, т.е. установление математической модели или аналитического выражения этой связи;
2) измерение тесноты, т.е. меры связи между х и у.
1-ая задача решается с помощью регрессионного анализа, 2-ая – с помощью корреляционного анализа. Последовательность их решения может быть различной: вначале регрессионный анализ, а затем корреляционный либо наоборот.
Регрессионный анализ начинается с выбора формы связи между признаками х и у. Определяющая роль в этом выборе отводится теоретическому анализу (например, рост текучести кадров будет вызывать падение уровня производительности труда; рост заработной платы будет сопровождаться ростом производительности труда и т.д.).
В зависимости от характера изменения признака-результата под влиянием изменения признака-фактора теоретическая форма связи может принимать различные виды уравнений:
– прямой ;
– параболы ;
– гиперболы ;
– показательной функции ;
– и др.
Выбор формы связи всегда является несколько условным, так как статистическая зависимость только приближается к функциональной, а исследователь осуществляет поиск функциональной связи. Для выбора формы связи могут быть использованы такие элементарные методы изучения взаимосвязей, как графический или балансовый.
Теоретическая линия связи, с помощью которой описывается исследуемая статистическая связь, называется уравнением регрессии, выбор, построение и анализ этого уравнения – регрессионным анализом.
Рассмотрим на примере линейной зависимости:
.
После того, как определён выбор типа функции, необходимо решить уравнение регрессии, то есть найти параметры этого уравнения a0 и a1.
Независимо от формы связи параметры a0 и a1 уравнения регрессии определяются с помощью метода наименьших квадратов.
Система нормальных уравнений метода наименьших квадратов для линейного уравнения имеет вид:
.
Для нахождения в нашем примере используем таблицу 10.2. В результате получаем:
.
В результате решения этой системы получаем значения: а0 =0,279, а1 = 0,059.
Для нашего примера уравнение регрессии принимает вид:
.
Подставляя значения x в уравнение регрессии, определяем теоретические уровни признака-результата (таблица 10.2), а затем рассчитываем ошибку (или расхождение), которая не должна превышать 1 %:
. (10.5)
В нашем примере:
.
Следовательно, форма связи выбрана правильно.
Анализ (экономическая интерпретация) уравнения регрессии основан на параметре a1, который называют коэффициентом регрессии. Он показывает на сколько в абсолютном выражении изменится признак-результат при изменении признака-фактора на единицу.
В нашем примере: увеличение удельного веса активной части в общей стоимости основных средств на 1 процентный пункт вызывает рост фондоотдачи на 0,059 рублей.
Для более удобного восприятия результатов регрессионного анализа целесообразно рассчитывать коэффициент эластичности. Он выражает зависимость y от x в %-ах и определяется по формуле
. (10.6)
В нашем примере: ; ;
.
Это означает, что при увеличении удельного веса активной части основных средств на 1 % фондоотдача возрастает на 1,09 %.
Если уравнение регрессии yx = -0,279 + 0,059x нанести на график (корреляционное поле) и провести на нём ещё одну линию (рисунок 10.2), то на графике получится три линии, расположение которых имеет своё объяснение:
- большой угол наклона (yx) теоретической линии связи (2) к горизонтальной линии (3) свидетельствует о наличии тесной связи между x и y.
- несовпадение теоретической линии (2) связи (yx) и эмпирической (1) (ломаной линии) объясняется действием на признак-результат не только фактора x, но и других факторов.
Значение уравнения регрессии на практике: предполагая, что признак-фактор примет определённое значение, можно составить прогноз признака-результата.
|
Рисунок 10.2 – Корреляционное поле зависимости фондоотдачи (у) от удельного веса активной части основных средств (x)
Корреляционный анализ предполагает оценку тесноты связи между признаками x и y.
В случае линейной зависимости для оценки степени тесноты этой связи используется линейный коэффициент корреляции (он нашёл наибольшее распространение на практике).
В теории статистики существует множество формул для определения линейного коэффициента корреляции. Исходным положением является следующее: линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений для x и y:
(10.7)
Другой вид формулы получается в том случае, если и как постоянные величины выносятся за знак суммы:
(10.8)
Путём математических преобразований можно данную формулу привести к виду:
, при этом: (10.9)
, (10.10)
. (10.11)
Рассчитаем необходимые составляющие последней формулы для нашего примера (по таблице 10.2):
; ; .
Из раздела 10.3 , следовательно .
Все дальнейшие необходимые расчеты проведем в таблице 10.2. По данным графы 5:
;
а квадрат средней величины признака-фактора: .
Следовательно: .
По данным графы 8 таблицы 10.2: ;
а квадрат среднего значения признака-результата: .
Тогда .
Подставляя полученные значения в формулу 10.9, получаем
.
Иногда линейный коэффициент корреляции удобно рассчитывать по итоговым суммам:
(10.12)
В нашем примере (по данным таблицы 10.2):
.
Достаточно часто линейный коэффициент корреляции может быть рассчитан и по более простой формуле
. (10.13)
В примере: .
Линейный коэффициент корреляции может быть рассчитан и по другим производным от указанных формул, однако методика его исчисления на результат не влияет.
Коэффициент корреляции может принимать значения от -1 до +1. При этом положительное значение коэффициента указывает на наличие прямой связи, а отрицательное – обратной.
В оценке тесноты связи обычно руководствуются следующими соотношениями:
[r] связь
< 0,3 слабая
0,3:0,5 умеренная
0,5:0,7 заметная
> 0,7 высокая (тесная).
В нашем примере r = 0,87, следовательно, между признаками существует прямая тесная связь.
Учитывая, что r рассчитывается по выборке, он, как и любой выборочный показатель, подвержен случайным ошибкам. Оценка значимости линейного коэффициента корреляции производится по критерию Стъюдента:
, (10.14)
где – средняя квадратическая ошибка r.
При небольшом n (n < 30) средняя ошибка:
. (10.15)
Тогда расчетное значение t-критерия определяется по формуле
(10.16)
и сравнивается с табличным.
Условие ≥ должно выполняться.
В нашем примере:
При n = 10 t = 3,35.
Следовательно, > , а это означает, что полученное значение коэффициента корреляции достоверно.
Линейный коэффициент корреляции служит показателем тесноты связи в линейных зависимостях. Однако универсальным показателем тесноты связи считается теоретическое корреляционное отношение. Оно представляет собой относительную величину сравнения среднего квадратического отклонения теоретических уровней признака результата от и среднего квадратического отклонения эмпирических уровней признака результата от :
. (10.17)
факторная общая
дисперсия дисперсия
Эта формула может быть преобразована следующим образом:
. (10.18)
Если учесть, что дисперсия эмпирического ряда характеризует общую вариацию признака-результата за счёт всех факторов (включая и фактор x), а дисперсия теоретического ряда характеризует только ту часть вариации, которая обусловлена действием фактора x, то отношение второй дисперсии к первой показывает, какую долю в общей дисперсии занимает дисперсия, вызванная фактором x.
Это отношение получило название «теоретический коэффициент детерминации»:
. (10.19)
Если учесть, что остаточная дисперсия (то есть дисперсия, вызванная действием других, неучтённых факторов) может быть рассчитана по формуле
(10.20)
по правилу сложения дисперсий:
= (т.е. вызванная фактором x) + (вызванная другими факторами).
Следовательно:
= - . (10.21)
Тогда используемое в формуле теоретического корреляционного отношения выражение:
. (10.22)
Рассчитанное в таком виде корреляционное отношение обычно называют индексом корреляции:
. (10.23)
Индекс корреляции применяется для оценки тесноты связи линейной и нелинейной, парной и множественной.
Индекс корреляции может находиться в пределах от 0 до 1:
R = 1 – связь функциональная ,
R = 0 – связь отсутствует .
Интерпретация индекса корреляции обычно производится аналогично коэффициенту корреляции.
Рассчитаем индекс корреляции для нашего примера (по данным таблицы 10.2.):
,
,
.