Однофакторный линейный корреляционно-регрессионный анализ
Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.
Наиболее разработанной в теории статистики является методология так называемой парной корреляции - зависимости между двумя случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению другой. Например, зависимость между производительностью труда и объемом производства, зависимость между размерами активов банка и суммой прибыли банка; ростом производительности труда и стажем работы сотрудников.
Для выявления и оценки связи между изучаемыми признаками в корреляционно-регрессионном анализе необходимо построить регрессионную модель (уравнение регрессии), которая лучше других будет отражать реально существующие связи между анализируемыми признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих исследований или осуществляться эмпирически – перебором и оценкой функций разных типов.
Наиболее простым уравнением, которое характеризует прямолинейную зависимость между двумя показателями, является уравнение прямой (уравнение однофакторной корреляционной связи):
ўx=a + bx,
где х — факторный признак; y— результативный признак; а и b — неизвестные параметры уравнения регрессии.
Это уравнение описывает такую связь между двумя признаками, при которой с изменением факторного показателя на определенную величину наблюдается равномерное возрастание или убывание значений результативного показателя.
Параметры a и b оцениваются с помощью специальных методов, наибольшее распространение из которых получил метод наименьших квадратов, суть которого заключается в том, чтобы подобрать параметры уравнения ўx=a + bx с таким расчетом, чтобы квадраты суммарных отклонений фактических значений ряда (yx) от найденных по статистической модели (ўx) были бы минимально возможными, то есть:
S(yx – ўx)2 = min илиS(yx - a-bx)2 =min.
Для нахождения параметров a и b надо приравнять к нулю частные производные от полученного выражения по каждой искомой константе в отдельности. После соответствующих преобразований получают систему уравнений, которую называют нормальной:
ìSyx= na + bSx,
í
îSyx x= aSx + bSx2,
где n— количество наблюдений.
Подставив в систему имеющуюся исходную информацию, рассчитываются параметры а и b.
Параметр a является свободной переменной и не несет никакого экономического смысла, а параметр b – коэффициент регрессии - при наличии прямой зависимости имеет положительное значение, а в случае обратной зависимости – отрицательное. Кроме того, он показывает, насколько в среднем изменяется величина результативного признака y при изменении факторного признака x на 1.
Например, по данным о стоимости оборудования (x) и производительности труда (y) методом наименьших квадратов получено уравнение:
ўx = -12,14 + 2,08х.
В этом случае коэффициент b означает, что увеличение стоимости оборудования на 1 млн. руб. ведет в среднем к росту производительности труда на 2,08 тыс. руб.
Коэффициент регрессии применяют для определения коэффициента эластичности, который показывает, на сколько процентов изменится величина результативного признака y при изменении факторного признака x на 1%:
.
Для измерения тесноты связи между факторными и результативными показателями в однофакторном корреляционно-регрессионном анализе определяется коэффициент корреляции, который определяется по следующей формуле:
,
где х – факторный признак,
у - результативный признак,
– среднее квадратическое отклонение по признаку x,
– среднее квадратическое отклонение по признаку y.
Коэффициент корреляции принимает значение в интервале от -1 до +1.
Если |r|<0,3; то связь слабая; при |r|=(0,3..0,7) – средняя; при |r|>0,7 – сильная (тесная).
При |r|=1 связь называется функциональной, а при |r|=0 линейная связь между x и y отсутствует.
Квадрат коэффициента корреляции носит название коэффициента детерминации (R2).
Величина коэффициента детерминации служит одним из критериев качества линейной модели. Чем ближе его значение к 1, тем меньше роль случайных факторов, и, следовательно, данную линейную модель можно использовать для прогноза значений результативного признака.