Корреляционно-регрессионный анализ
Корреляция (англ. Correlation – соответствие, соотношение) – взаимосвязь между признаками. Заключается в изменении средней величины результативного признака в зависимости от значения фактора (факторов).
Регрессия – функция, позволяющая по величине одного корреляционно связанного признака вычислять средние значения другого.
Корреляция, регрессия парная – корреляция, регрессия между двумя признаками: результативным и факторным .
Корреляция, регрессия множественная – взаимосвязь между несколькими признаками, один из которых является результативным признаком , другие факторными признаками .
Корреляция линейная – корреляционная зависимость между признаками, носящая линейный характер.
Корреляция криволинейная – корреляционная зависимость между признаками не носит линейный характер, а выражена соответствующей кривой – парабола, гипербола, экспонента, показательная функция и т.д.
Для корректного применения корреляционного анализа требуется обоснование близости распределения значений факторного и результативного признаков к нормальному и формы связи к линейной. В противном случае необходимо использовать специальные приемы анализа или другие коэффициенты связи.
Регрессия линейная – регрессионная функция, выраженная уравнением прямой.
Линейное уравнение парной регрессии имеет вид:
, (10.1)
Решение уравнения регрессии заключается в расчете его параметров. Наибольшее распространение из методов расчета параметров уравнения получил метод наименьших квадратов (МНК). МНК позволяет получать такие значения , которые минимизируют сумму квадратов отклонений фактических значений от теоретических .
, (10.2)
При расчете параметров уравнения при помощи МНК необходимо решить систему из двух нормальных уравнений.
, (10.3)
Также используют и готовые уравнения.
Для расчета параметра :
, (10.4)
Для расчета параметра :
, (10.5)
так как получим:
или , (10.6)
где ; .
Параметр - это теоретическое значение результативного признака при и только в этом случае имеет экономический смысл, если , параметр экономического смысла не имеет. В геометрическом представлении означает координату точки пересечения линии регрессии с осью ординат.
Параметр называется коэффициентом регрессии. Коэффициент регрессии показывает, на сколько единиц, в среднем изменится результативный признак, если факторный признак увеличится на одну единицу.
Геометрически это тангенс угла наклона прямой регрессии .
Регрессия криволинейная – регрессионная функция выражена соответствующей нелинейной функцией – парабола, гипербола, экспонента, показательная, степенная функции и т.д.
Расчет степенной функции:
, (10.7)
проводят путем логарифмирования обеих частей уравнения:
, (10.8)
Обозначив через , получим линейное уравнение регрессии:
, (10.9)
Метод наименьших квадратов (МНК) для оценки параметров функции регрессии по линеаризованной степенной функции дает следующую систему уравнений:
., (10.10)
Рассчитав параметры , и составив линейное уравнение регрессии необходимо провести его потенцирование, чтобы вернуться к степенной функции.
Также можно использовать уравнения:
и , (10.11)
При определении вида функции в парной регрессии используют следующие методы:
1) графический, с использованием графика «корреляционное поле»;
2) аналитический, исходя из представления о материальной природе связи между изучаемыми признаками;
3) экспериментальный, со сравнением рассчитанных разных моделей между собой по различным критериям.
Коэффициент парной корреляции показывает тесноту связи между двумя признаками. Парный линейный коэффициент корреляции рассчитывается как:
, (10.12)
где - среднее произведение результативного и факторного признаков;
- стандартное отклонение результативного и факторного признаков.
Коэффициент парной линейной корреляции показывает тесноту линейной связи между явлениями. Может принимать значения от -1 до 1. В статистике говорят, что если значения коэффициента парной корреляции
· меньше 0,3 (-0,3) - связь положительная (отрицательная) слабая;
· от 0,3 до 0,7 (от -0,3 до -0,7) - связь положительная (отрицательная) средняя;
· свыше 0,7 (-0,7) - связь положительная (отрицательная) сильная;
· равны 1 (-1) - связь функциональная положительная (отрицательная);
· равны 0 – связь отсутствует.
Коэффициент парной детерминации показывает часть вариации результативного признака, которая сложилась под влиянием включенного в парную модель фактора. Коэффициент парной детерминации рассчитывают возводя в квадрат коэффициент парной корреляции или по формуле:
, (10.13)
где – вариация признака y объясненная влиянием фактора ;
– общая вариация признака y.
Коэффициент парной детерминации позволяет определять тесноту связи не только в линейных, но и в нелинейных моделях.
Линейное уравнение множественной регрессии имеет вид:
, (10.14)
Степенное[1] уравнение множественной регрессии имеет вид:
, (10.15)
где - свободный член уравнения;
-коэффициенты регрессии, которые показывают, на сколько натуральных единиц изменится результативный признак, если соответствующий данному коэффициенту регрессии фактор увеличится на одну единицу, также в натуральном выражении при фиксированном положении остальных факторов.
Параметры уравнения множественной линейной регрессии находят при помощи метода наименьших квадратов (МНК). МНК дает систему нормальных уравнений:
, (10.16)
Свободный член уравнения регрессии экономического смысла не имеет.
Коэффициенты регрессии показывают, на сколько единиц в среднем изменится результативный признак, при увеличении соответствующего фактора на одну единицу, при фиксированном положении остальных факторов.
Средний коэффициент эластичности показывает, на сколько процентов изменится результативный признак, если соответствующий данному коэффициенту регрессии фактор увеличится на один процент, при фиксированном положении остальных факторов. Рассчитывается как:
; ; … , (10.17)
Средний b-коэффициент показывает, на сколько стандартных отклонений изменится вариация результативного признака, если у соответствующего данному b-коэффициенту фактора вариация увеличится на одно стандартное отклонение, при фиксированном положении остальных факторов. Рассчитывается как:
, , …, , (10.18)
Множественный коэффициент корреляции показывает тесноту связи между результативным признаком и всеми включенными в модель факторами. Данный коэффициент может принимать значения от 0 до 1. Независимо от формы связи показатель множественной корреляции можно рассчитать как индекс множественной корреляции:
, (10.19)
где - остаточная дисперсия для уравнения .
Множественный коэффициент детерминации показывает часть вариации результативного признака, которая сложилась под влиянием всех включенных в модель факторов. Формула скорректированного индекса множественной детерминации имеет вид:
, (10.20)
где m - число параметров при переменных x;
x - число наблюдений.