Парная и частная корреляция в КЛММР
В случаях, когда имеется одна независимая и одна зависимая переменные, естественной мерой зависимости (в рамках линейного подхода) является выборочный (парный) коэффициент корреляции между ними.
Использование множественной регрессии позволяет обобщить это понятие на случай, когда имеется несколько независимых переменных. В этом случае необходима корректировка, так как высокое значение коэффициента корреляции между зависимой и какой-либо независимой переменной может означать высокую степень линейной зависимости, но может означать и то, что третья переменная, оказывает значительное влияние на две первых и, что именно она служит основной причиной их высокой корреляции. Поэтому необходимо найти "чистую" корреляцию между двумя переменными, исключив влияние других факторов путем расчета коэффициента частной корреляции.
Коэффициенты частной корреляции для уравнения регрессии с двумя независимыми переменными рассчитываются как:
, (3.13)
, (3.14)
, (3.15)
где - коэффициент частной корреляции между y и x1 при исключенном влиянии x2;
- коэффициент частной корреляции между y и x2 при исключенном влиянии x1;
- коэффициент частной корреляции между x1 и x2, исключающий влияние y.
Заметим, что парные линейные коэффициенты корреляции, стоящие в правых частях формул (3.13)-(3.15), могут быть рассчитаны с помощью формулы (2.9).
Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по следующей рекуррентной формуле:
(3.16)
Коэффициенты частной корреляции широко используются на стадии формирования модели, при отборе факторов.
Так, например, при построении многофакторной модели применяется метод исключения переменных, в ходе которого строится уравнение регрессии с полным набором переменных, затем рассчитывается матрица частных коэффициентов корреляции. Далее проверяется статистическая значимость каждого из коэффициентов согласно t-критерию Стьюдента. Независимая переменная, имеющая наименьшую и несущественную корреляцию с зависимой переменной, исключается. Затем строится новое уравнение регрессии, и процедура продолжается до тех пор, пока не окажется, что все частные коэффициенты корреляции статистически значимы, то есть существенно отличаются от нуля.
Проверка статистической значимости частного коэффициента корреляции суть проверка гипотезы о том, что он равен нулю
Н0: .
Рассчитывается статистика:
(3.17)
Вывод о значимости частного коэффициента корреляции делается при |t|>te, где te соответствующее табличное значение t-распределения с (n- (k+1)) степенями свободы.
Пример (продолжение примера 1). Рассчитаем парные линейные коэффициенты корреляции, применяя формулу (2.9) и одновременно проверяя их статистическую значимость.
=3,68,
=3,60,
=2,80.
Составим матрицу парных линейных коэффициентов корреляции (в скобках значение t-статистик):
y | x1 | x2 | |
y | 1,0 | 0,6553 (3,68) | 0,6346 (3,60) |
x1 | 0,6553 (3,68) | 1,0 | 0,1247(2,80) |
x2 | 0,6346(3,60) | 0,1247(2,80) | 1,0 |
Коэффициент корреляции между y и x1, свидетельствует о прямой статистически значимой связи между стоимостью перевозки и весом перевозимого груза. Коэффициент корреляции между y и x2 также свидетельствует о прямой и статистически значимой связи между стоимостью перевозки и расстоянием перевозки. Величина статистически значимого коэффициента корреляции между x1 и x2 означает практическое отсутствие взаимосвязи между расстоянием перевозки и весом груза, что не противоречит первоначальным предположениям о том, что расстояние перевозки не может быть обусловлено весом груза и наоборот.
Рассчитаем коэффициенты частной корреляции согласно формулам (3.13)-(3.15) и проверим их значимость согласно (3.17):
0,7513; =4,69, 0,7377; =4,51, -0,4987; =-2,37.
Составим матрицу частных коэффициентов корреляции (в скобках значение t-статистик):
y | x1 | x2 | |
y | 1,0 | 0,7513 (4,69) | 0,7377 (4,51) |
x1 | 0,7513 (4,69) | 1,0 | -0,4987(-2,37) |
x2 | 0,7377(4,51) | -0,4987(-2,37) | 1,0 |
Как уже говорилось ранее, частные коэффициенты корреляции показывают "чистую" корреляцию пары переменных, исключающую влияние прочих переменных, включенных в уравнение. Таким образом, наиболее сильной является взаимосвязь между стоимостью перевозки и весом груза. Однако заметим, что частные коэффициенты корреляции между y и x1, y и x2 свидетельствуют о более сильных взаимосвязях независимых переменных с зависимой, чем это показывают значения парных коэффициентов корреляции. Это произошло потому, что парный коэффициент корреляции завысил тесноту связи между x1 и x2, занизив при этом тесноту связи между y и x1, y и x2. Отметим также, что все частные коэффициенты корреляции статистически значимы. Ñ