Парная множественная корреляция
Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы (табл. 8.1).
Таблица 8.1
y x | …. | Итого | ||||
… | ||||||
… | ||||||
... | … | … | … | … | … | … |
… | ||||||
Итого | … | n | ||||
… | – |
В основу группировки положены два признака: x и y. Частоты графика показывают количество сочетаний x и y. Если расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания допустимо утверждение о связи между x и y. При этом, если концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.
Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точками. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи. Если между x и y графика есть корреляция, то в размещении точек наблюдается определенная закономерность: они размещены в форме полосы или эллипса, оси которых не параллельны осям координат.
При наличии связи точки размещены или в виде эллипса, неориентированного вдоль осей координат, случай линейной зависимости (рис. 8.1), либо в виде неправильной полосы, случай нелинейной связи (рис. 8.2).
Рис. 9. Прямая линейная связь Рис. 10. Прямая нелинейная связь
При отсутствии связей имеет место беспорядочное расположение точек на графике.
Рис. 11. Связь отсутствует Рис. 12. Связь отсутствует
Теснота корреляционной связи между факторными и результативными признаками может исчисляться с помощью линейного коэффициента корреляции. Линейный коэффициент корреляции (r) был впервые введен в начале 90-х гг. XIX в. Пирсоном, Эджвортом и Велдоном и характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. В теории разработаны и на практике применяются различные модификации формул расчета данного коэффициента:
(8.1)
Преобразования данной формулы позволяют получить следующие формулы линейного коэффициента корреляции:
(8.2)
или
(8.3)
где n – число наблюдений.
Производя расчет по итоговым значениям переменных, линейный коэффициент корреляции можно вычислить по формуле:
(8.4)
Коэффициент корреляции может быть выражен через дисперсии слагаемых:
(8.5)
или
(8.6)
Приведенные соотношения для коэффициента корреляции применяются при изучении совокупностей малого объема
Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределение которых близко к нормальному. Легко доказать, что условие r = 0 является необходимым и достаточным для того, чтобы величины x и y были независимы. Линейный коэффициент корреляции изменяется в пределах от –1 до +1. Принято считать, что если , то это средняя связь, при сильная или тесная связи. Если связь функциональная.
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента:
(8.7)
При большом числе наблюдений (n > 100) используется следующая формула t-критерия Стьюдента:
(8.8)
Если расчетное значение (табличное), то это свидетельствует о значимости линейных коэффициентов корреляции, следовательно,
и о статистической существенности зависимости между параметрами.
Для статистически значимого линейного коэффициента корреляции можно построить интервальные оценки с помощью z-распределения Фишера:
(8.9)
Пример.На основе выборочных данных о деловой активности однотипных коммерческих структур оценить тесноту связи между прибылью (тыс. руб.) (y) и затратами на 1 руб. произведенной продукции (x). Расчетные данные для определения коэффициента корреляции приведены в табл. 8.2.
Таблица 8.2
№ п/п | y | x | yx | y2 | x2 |
1 070 1 001 | 21 216 82 390 77 077 53 934 63 878 63 909 | 48 841 1 144 900 1 002 000 367 236 606 841 622 520 | 9 216 5 929 5 929 7 921 6 724 6 561 | ||
Сумма | 4 466 | 362 404 | 3 792 338 | 42 280 | |
Средняя | 744,33 | 83,67 | 60 400,67 | 63 2056,33 | 7 046,67 |
Решение. Используя формулу коэффициента корреляции
, (8.10)
получаем:
Проверка значимости коэффициента корреляции:
Так как можно сделать заключение о значимости данного коэффициента корреляции.
В случае наличия линейной и нелинейной зависимости между двумя признаками для измерения тесноты связи применяют так называемое корреляционное отношение. Различают эмпирическое и теоретическое корреляционное отношение.
Эмпирическое корреляционное отношениерассчитывается по данным группировки, когда межгрупповая дисперсия ( ) характеризует отклонение групповых средних результативного показателя от общей средней:
(8.11)
где – корреляционное отношение;
общая дисперсия;
– средняя из частных (групповых) дисперсий;
межгрупповая дисперсия (дисперсия групповых средних).
Все эти дисперсии являются дисперсиями результативного признака. Теоретическое корреляционное отношениеопределяется по формуле:
(8.12)
где дисперсия выравненных значений результативного признака, рассчитанных по уравнению регрессии;
дисперсия эмпирических (фактических) значений результативного признака.
Дисперсии выравненных и эмпирических значений результативного признака рассчитываются по формулам:
(8.13)
Тогда
(8.14)
объясняется влиянием факторного признака.
Корреляционное отношение изменяется в пределах от 0 до 1 и анализ степени тесноты связи полностью соответствует линейному коэффициенту корреляции. Корреляционное отношение является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.
Множественный коэффициент корреляции. Для измерения тесноты связи при множественной корреляционной зависимости вычисляются множественный или частные коэффициенты корреляции. Множественый коэффициент рассчитывается при наличии линейной связи между результативным и несколькими факторными признаками, а также между каждой парой факторных признаков.
В случае оценки связи между результативным (y) и двумя факторными признаками (x1) и (x2) множественный коэффициент корреляции можно определить по формуле:
, (8.15)
где r – парные коэффициенты корреляции между признаками.
Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: . Приближение коэффициента к единице свидетельствует о сильной зависимости между признаками.
Проверка значимости коэффициента множественной корреляции осуществляется на основе F-критерия Фишера-Снедекора:
(8.16)
Если Fр > Fкр (табличное), это свидетельствует о значимости коэффициента множественной корреляции.
Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками – х1 и х2 при фиксированном значении других факторных признаков, т. е. когда влияние х3 исключается и оценивается связь между х1 и х2 в “чистом виде”.
В случае зависимости y от двух факторных признаков х1 и х2 коэффициент частной корреляции следующий:
(8.17)
(8.18)
где r – парные коэффициенты корреляции между указанными в индексе переменными.
Проверка значимости аналогична проверке значимости для парных коэффициентов [1, 7–12].