Множественная и частная корреляция
В предыдущем материале по теме рассматривалась зависимость между двумя признаками, т.е. речь шла о так называемой парной корреляции. На практике чаще всего приходится рассматривать корреляционную связь одновременно между тремя и более признаками. В таких случаях изучение корреляционной связи не может ограничиваться парными зависимостями; в анализ необходимо включить другие признаки-факторы, также существенно влияющие на формирование и развитие зависимого признака. Одновременное изучение корреляции нескольких признаков (больше двух) проводится на основании использования методов множественной корреляции. Например, уровень фондоотдачи, как известно, зависит от размеров предприятия, удельного веса активной части, форм воспроизводства основных производственных фондов, степени изношенности их и ряда других факторов-признаков.
Для измерения степени тесноты связи между изменениями величин результативного признака у и изменениями значений факториальных признаков вычисляется коэффициент множественной (совокупной) корреляции.
Величина совокупного коэффициента корреляции для случая зависимости результативного признака от двух факторных признаков исчисляется по формуле
.
В данной формуле символ «0» присвоен результативному признаку y, а символ «1», и «2» соответствует номерам факторов-признаков. Т.е. - коэффициенты корреляции между изменениями первого факторного признака и результативным признаком у, и результативным признаком у, между факторными признаками и . Как видели выше, эти коэффициенты в теории корреляции называются парными коэффициентами корреляции.
Величина называется коэффициентом детерминации для множественной корреляции и показывает в какой мере вариация результативного признака у обусловлена влиянием изучаемых признаков факторов (обычно в процентах после умножения на 100).
Величина коэффициента множественной корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе совокупный коэффициент корреляции к единице, тем меньше роль неучтенных в модели факторов и тем больше оснований считать, что данная модель эффективно отражает реальную действительность.
Для исчисления коэффициента множественной корреляции в общем случае (большом числе факторов) используются матрицы парных коэффициентов корреляции и коэффициент множественной детерминации. А коэффициент множественной детерминации определяется по следующей формуле
.
Взаимная зависимость между факторами-признаками называется мультиколлинеарностью и в качестве критерия мультиколлинеарности принимаются следующие неравенства
,
.
Если из этих неравенств не выполняется хотя бы одно, то из модели необходимо исключить один из признаков-факторов ( или ), связь которого с результативным признаком у будет менее тесной. Однако при этом необходимо помнить, что окончательный вывод о наличии или отсутствии мультиколлинеарности должен быть сделан в соответствии с теорией и логикой взаимосвязи между конкретными факторными признаками.
Для более глубокого исследования множественной корреляции необходимо установить степень тесноты связи между результативным признаком у и каждым из факторных признаков при исключении влияния других факторных признаков.
Для решения этой задачи определяются так называемые коэффициенты частной корреляции, выявляющие степень «чистого» влияния факторного признака на результативный признак. Для исчисления частных коэффициентов корреляции могут быть использованы парныекоэффициенты корреляции:
,
,
где и - соответственно частный коэффициент корреляции между результативным признаком у и фактором и при элиминировании влияния другого фактора ( или ).
Коэффициент частной корреляции, следовательно, отражает какую часть колеблемости у от влияния всех факторов вызывает рассматриваемый фактор при исключении влияния других.
Для общего случая частные коэффициенты корреляции можно определить по формуле
,
где - коэффициент детерминации результативного признака у с комплексом факторных признаков ;
- коэффициент детерминации результативного признака у с набором признаков-факторов ;
- частный коэффициент корреляции у с факторным признаком при исключении влияния других факторов .
При расчете набора всех частных коэффициентов корреляции m последовательно изменяется от первого до последнего фактора включительно.
Изложенные выше положения множественной корреляции рассмотрим на учебном примере. Необходимо отметить, что теория корреляции располагает рядом других подходов для решения задач изучения множественной корреляции: расчет коэффициента множественной корреляции как отношения дисперсии отклонений эмпирических значений от расчетных значений по уравнению множественной регрессии результативного признака к дисперсии эмпирических значений результативного признака (формула будет приведена ниже), расчеты коэффициентов эластичности , стандартизированных частных коэффициентов регрессии, - коэффициентов и - коэффициентов и др.
Итак, расчет коэффициента множественной корреляции между зависимым признаком у и многими независимыми признаками-факторами на базе уравнения множественной регрессии может осуществляться по формуле
,
где у – эмпирические значения результативного признака у;
- средняя величина результативного признака;
- теоретические значения результативного признака у, рассчитанные по уравнению множественной регрессии;
- дисперсия эмпирических значений результативного признака;
- дисперсия отклонений эмпирических значений относительно теоретических значений результативного признака.
Пример. Изучить производительность труда (выработки за смену) от продолжительности внутрисменных простоев и длительности производственного стажа.
Решение.
1) Исходные данные, расчет промежуточных результатов для определения парных коэффициентов корреляции, коэффициента множественной корреляции и коэффициентов частной корреляции представим таблично (см. ниже).
2) Расчет средних величин
шт; шт; года.
3) Расчет парных коэффициентов корреляции
Между факторами имеется значительная обратная взаимосвязь. Исходя из условия и видим нарушение первого условия и строго говоря фактор необходимо исключить из регрессионной модели.
Для учебных целей этого не сделаем. Сохраним модель в первоначальном виде по формальным соображениям.
4) Расчет коэффициента множественной корреляции
,
без учета знака.
Табельный номер рабочего | Выработка изделий за смену в штуках у | Продолжительность внутрисменных простоев в минутах | Длительность производственного стажа в годах | |||||||||
№51 | -4 | -1 | -20 | -5 | ||||||||
№52 | -7 | -2 | -7 | -2 | ||||||||
№53 | -5 | -1 | -15 | -3 | ||||||||
№54 | -3 | -21 | -3 | |||||||||
№55 | ||||||||||||
№56 | -2 | |||||||||||
№57 | -1 | -1 | -2 | |||||||||
№58 | -3 | -1 | -3 | -1 | ||||||||
№59 | -4 | -40 | -8 | |||||||||
№60 | -1 | -1 | ||||||||||
Итого | - | - | - |
, .
5) Расчет частных коэффициентов корреляции
;
.
13.6. Статистические исследования формы корреляционной связи.
Линия регрессии и уравнение регрессии
Как указывалось в параграфе 3, график корреляционной связи, построенный по групповым средним называется эмпирической линией связи (или эмпирической линией регрессии). Изломы эмпирической линии регрессии (т.е. ломаной, последовательно соединяющей точки с групповыми средними), как правило, обусловлены тем, что на результативный признак оказывают влияние кроме рассматриваемого факторного признака х и другие факторы.
Во многих случаях внешний вид эмпирической линии регрессии позволяет зрительно установить теоретическую форму зависимости у от х.
Даже и в этом случае главной в обосновании формы теоретической линии регрессии должна быть теория изучаемого явления и рассматриваемых признаков. Именно сущность (теория) явления с учетом природы изучаемых признаков должна служить основой для выбора формы взаимосвязи между данными признаками.
Здесь теоретической линией регрессии называется та линия, которая указывает основное направление (тенденцию) связи между рассматриваемыми признаками в «чистом виде», т.е. изменение средних величин результативного признака у в зависимости от изменения величины факторного признака х при условии полного взаимопогащения всех прочих причин.
Логически теоретическая линия регрессии должна быть расположена на поле графика так, чтобы сумма отклонений эмпирических точек (точек поля корреляции) от точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была бы минимальной по величине.
Формы уравнения связи может определяться также с использованием опыта предыдущих исследований, когда были получены приемлемые результаты количественного выражения направления изучаемой связи.
Даже при использовании теоретического анализа и опыта предыдущих статистических исследований данной корреляционной связи не следует отказываться от такого подхода к изучению корреляционной связи как использование конкурирующих вариантов модели регрессии и сопоставление различных уравнений связи.
Наиболее часто для характеристики связей экономических показателей используют следующие типы функций:
линейную | , |
гиперболическую | , |
показательную | , |
степенную | , |
параболическую | , |
логарифмическую | . |
Для нахождения параметров а, b, c и т.д. для сложных моделей, как правило, используется метод наименьших квадратов. Критерий метода наименьших квадратов можно записать следующим образом:
.
Рассмотрим основные положения теории регрессии применительно к теоретической линии регрессии, представленной уравнением прямой
.
Для уравнения прямой метод наименьших квадратов записывается таким образом:
.
Определение параметров a и b прямой, наиболее соответствующей эмпирическим данным, сводится к математической задаче на экстремум.
Функция двух переменных S (a, b) может достигнуть экстремума в том случае, когда первые частные производные этой функции равняются нулю, т.е.
и .
Несложные преобразования этих частных производных приводит к системе нормальных уравнений для определения параметров модели регрессии.
Для уравнения прямолинейной корреляционной связи получается следующая система нормальных уравнений:
.
Обычно данная система решается относительно параметра b, которое приводит к следующей формуле для определения этого параметра:
.
Если разделить обе части (левую и правую) первого уравнения на n, можно получить формулу для определения параметра a:
.
Как видели из предыдущего материала данной темы, специфика корреляционных связей требует построения многофакторных моделей уравнений множественной регрессии.
При предположении наличия прямолинейной связи результативного признака от изменения двух факторов уравнение множественной корреляции может быть представлено в следующем виде
.
По способу наименьших квадратов для расчета параметров a, b, c необходимо решить следующую систему нормальных уравнений:
.
Параметры b, с и т.д. характеризуют изменение результативного признака при увеличении соответствующего фактора на единицу и фиксированном (среднем) значении других факторов.
Вместо параметров a, b, c, … обычно используются параметры
Например, допустим, что в качестве уравнения регрессии выбирается парабола второго порядка. Тогда она может быть записана в виде
.
По способу наименьших квадратов параметры уравнения будут находиться путем решения следующей системы нормальных уравнений:
.