Использование множественной корреляции в
Экономическом анализе
Множественная, или совокупная, корреляция — связь между тремя и более признаками.
В экономическом анализе она представлена в виде многофакторных моделей:
линейных
y = а0 + а1х2+ а2х2+… + аnхn;
степенных
y = a0 ;
логарифмических
lgy = а0+ а1lg x1 + а2lg x2+ … + аnlg xn.
Приведенные модели удобны тем, что их параметры (ai) экономически интерпретируются.
В линейной модели коэффициенты ai при неизвестных хi являются коэффициентами регрессии и показывают, на сколько единиц изменится функция с изменением определенного фактора хi на одну единицу при неизменном значении остальных аргументов.
Коэффициенты ai при неизвестных хi в степенных и логарифмических моделях являются коэффициентами эластичности. С их помощью можно определить, на сколько процентов изменится функция с изменением аргумента (фактора) на 1 % при фиксированном значении остальных аргументов.
Выбор вида модели основан на логическом анализе изучаемых показателей, сравнении статистических характеристик (средняя ошибка аппроксимации, критерий Фишера, коэффициенты множественной корреляции и детерминации), рассчитанных для различных функций по одним и тем же первичным данным.
В экономических расчетах предпочтение отдается линейным моделям, что обосновывается следующими условиями:
- относительная простота и меньший объем вычислений;
- массовые экономические процессы, как правило, подчинены закону нормального распределения, которому свойственны линейные формы связи.
Отбор факторов, включаемых в корреляционно-регрессионную модель, осуществляется в несколько приемов:
1) логический отбор факторов в соответствии с их экономическим содержанием;
2) отбор существенных факторов на основе оценки их значимости по t-критерию Стьюдента либо F-критерию Фишера;
3) последовательный отсев незначимых факторов при построении регрессионной модели.
Корреляция рядов динамики имеет свои особенности. Кроме кратковременных колебаний (годовых, квартальных, месячных) в ряду динамики присутствует еще один компонент — общая тенденция к изменениям показателей ряда или выравненному ряду (тренду) тренда. При этом имеет место автокорреляция — корреляционная зависимость между последовательными (т.е. соседними) значениями уровней динамического ряда.
Для проверки наличия автокорреляции в динамических рядах вычисляется критерий Дарбина-Уотсона (dэ):
dэ = ,
где уi+1 и yi — соответствующие уровни динамического ряда. Значения критерия Дарбина-Уотсона находятся в пределах от 0 до 4. Если расчетные значения критерия близки к 2, это показывает, что автокорреляция в рядах динамики отсутствует, если dэ < 0 — динамический ряд содержит автокорреляцию, если dэ = 4 — динамический ряд не содержит автокорреляции.
Поскольку автокорреляция приводит к искажению оценки параметров уравнения регрессии и коэффициента корреляции, рекомендуется ее исключить. Для этого используются различные приемы: коррелирование разностей (приростных величин), коррелирование отклонений фактических уровней динамических рядов от выравненных и др.
Для определения тренда с целью его последующего исключения чаще всего используются механическое сглаживание и аналитическое выравнивание методом наименьших квадратов.
Механическое сглаживание рядов осуществляется с помощью скользящей, или подвижной, средней. Этот способ состоит в вычислении каждой новой средней одного члена ряда слева и присоединении одного члена ряда справа.
Рассмотрим содержание наиболее часто применяемых в анализе хозяйственной деятельности статистических характеристик (табл. 1.5).
Таблица 1.5.Оценка статистических характеристик
введенных переменных и их оценок
Показатель | Содержание и обозначение показателя |
Среднее арифметическое | Показывает среднее арифметическое значение у и последующих х в порядке их ввода: |
Дисперсия | Средний квадрат отклонений вариантов (х) от средней арифметической . Дисперсия является мерой вариации, т.е. колеблемости признака s2 |
Стандартное отклонение | Среднее квадратическое отклонение s. Вычисляется как средняя квадратическая из отклонений вариантов от их средней арифметической. Представляет собой меру колеблемости |
Асимметрия | Коэффициент асимметрии kа колеблется от — 3 до +3. Если kа > 0, то асимметрия правосторонняя, если kа < 0, то левосторонняя, если kа = 0, то вариационный ряд считается симметричным |
Эксцесс | Крутость распределения (Е), т.е. его остро- или плосковершинность. Если Е > 3, то распределение островершинное, если Е < 3, то распределение плосковершинное |
Вариация | Коэффициент вариации v — относительная величина (в процентах), характеризующая колеблемость признака от среднего арифметического. Если v < 10 %, то изменчивость вариационного ряда незначительна; если 10 % £ v < 20 %, то изменчивость средняя; если 20 % £ v < 33 % — значительна; если v 33 %,то информация неоднородна и ее следует исключить из дальнейших расчетов или отбросить аномальные (нетипичные) наблюдения |
Анализ показателей эффективности работы предприятий и объединений с использованием множественной корреляции предполагает разработку и решение моделей по типовой программе на ЭВМ. Ниже приводится интерпретация основной выходной информации.
Для измерения тесноты связи между факторами и результативным показателем исчисляют парные, частные и множественные коэффициенты корреляции. Они обладают следующими свойствами:
—1 £ r £ 1.
Если r = 0, то линейная корреляционная связь отсутствует; если r = 1, то между переменными х, у существует функциональная зависимость; если r ³ 0,7 связь считается сильной, если r £ 0,3 — слабой.
П а р н ы е коэффициенты рассчитываются для всевозможных пар переменных без учета влияния других факторов. Для того чтобы определить взаимное влияние факторов, применяют частные коэффициенты корреляции, которые отличаются от коэффициентов парной корреляции тем, что выражают тесноту корреляционной зависимости между двумя признаками уже при устранении изменений, вызванных влиянием других факторов корреляционной модели. Частные коэффициенты корреляции используются при изучении связи между несколькими, чаще всего тремя, признаками (у, х и v) для ответа на вопрос о влиянии признакаx на признак у при исключенном (элиминированном) влиянии признака v на признак у или о влиянии признака v на признак у при исключенном влиянии признака х на признак у. Предполагая все связи линейными, получим:
vRy/x = ;
xRy/v = ,
где vRy/x — частный коэффициент корреляции между у и х при исключенном v; xRy/v — частный коэффициент корреляции между у и v при исключенном x; rx/y, ry/v, rx/v, ry/x, rv/x — парные коэффициенты корреляции.
Метод частной корреляции позволяет выявить «чистую» зависимость результативного признака у от данного факторного признака х и установить, каково было бы влияние этого факторного признака на величину результативного при условии, что другой факторный признак v оставался бы неизменным.
Такая «чистая» зависимость между двумя факторными и результативным признаками может быть проиллюстрирована построением комбинированной таблицы.
Абсолютные величины частных коэффициентов корреляций не могут быть больше величины коэффициента множественной корреляции.
М н о ж е с т в е н н ы е коэффициенты корреляции показывают тесноту связи между анализируемым показателем и всеми факторами, включенными в модель.
Матрица критериев некоррелированности дана для выбора наиболее значимых факторов. При этом подлежат исключению те факторы, которые при парном коррелировании друг с другом дают высокий линейный коэффициент корреляции, превышающий по абсолютной величине 0,85. Наличие тесной связи между двумя факторами называют коллинеарностью, а между несколькими — мультиколлинеарностью. На основании данных этой матрицы машина отвергает или не отвергает гипотезу о мультиколлинеарности.
Квадрат коэффициента корреляции называется коэффициентом детерминации. Он показывает, на сколько процентов вариация результативного показателя зависит от влияния избранных факторов. Вектор значений Фишера служит для оценки множественного коэффициента корреляции и уравнения регрессии в целом. Расчетные значения сравниваются с табличными.
Матрица значений распределения Стьюдента используется для оценки значимости факторов. Расчетные значения сравниваются с табличными.
Далее осуществляется шаговый регрессионный анализ, результатом которого является уравнение регрессии
y = a0 + a1x1 + a2x2 + … + anxn,
где у — функция (анализируемый показатель); а0 — свободный член уравнения; х1, х2, ..., хп — факторы, определяющие результативный показатель; а1, а2, ..., аn — коэффициенты регрессии при факторных показателях, характеризующие уровень влияния каждого фактора на результативный показатель в его единицах измерения.
Затем следуют оценочные показатели уравнения регрессии:
F — критерий Фишера для оценки множественного коэффициента корреляции и уравнения регрессии в целом;
dэ — критерий Дарбина-Уотсона для определения наличия автокорреляции в рядах динамики;
Э — коэффициент эластичности — отношение изменений в процентах одного признака при изменении на один процент другого. В пределе для «мгновенных» изменений аргумента для f(x) коэффициент эластичности обращается в Э = f'(х) , где f'(х) — производная. Показатели эластичностивычисляются в статике и динамике;
b-коэффициенты и другие статистические характеристики, которые не интерпретируются с экономической точки зрения.
Интерпретацию выходной информации можно проследить на примере корреляционного анализа фондоотдачи.
Для построения модели на первом этапе были отобраны следующие факторы: х1 — удельный вес машин и оборудования в общей стоимости основных производственных фондов, %; х2 — электровооруженность, тыс. кВт·ч; х3 — уровень использования производственных мощностей, %. Числовые характеристики анализируемых показателей представлены в табл. 1.6.
Таблица 1.6. Матрица исходных данных
Число наблюдений | у | х1 | х2 | х3 |
1,47 | 32,00 | 34,08 | 88,98 | |
1,25 | 30,58 | 35,89 | 87,27 | |
1,82 | 34,12 | 36,93 | 95,00 | |
1,45 | 32,17 | 32,31 | 88,17 | |
1,75 | 33,78 | 34,91 | 90,89 | |
1,79 | 33,96 | 40,25 | 92,40 |
Для оценки степени колеблемости показателей используются их статистические характеристики (табл. 1.7).
Таблица 1.7. Матрица статистических характеристик
Анализируемый показатель и факторы его изменения | Среднее арифметическое | Дисперсия | Стандартное отклонение | Асимметрия | Эксцесс | Вариация |
у | 1,6410 | 0,06456* | 0,25409 | — 0,43878 | — 0,720321 | 5,4840 |
х1 | 33,1780 | 3,614 | 1,91870 | 0,48522 | 0,63515 | 5,7831 |
х2 | 36,1640 | 2,626 | 9,08990, | — 0,96513 | 0,96761 | 25,1350 |
х3 | 92,0610 | 17,095 | 4,13470 | 0,53833, | — 1,26650 | 4,49120 |
* Число 0,06456 в табуляграмме имеет вид 0,6456 Е = 0,1.
Данные табл. 1.7 показывают, что незначительные колебания свойственны факторам использования производственных мощностей (х3) — коэффициент вариации для х3 равен 4,49124 — удельный вес машин и оборудования (х1).
Величина эксцесса для всех показателей не превышает 3, что свидетельствует о низковершинном распределении вариационных рядов. Указанные коэффициенты интерпретируютсягеометрически.
Средней степенью колебания обладает исследуемая функция (у), значительной — фактор электровооруженности (х2). Однако коэффициенты вариации показателей не превышают 33 %, что свидетельствует об однородности исходной информации.
Коэффициенты асимметрии говорят о правосторонней асимметрии распределения рядов х1 и х3 и о левостороннем распределении рядов х2 и у.
Далее анализируется матрица коэффициентов парной корреляции (табл. 1.8).
Таблица 1.8. Матрица парных коэффициентов корреляции
Анализируемый показатель и факторы его изменения | y | x1 | x2 | x3 |
у | 1,000000 | |||
х1 | 0,937780 | 1,000000 | ||
х2 | 0,093618 | 0,093838 | 1,0000 | |
х3 | 0,922720 | 0,926020 | 0,0786 | 1,0000 |
Как видно из табл. 1.8, наиболее тесная связь существует между показателями фондоотдачи (у), удельного веса активной части фондов (х1) и уровня использования производственных мощностей (х3), о чем свидетельствуют парные коэффициенты корреляции — 0,93778 и 0,92272.
Расчет парных коэффициентов корреляции выявил слабую связь фондоотдачи с электровооруженностью (х2) — 0,09361.
Гипотеза о наличии мультиколлинеарности отвергается, т.е. все показатели относительно независимы.
Вектор коэффициентов множественной детерминации (табл. 1.9) интерпретируется следующим образом: изменение (вариация) функции у на 90,02 % зависит от изменения избранных факторов-аргументов; изменение фактора х1 на 90,43 % зависит от изменения функции у и остальных факторов и т.д. Коэффициент множественной детерминации для функции повторяется также после уравнения регрессии.
Таблица 1.9. Вектор коэффициентов множественной детерминации
у | х1 | х2 | х3 |
0,9002 | 0,9043 | 0,0100 | 0,8820 |
В табл. 1.10 приводятся частные коэффициенты корреляции, которые показывают связь каждой пары факторов в чистом виде при неизменном значении остальных факторов.
Таблица 1.10. Матрица частных коэффициентов корреляции
Анализируемый показатель и факторы его изменения | y | x1 | x2 | x3 |
у | 1,00000 | |||
х1 | 0,57130 | 1,00000 | ||
х2 | 0,02791 | 0,02994 | 1,00000 | |
х3 | 0,41480 | 0,45410 | 0,03164 | 1,0000 |
Величина частных коэффициентов корреляции ниже величины парных. Это свидетельствует о том, что чистое влияние факторов слабее, чем влияние, оказываемое отдельными факторами во взаимодействии с остальными.
В табл. 1.11 приводятся данные для оценки значимости частных коэффициентов корреляции.
Таблица 1.11. Матрица значений распределения Стьюдента
Анализируемый показатель и факторы его изменения | y | x1 | x2 | x3 |
у | 1,0000 | |||
х1 | 4,1769 | 1,0000 | ||
х2 | 0,1675 | 0,1797 | 1,0000 | |
х3 | 2,7359 | 3,0583 | 0,1899 | 1,0000 |
Статистическая значимость, надежность связи, выраженной частными коэффициентами корреляции, проверяется по t-критерию Стьюдента путем сравнения расчетного значения (из табл. 1.11) с табличным при заданной степени точности. Обычно в практике экономических расчетов степень точности берется 5 %, что соответствует вероятности p = 0,05. В табл. 1.12 приводятся критические значения t-критерия Стьюдента для вероятности p = 0,05 и р = 0,01 при различном числе степеней свободы, которые определяются как (п — 1), где п — число наблюдений. В нашем примере при числе степеней свободы 39 (40 — 1) tтабл = 2,021. Расчетные значения t-критерия (первая графа табл. 1.12) для факторов x1и x3 оказались выше табличных, что свидетельствует о значимости этих факторов для анализируемой функции. Фактор x2 как незначимый для функции должен быть исключен из дальнейших расчетов.
Таблица 1.12.Критические значения t-критерия
Стьюдента для p = 0,05 и p = 0,01
Число степеней свободы (п — 1) | p = 0,05 | p = 0,01 | Число степеней свободы (п — 1) | p = 0,05 | p = 0,01 |
12,690 | 63,655 | 2,078 | 2,832 | ||
4,302 | 9,924 | 2,074 | 2,818 | ||
3,183 | 5,841 | 2,069 | 2,807 | ||
2,777 | 4,604 | 2,064 | 2,796 | ||
2,571 | 4,032 | 2,059 | 2,787 | ||
2,447 | 3,707 | 2,054 | 2,778 | ||
2,364 | 3,500 | 2,052 | 2,771 | ||
2,307 | 3,356 | 2,049 | 2,764 | ||
2,263 | 3,250 | 2,045 | 2,757 | ||
2,227 | 3,169 | 2,042 | 2,750 | ||
2,200 | 3,138 | 2,037 | 2,739 | ||
2,179 | 3,055 | 2,032 | 2,728 | ||
2,161 | 3,012 | 0,027 | 2,718 | ||
2,145 | 2,977 | 2,025 | 2,711 | ||
2,131 | 2,946 | 2,021 | 2,704 | ||
2,119 | 2,921 | 2,020 | 2,704 | ||
2,110 | 2,898 | 2,017 | 2,696 | ||
2,100 | 2,877 | 2,015 | 2,691 | ||
2,093 | 2,860 | 2,012 | 2,685 | ||
2,086 | 2,846 | 2,000 | 2,661 |
Далее машина осуществляет шаговый анализ с постепенным включением в модель факторов, избранных по критерию их значимости.
На каждом шаге рассматриваются уравнение регрессии, коэффициенты корреляции и детерминации, F-критерий, стандартная ошибка оценки и другие оценочные показатели. После каждого шага перечисленные оценочные показатели сравниваются с рассчитанными на предыдущем шаге. Уравнение регрессии тем точнее, чем выше величина коэффициентов множественной корреляции, детерминации, F-критерия и чем ниже величина стандартной ошибки.
Если добавление последующих факторов не улучшает оценочных показателей, а иногда и ухудшает их, то надо остановиться на том шаге, где эти показатели оптимальны.
Результаты шагового анализа, представленные в табл. 1.13, показывают, что наиболее полно сложившиеся взаимосвязи описывает двухфакторная модель, полученная на втором шаге:
у = — 3,085 + 0,0774х1 + 0,023х3.
Статистический анализ данного уравнения регрессии показывает, что оно значимо: фактическое значение t-критерия Фишера равно 166,7, что значительно превышает tтабл = 3,25.
Таблица 1.13. Результаты шагового регрессионного анализа
Номер шага | Ввод переменной | Уравнение регрессии | Множественные коэффициенты | Минус отношение | Стандартная ошибка оценки | |
корреляции | детерминации | |||||
I | х1 | у = — 2,481 + 0,1242х1 | 0,9378 | 0,8794 | 277,2 | 0,0893 |
II | х3 | у = — 3,085 + 0,0774х1 + + 0,0234х3 | 0,9488 | 0,9001 | 166,7 | 0,0824 |
III | х2 | у = — 3,091 + 0,0773х1 + + 0,0234х3 + 0,0002х2 | 0,9488 | 0,9002 | 108,3 | 0,0835 |
Табличное значение t-критерия находится при заданной вероятности (р = 0,95) и числе степеней свободы для графы (m — 1) табл. 1.14, где т — число параметров уравнения регрессии, включая свободный член, и для графы (n — m), где п — число наблюдений. В нашем примере tтабл находится на пересечении графы 2 (3 — 1) и строки 37 (40 — 3) и равно 3,25.
В табл. 1.14 приведены значения t-критерия для р = 0,95 в зависимости от числа степеней свободы (m — 1) — для графы и (n — m) — для строки, где т — число параметров уравнения регрессии, включая свободный член; п — число наблюдений.
Коэффициент множественной корреляции, равный 0,9488, свидетельствует о наличии тесной взаимосвязи между фондоотдачей и удельным весом активной части основных фондов и уровнем использования производственных мощностей.
Коэффициент множественной детерминации 0,9001 показывает, что изменение фондоотдачи на 90,01 % зависит от изменения данных факторов.
Параметры уравнения регрессии интерпретируются следующим образом: коэффициент регрессии при х1 (0,0774) показывает, что увеличение удельного веса машин и оборудования в общей стоимости основных производственных фондов на 1 % обеспечит рост фондоотдачи на 7,74 к. Повышение уровня использования производственных мощностей на 1 % приведет к увеличению фондоотдачи на 2,34 к.
В случае обратной связи, т.е. при уменьшении изучаемой функции в связи с ростом фактора-аргумента, коэффициент регрессии имеет знак минус.
Таблица 1.14. F-распределение Фишера
n — m | m — 1 | |||||||||
4,96 | 4,10 | 3,71 | 3,48 | 3,33 | 3,22 | 3,14 | 3,07 | 3,02 | 2,97 | |
4,54 | 3,68 | 3,29 | 3,06 | 2,90 | 2,79 | 2,70 | 2,64 | 2,59 | 2,55 | |
4,49 | 3,63 | 3,24 | 3,01 | 2,85 | 2,74 | 2,66 | 2,59 | 2,54 | 2,49 | |
4,45 | 3,59 | 3,20 | 2,96 | 2,81 | 2,70 | 2,62 | 2,55 | 2,50 | 2,45 | |
4,41 | 3,55 | 3,16 | 2,93 | 2,77 | 2,66 | 2,58 | 2,51 | 2,46 | 2,41 | |
4,38 | 3,52 | 3,13 | 2,90 | 2,74 | 2,63 | 2,55 | 2,48 | 2,43 | 2,38 | |
4,35 | 3,49 | 3,10 | 2,87 | 2,71 | 2,60 | 2,52 | 2,45 | 2,40 | 2,35 | |
4,32 | 3,47 | 3,07 | 2,84 | 2,68 | 2,57 | 2,49 | 2,42 | 2,37 | 2,32 | |
4,30 | 3,44 | 3,05 | 2,82 | 2,66 | 2,55 | 2,47 | 2,40 | 2,35 | 2,30 | |
4,15 | 3,30 | 2,90 | 2,67 | 2,51 | 2,40 | 2,32 | 2,25 | 2,19 | 2,14 | |
4,14 | 3,29 | 2,89 | 2,66 | 2,50 | 2,39 | 2,31 | 2,24 | 2,18 | 2,13 | |
4,13 | 3,28 | 2,28 | 2,88 | 2,65 | 2,49 | 2,38 | 2,23 | 2,17 | 2,12 | |
4,12 | 3,26 | 2,87 | 2,64 | 2,48 | 2,37 | — | 2,22 | 2,16 | 2,11 | |
4,11 | 3,26 | 2,86 | 2,63 | 2,48 | 2,36 | 2,28 | 2,21 | 2,15 | 2,10 | |
4,10 | 3,25 | 2,85 | 2,62 | 2,46 | 2,35 | 2,26 | 2,19 | 2,14 | 2,09 |
Свободный член уравнения а0 = — 3,085 экономически не интерпретируется, он определяет положение начальной точки линии регрессии в системе координат.
Численное значение коэффициентов эластичности показывает, на сколько процентов изменится функция при изменении данного фактора на 1 %.
Так, изменение удельного веса машин и оборудования на 1 % (имеется в виду относительный прирост, а не абсолютный) приведет к росту фондоотдачи на 1,56 %, а повышение уровня использования производственных мощностей на 1 % вызовет увеличение фондоотдачи на 1,3 %.
По абсолютной величине b-коэффициентов можно судить о том, в какой последовательности находятся факторы в зависимости реальной возможности улучшения функции. Для нашего примера последовательность переменных следующая:
Номер переменной | |||
b-коэффициенты | 0,584 | 0,382 | 0,009 |
Коэффициент Дарбина-Уотсона равен 1,215, что свидетельствует о наличии в рядах динамики автокорреляции.
Заключительную матрицу данных полностью характеризуют соответствующие графам значения фактического (уфакт) и расчетного (урасч) показателей, определяемых по уравнению регрессии у = — 3,085 + 0,0774х1 + 0,023х3. По этим данным определяется отклонение уфакт — урасч, которое сравнивается с доверительными интервалами (границы, выход за пределы которых имеет незначительную вероятность).
Для устранения автокорреляции модель была пересчитана по приростным величинам. В результате было получено следующее уравнение регрессии:
y = — 0,0079 + 0,0475х1 + 0,0345х3.
Это уравнение значимо, величина F-критерия равна 178,3. Коэффициент Дарбина-Уотсона составляет 2,48, что говорит об отсутствии автокорреляции. Коэффициент множественной корреляции 0,9518 выше, чем рассчитанный в первом случае, величина коэффициента множественной детерминации также выше и составляет 0,9060. В окончательном виде уравнение регрессии интерпретируется следующим образом: повышение уровня использования производственных мощностей на 1 % ведет к увеличению фондоотдачи на 3,45 к. Увеличение удельного веса машин и оборудования в общей стоимости основных производственных фондов на 1 % обеспечивает рост фондоотдачи на 4,75 к.