Оценка тесноты связи между факторами методами корреляционно-регрессионного анализа
Приемы корреляционного анализа используются для измерения влияния факторов в стохастическом анализе, когда взаимосвязь между показателями неполная, вероятностная. Различают парную и множественную корреляцию.
Парная корреляция – это связь между двумя показателями, один из которых является факторным, а другой - результативным.
Множественная корреляция возникает от взаимодействия нескольких факторов с результативным показателем.
Необходимые условия применения корреляционного анализа:
1. Наличие достаточно большого количества наблюдений о величине исследуемых факторных и результативных показателей (в динамике или за текущий год по совокупности однородных объектов).
2. Исследуемые факторы должны иметь количественное измерение и отражение в тех или иных источниках информации.
Применение корреляционного анализа позволяет решить следующие задачи:
1) определить измерение результативного показателя под воздействием одного или нескольких факторов (в абсолютном измерении), то есть определить, на сколько единиц изменении факторного на единицу;
2) установить относительную степень зависимости результативного показателя от каждого фактора.
Корреляционный анализ состоит из нескольких этапов:
На первом этапе определяются факторы, которые оказывают воздействие на изучаемый показатель, и отбираются наиболее существенные для корреляционного анализа. Отбор факторов – очень важный момент в экономическом анализе: от того, насколько правильно он сделан, зависит точность выводов по итогам анализа.
Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сравнения параллельных и динамических рядов, линейные графики. С их помощью можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно производить также в процессе решения задачи корреляционного анализа на основе оценки их значимости по критерию Стьюдента, о котором будет сказано ниже.
На втором этапе собирается исходная информация по каждому факторному и результативному показателям. Она должна быть проверена на достоверность, на однородность и на соответствие закону нормального распределения.
Одно из условий корреляционного анализа – однородность исследуемой информации относительно распределения ее около среднего уровня. Если в совокупности имеются группы объектов, которые значительно отличаются от среднего уровня, то это говорит о неоднородности исходной информации.
Критерием однородности информации служат среднеквадратическое отклонение и коэффициент вариации, которые рассчитываются по каждому факторному и результативному показателю. Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметической:
(2.3.1.)
Коэффициент вариации показывает относительную меру отклонения отдельных значений от среднеарифметической. Для его расчета используется формула:
(2.3.2.)
Чем больше коэффициент вариации, тем относительно больший разброс и меньшая выравненность изучаемых объектов. Изменчивость вариационного ряда принято считать незначительной, если вариация не превышает 10-12%, значительной – когда она больше 20%, но не превышает 33%. Если же вариация выше 33%, то это свидетельствует о неоднородности информации и о необходимости исключения нетипичных наблюдений, которые обычно бывают в первых и последних ранжированных рядах выборки.
Следующее требование к исходной информации – подчинение ее закону нормального распределения. Для количественной оценки степени отклонения информации от нормального распределения служат отношение показателя асимметрии к ее ошибке и отношение показателя эксцесса к его ошибке.
Показатель асимметрии и его ошибка рассчитываются по формулам:
(2.3.3.) (2.3.4.)
Показатель эксцесса и его ошибка рассчитываются следующим образом:
(2.3.5.) (2.3.6.)
В симметричном распределении А=0. Отклонение от нуля указывает на наличие асимметрии в распределении данных около средней величины. Отрицательная асимметрия свидетельствует о том, что преобладают данные с большими значениями, а с меньшими значениями встречаются значительно реже. Положительная асимметрия показывает, что чаще встречаются данные с небольшими значениями.
В нормальном распределении показатель эксцесса Е=0. Если Е > 0, то данные густо сгруппированы около средней, образуя островершинность. Если Е < 0, то кривая распределения будет плосковершинной. Однако, когда отношения А/ma и E/me меньше 3, то асимметрия и эксцесс не имеют существенного значения, и исследуемая информация соответствует закону нормального распределения. Следовательно, ее можно использовать для корреляционного анализа.
На тре6тьем этапе изучается характер и моделируется связь между факторами и результативным показателем, то есть подбирается и обосновывается математическое уравнение, которое наиболее точно выражает сущность исследуемой зависимости. Для его обоснования используются те же приемы, что и для установления наличия связи: аналитические группировки, линейные графики и др.
Зависимость результативного показателя от определяющих его факторов можно выразить уравнением парной и множественной регрессии. При прямолинейной форме они имеют следующий вид:
- уравнение парной регрессии; (2.3.7.)
- уравнение множественной регрессии, (2.3.8.)
где а – свободный член уравнения при х = 0:
х1, х2, …, хn – факторы, определяющие уровень изучаемого результативного показателя;
b1, b2, …, bn - коэффициенты регрессии при факторных показателях, характеризующие уровень влияния каждого фактора на результативный показатель в абсолютном выражении.
Если связь между результативным и факторыми показателями носит криволинейный характер, то могут быть использованы степенная, логарифмическая, параболическая, гиперболическая и другие функции.
В случаях когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера, показателю средней ошибки аппроксимации.
На четвертом этапе проводится расчет основных показателей связи корреляционного анализа: уравнение связи, коэффициенты корреляции, детерминации, эластичности и др.
В качестве примера для иллюстрации корреляционного анализа прямолинейной зависимости используем приведенные в табл. данные об изменении уровня выработки рабочих (y) в зависимости от уровня фондовооруженности (x).
Расчет уравнения связи ( ) сводится к определению параметров а и b. Их находят из следующей системы уравнений:
(2.3.9.)
где n – число наблюдений (в данном примере 10);
x – фондовооруженность труда (стоимость основных производственных фондов на одного работника предприятия), тыс.руб.;
y - среднегодовая выработка продукции одним работником, тыс.руб.
Таблица 2.3.1.
Зависимость выработки рабочих (Y) от фондовооруженности труда (X)
№п/п | ||||||||||
Y | 3,1 | 3,4 | 3,6 | 3,8 | 3,9 | 4,1 | 4,2 | 4,4 | 4,6 | 4,9 |
X | 4,5 | 4,4 | 4,8 | 5,0 | 5,5 | 5,4 | 5,8 | 6,0 | 6,1 | 6,5 |
Значения Σx, Σy, Σxy, Σx2, Σy2 рассчитывают на основании фактических исходных данных (табл. 2.3.1.)
Таблица 2.3.2.
Расчет производных данных для корреляционного анализа
n | x | y | xy | x2 | y2 | yx |
3,1 | 4,5 | 13,95 | 9,61 | 20,25 | 4,28 | |
3,4 | 4,4 | 14,96 | 11,56 | 19,36 | 4,65 | |
3,6 | 4,8 | 17,28 | 12,96 | 23,04 | 4,90 | |
3,8 | 5,0 | 19,00 | 14,44 | 25,00 | 5,15 | |
3,9 | 5,5 | 21,45 | 15,21 | 30,25 | 5,28 | |
4,1 | 5,4 | 22,14 | 16,81 | 29,16 | 5,52 | |
4,2 | 5,8 | 24,36 | 17,64 | 33,64 | 5,65 | |
4,4 | 6,0 | 26,40 | 19,36 | 36,00 | 5,90 | |
4,6 | 6,1 | 28,06 | 21,16 | 37,21 | 6,15 | |
4,9 | 6,5 | 31,85 | 4,01 | 42,25 | 6,28 | |
итого | 219,45 | 162,76 | 296,16 | 53,75 |
Подставим полученные значения в систему уравнений:
(2.3.10)
Вычтя из второго уравнения первое, узнаем, что 2,76 b = 3.45.
Отсюда,
Уравнение связи, описывающее зависимость производительности труда от фондовооруженности, получило следующее выражение:
(2.3.11.)
Коэффициент а – постоянная величина результативного показателя, которая не связана с изменением данного фактора. Параметр b показывает среднее изменение результативного показателя с повышением или понижением величины факторного показателя на единицу его измерения. В данном примере с увеличением фондовооруженности труда на 1 тыс.руб. выработка рабочих повышается в среднем на 1,25 тыс.руб.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (теоретические) значения результативного показателя для каждого предприятия. Например, чтобы рассчитать выработку рабочих на первом предприятии, где фондовооруженность труда равна 3,1 тыс.руб., необходимо это значение подставить в уравнение связи:
(2.3.12.)
Полученная величина показывает, какой была бы выработка при фондовооруженности труда 3,1 тыс.руб., если бы данное предприятие использовало свои производственные мощности в такой степени, как в среднем все предприятия этой выборки. Фактическая выработка рабочих на данном предприятии выше расчетного значения. Следовательно, предприятие использует свои производственные мощности несколько лучше, чем в среднем по отрасли. Аналогичные расчеты сделаны для каждого предприятия. Данные приведены в последней графе табл. 2.3.2. Сравнение фактического уровня выработки рабочих с расчетным позволяет оценить результаты работы отдельных предприятий.
По такому же принципу решается уравне6ние связи при криволинейной зависимости между изучаемыми явлениями. Когда при увеличении одного показателя значения другого возрастают до определенного уровня, а потом начинают снижаться (например, зависимость производительности труда рабочих от их возрасти), то для описания такой зависимости лучше всего подходит парабола второго порядка:
(2.3.13)
В соответствии с требованиями метода наименьших квадратов для определения параметров a, b, c необходимо решить следующую систему уравнений:
(2.3.14.)
Кроме параболы для описания криволинейной зависимости в корреляционном анализе очень часто используется гипербола:
(2.3.15.)
Для определения ее параметров необходимо решить следующую систему уравнений:
(2.3.16.)
Гипербола описывает такую зависимость между двумя показателями, когда при увеличении одной переменной значения другой увеличиваются до определенного уровня, а потом прирост замедляется, например, зависимость урожайности от количества внесенных удобрений, продуктивности животных от уровня их кормления, себестоимости единицы продукции от объема ее производства и т.д.
При более сложном характере зависимости между изучаемыми явлениями используются более сложные параболы (третьего, четвертого порядка и т.д.), а также квадратические, степенные, показательные и другие функции.
Таким образом, используя тот или иной тип математического уравнения, можно определить степень зависимости между изучаемыми явлениями, узнать, на сколько единиц в абсолютном измерен6ии изменяется величина результативного показателя с изменением факторного на единицу. Однако регрессионный анализ не дает ответа на вопрос: насколько тесна за связь, решающее или второстепенное воздействие оказывает фактор на величину результативного показателя?
Для измерения тесноты связи между факторными и результативными показателями исчисляется коэффициент корреляции. При прямолинейной форме связи между изучаемыми показателями он рассчитывается по следующей формуле:
(2.3.17.)
Подставив значения Σx, Σy, Σxy, Σx2, Σy2 из табл. 2.3.2.в формулу, получим значение коэффициента корреляции, равное 0,97. Этот коэффициент может принимать значения от 0 до 1. Чем ближе его величина к 1, тем более тесная связь между изучаемыми явлениями, и наоборот. В данном случае величина коэффициента корреляции является существенной (r=0,97). Это позволяет сделать вывод о том, что фондовооруженность – один из основных факторов, от которых на анализируемых предприятиях зависит уровень производительности труда.
Если коэффициент корреляции возвести в квадрат, получим коэффициент детерминации (D = 0.94). Он показывает, что производительность труда на 94% зависит от фондовооруженности труда, а на долю других факторов приходится 6% изменения ее уровня.
Что касается измерения тесноты связи при криволинейной форме зависимости, то здесь используется не линейный коэффициент корреляции, а корреляционное отношение, формула которого имеет вид:
(2.3.18.)
где
Эта формула является универсальной. Ее можно применять для исчисления коэффициента корреляции при любой форме зависимости. Однако для его нахождения требуется предварительное решение уравнения регрессии и расчет по нему теоретических (выровненных) значений результативного показателя для каждого наблюдения исследуемой выборки (см. гр.7 табл. 2.3.2. ).
Решение задач многофакторного корреляционного анализа производится на ПЭВМ по типовым программам. Сначала формируется матрица исходных данных, в первой графе которой записывается порядковый номер наблюдения, во второй – величина результативного показателя (Yx), а в следующих – данные по факторным показателям (xi).
Эти сведения вводятся в ПЭВМ,и рассчитывается уравнение множественной регрессии, которое в данном примере получило следующее выражение:
, (2.3.19.)
где Y – рентабельность продаж, %;
х1 – материалоотдача, руб.;
х2 – фондоотдача, коп;
х3 – производительность труда (среднегодовая выработка продукции на одного работника), тыс.руб.;
х4 – продолжительность одного оборота оборотных средств предприятия, дни;
х5 – удельный вес продукции высшей категории качества, %.
Коэффициенты уравнения показывают количественное влияние каждого фактора на результативный показатель при неизменности других. В данном случае можно дать следующую интерпретацию полученному уравнению: рентабельность повышается на 3,65% при увеличении материалоотдачи на 1 руб.; на 0,09% - с ростом фондоотдачина 1 коп.; на 1,02% - с повышением среднегодовой выработки продукции на одного работника на 1 тыс.руб.; на 0,052% - при увеличении удельного веса продукции высшей категории качества на 1%. С увеличением продолжительности оборота средств на 1 день рентабельность снижается в среднем на 0,122%.
Пятый этап – статистическая оценка и практическое использование результатов корреляционно-регрессионного анализа.
Для того, чтобы убедиться в надежности показателей связи и правомерности их использования для практической цели, необходимо дать их статистическую оценку. Для этого используются критерии Стьюдента (t), критерий Фишера (F – отношение), средняя ошибка аппроксимации (έ), коэффициенты множественной корреляции (R) и детерминации (D).
Надежность коэффициентов корреляции, которая зависит от объема исследуемой совокупности (выборки) данных, проверяется по критерию Стьюдента:
(2.3.20.)
где
Если расчетное значение t выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы ( V = n - 1) и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01).
Надежность уравнения связи оценивается с помощью критерия Фишера, расчетная величина которого сравнивается с табличным значением. Если Fрасч. > Fтабл. , то гипотеза об отсутствии связи между исследуемыми показателями отвергается.
Для оценки точности уравнения связи рассчитывается средняя ошибка аппроксимации. Чем меньше теоретическая линия регрессии (рассчитанная по уравнению) отклоняется от фактической (эмпирической), тем меньше ее величина, а это свидетельствует о правильности подбора формы уравнения связи. В нашем примере она составляет 0,0364, или 3,64%. Учитывая, что в экономических расчетах допускаемая погрешность находится в пределах 5-8%, можно сделать вывод, что исследуемое уравнение связи довольно точно описывает изучаемые зависимости. С такой же небольшой погрешностью будет делаться и прогноз уровня рентабельности по данному уравнению.
О полноте уравнения связи можно судить по коэффициентам множественной корреляции и детерминации. Если их значения близки к 1, значит, в корреляционную модель удалось включить наиболее существенные факторы, на долю которых приходится основная вариация результативного показателя.
Коэффициент множественной детерминации – 0,85. Это значит, что изменение уровня рентабельности на 85% зависит от изменения исследуемых факторов, а на долю неучтенных факторов приходится 15% вариации результативного показателя. Значит, данное уравнение связи можно использовать для практических целей, а именно:
а) расчета влияния факторов на прирост результативного показателя;
б) подсчета резервов повышения уровня исследуемого показателя;
в) планирования и прогнозирования его величины.
Влияние каждого фактора на изменение (отклонение от плана) результативного показателя рассчитывается следующим образом:
. (2.3.21.)
Допустим, что уровень материалоотдачи на анализируемом предприятии по плану на отчетный год – 2,5 руб., фактически – 2,4 руб. Из-за этого уровень рентабельности продукции ниже планового на 0,365%.
(2.3.22.)
Аналогичным образом подсчитывают резервы роста результативного показателя. Для этого планируемый прирост факторного показателя умножают на соответствующий ему коэффициент регрессии в уравнении связи:
. (2.3.23.)
Предположим, что в следующем году намечается рост материалоотдачи с 2,4 до 2,7 руб. За счет этого рентабельность повысится на
(2.3.24.)
Подобные расчеты делаются по каждому фактору с последующим обобщением результатов анализа.
Результаты многофакторного регрессионного анализа могут быть использованы также для планирования и прогнозирования уровня результативного показателя. С этой целью необходимо, в полученное уравнении связи, подставить плановый прогнозный уровень факторных показателей:
(2.3.25.)
Таким образом, многофакторный корреляционный анализ имеет важную научную и практическую значимость. С установлением места и роли каждого фактора в формировании уровня исследуемых показателей точнее обосновываются итоги деятельности предприятий и полнее определяются внутрихозяйственные резервы.
Вопросы и задания для проверки и закрепления знаний:
1. Назовите основные приемы для измерения влияния факторов в детерминированном факторном анализе.
2. Для чего и в каких случаях используются методы корреляционно-регрессионного анализа? Каковы его задачи?
3. Как решается уравнение связи при прямолинейной и криволинейной зависимости? Как интерпретируются его коэффициенты?
4. Для чего и как рассчитывается коэффициент корреляции при прямолинейной и криволинейной зависимости? Что показывает величина коэффициентов корреляции и детерминации?
5. Как проводится многофакторный корреляционно-регрессионный анализ? Для каких целей используются его результаты?
6. На основании приведенных данных запишите факторную модель фонда заработной платы и рассчитайте влияние факторов на изменение ее суммы.
Показатель | Прошлый период | Отчетный период |
Объем производства продукции, шт. | ||
Трудоемкость, чел.-час | ||
Оплата труда за 1 чел.-час, руб. | ||
Фонд заработной платы, тыс.руб. |
7. На основании приведенных данных о затратах (Y) и объемах производства продукции (Х) рассчитайте уравнение связи и коэффициенты корреляции и детерминации и дайте им экономическую интерпретацию.
тыс.руб.
№п/п | ||||||||||||
Y | ||||||||||||
X |
СПИСОК ЛИТЕРАТУРЫ
1. Гусаров В.М. Статистика: Учеб.пособие для вузов. – М. ЮНИТИ –ДАНА, 2003.
2. Салин В.Н., Шпаковская Е.П. Социально-экономическая статистика: Учебник. – М. ЮРИСТЪ, 2003
3. Методические рекомендации по выполнению курсовой работы (проекта): Для студентов НОО ВПО НП ТИЭИ / Е.М.Баранова – Тула: НОО ВПО НП «ТИЭИ», 2011. – 26 с.
Дополнительная:
4. Г.В.Шадрина Комплексный экономический анализ хозяйственной деятельности: Учебное пособие, руководство по изучению дисциплины, учебная программа / Московский государственный университет экономики и информатики. – М., 2005. – 150 с.
5. Скляренко В.К., Прудников В.М., Акуленко Н.Б., Кучеренко А.И. Экономика предприятия (в схемах, таблицах, расчетах): Учебное пособие / Под ред. Проф. В.К.Скляренко, В.М.Прудникова. – М.: ИНФРА – М, 2008. – 256с. – (100 лет РЭА им. Г.В. Плеханова).
6. Г.В.Шадрина Экономический анализ: Учебное пособие, практикум, тесты / Московский государственный университет экономики и информатики. – М., 2007. – 229 с