Множественная регрессия и корреляция

Лекция 2.

При решении практических задач исследователи сталкиваются с тем, что корреляционные связи не ограничиваются связями меж­ду двумя признаками: результативным у и факторным х. В дейст­вительности результативный признак зависит от нескольких фак­торных. Например, инфляция тесно связана с динамикой потребительских цен, розничным товарооборотом, численностью безработных, объемами экспорта и импорта, курсом доллара, ко­личеством денег в обращении, объемом промышленного производ­ства и другими факторами.

В условиях действия множества факторов показатели парной корреляции оказываются условными и неточными. Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком у и фак­торными признаками х1, х2, ..., xk можно методами множественной (многофакторной) корреляции.

Многофакторный корреляционно-регрессионный анализ сво­дится к решению следующих задач:

• обосновать взаимосвязи факторов, влияющих на исследуе­мый показатель;

• определить степень влияния каждого фактора на результа­тивный признак путем построения модели-уравнения мно­жественной регрессии, которая позволяет установить, в ка­ком направлении и на какую величину изменится результативный показатель при изменении каждого факто­ра, входящего в модель;

• количественно оценить тесноту связи между результативным признаком и факторами.

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1) быть количественно измеримыми;

2) не должны быть коррелированны между собой и тем боле находиться в точной функциональной связи.

Наличие между двумя факторами весьма тесной линейной связи (парный коэффициент корреляции rхх превышает по абсолютной величи­не 0,7) называется коллинеарностью, а между несколькими факто­рами — мультиколлинеарностью.

Мультиколлинеарность – это нестрогая линейная зависимость между факторными признаками, которая приводит к следующим нежелательным последствиям:

1. Оценки параметров становятся ненадежными, они обнаруживают большие стандартные ошибки, малую значимость, в то же время модель является значимой, т.е. значение множественного коэффициента корреляции завышено;

2. Небольшое изменение исходных данных приводит к существенному изменению оценок параметров модели;

3. Оценки параметров модели имеют неправильные знаки или неоправданно большие значения, что делает модель непригодной для анализа и прогнозирования;

4. Становится невозможным определить изолированное влияние факторов на результативный показатель.

В наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (он имеет высокие по модулю значения коэффициентов парной линейной корреляции). Поэтому, если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пример. Проверим наличие мультиколлинеарности между факторами х1 (возраст, лет), х2 (стаж работы, лет), х3 (выработка шт./смену), которые могут оказывать влияние на результативный признак - заработная плата. Для этого построим корреляционную матрицу. Из матрицы видно, что между признаками Множественная регрессия и корреляция - student2.ru имеется довольно сильная линейная зависимость, т.к. Множественная регрессия и корреляция - student2.ru . Вследствие этого требуется устранить один из факторов.

Таблица 1

  y x1 x2 х3
y      
x1 0,853056    
x2 0,849877 0,935263  
x3 0,778766 0,615448 0,69661

Из модели следует исключить фактор х2, т.к. он теснее связан с третьим фактором, чем фактор х1: Множественная регрессия и корреляция - student2.ru .

Определившись с набором факторов, исследователи переходят к построению многофакторной эконометрической модели. Математически задача сводится к нахождению аналитического выражения, наилучшим образом описывающего связь факторных признаков с результативным, т.е. к отысканию функции вида:

у = f(x1, х2, ..., xk).

Выбрать форму связи довольно сложно. Эта задача на практике основывается на априорном теоретическом анализе изучаемого явления и подборе известных типов математических моделей.

Среди многофакторных регрессионных моделей выделяют ли­нейные (относительно независимых переменных) и нелинейные.

Наиболее простыми для построения, анализа и экономической интерпретации являются многофакторные линейные модели, ко­торые содержат независимые переменные только в первой степени:

Множественная регрессия и корреляция - student2.ru ,

где a – свободный член, параметр, представляющий собой среднее значение y при x12=…=хk=0.

bj – коэффициент регрессии при j-омфакторе (j=1;k). Характеризует среднее изменение признака-результата у в связи с изменением соответствующего фактора хj на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях;

yi – значение признака-результата для i–го наблюдения;

xi – значение j-гофактора для i–го наблюдения;

Множественная регрессия и корреляция - student2.ru - случайная составляющая результативного признака i–го наблюдения.

Если связь между результативным признаком и анализируемы­ми факторами нелинейна, то выбранная для ее описания нелиней­ная многофакторная модель (степенная, показательная и т.д.):

Степенная - Множественная регрессия и корреляция - student2.ru ;.

Экспонента – Множественная регрессия и корреляция - student2.ru ;

Гипербола – Множественная регрессия и корреляция - student2.ru ;

мо­жет быть сведена к линейной путем линеаризации.

Параметры уравнения множественной регрессии, как и парной, рассчитываются методом наименьших квадратов, при этом реша­ется система нормальных уравнений с k +1 неизвестными:

Множественная регрессия и корреляция - student2.ru

где хij — значение j-го факторного признака в i-м наблюдении;

уi — значение результативного признака в i-м наблюдении.

Как правило, прежде чем найти параметры уравнения множест­венной регрессии, определяют и анализируют парные коэффици­енты корреляции:

Множественная регрессия и корреляция - student2.ru Множественная регрессия и корреляция - student2.ru .

При этом систему нормальных уравнений мож­но видоизменить таким образом, чтобы при вычислении параметров регрессии использовать уже найденные парные коэф­фициенты корреляции. Для этого в уравнении регрессии заменяют переменные у, х1, х2, ..., xk переменными ti, полученными следую­щим образом:

Множественная регрессия и корреляция - student2.ru

Эта процедура называется стандартизацией переменных. В резуль­тате осуществляется переход от натурального масштаба переменных хij к центрированным и нормированным отклонениям tij. В стандартизированном масштабе среднее значение признака равно 0, а среднее квадратическое отклонение равно 1, т.е. Множественная регрессия и корреляция - student2.ru .

При переходе к стандартизированному масштабу переменных уравнение множественной регрессии принимает вид:

Множественная регрессия и корреляция - student2.ru ,

где Множественная регрессия и корреляция - student2.ru (j = 1, k ) — стандартизированные коэффициенты регрессии.

Множественная регрессия и корреляция - student2.ru -коэффициент характери­зует изменение исследуемого показателя в зависимости от изме­нения одного фактора при постоянном уровне остальных. Иначе, Множественная регрессия и корреляция - student2.ru -коэффициент показывает, на какую часть сигмы ( Множественная регрессия и корреляция - student2.ru ) изменилось бы значение результата, если бы соответствующий j-фактор изменился на сигму ( Множественная регрессия и корреляция - student2.ru ), а прочие факторы не измени­лись бы.

Кроме того, Множественная регрессия и корреляция - student2.ru -коэффициенты позволяют оценить степень воз­действия факторных признаков на результат. В силу того что все Множественная регрессия и корреляция - student2.ru -коэффициенты выражены в одинаковых единицах измерения, при Множественная регрессия и корреляция - student2.ru 2 > Множественная регрессия и корреляция - student2.ru 3 фактор х2 сильнее влияет на результативный признак, чем фактор х3.

К уравнению множественной регрессии в стандартизованном масштабе применяется МНК. Множественная регрессия и корреляция - student2.ru -коэффициенты определяются из следующей системы уравнений:

Множественная регрессия и корреляция - student2.ru

Связь коэффициентов множественной регрессии bi со стандартизованными Множественная регрессия и корреляция - student2.ru коэффициентами описывается соотношением Множественная регрессия и корреляция - student2.ru . Параметр а определяется как Множественная регрессия и корреляция - student2.ru .

В двухфакторном регрессионном анализе найти уравнение регрессии в стандартизированном масштабе Множественная регрессия и корреляция - student2.ru можно через формулы:

Множественная регрессия и корреляция - student2.ru , Множественная регрессия и корреляция - student2.ru .

На основе линейного уравнения множественной регрессии:

Множественная регрессия и корреляция - student2.ru

могут быть найдены частные уравнения регрессии:

Множественная регрессия и корреляция - student2.ru

В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном среднем уровне. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:

Множественная регрессия и корреляция - student2.ru

где bj – коэффициент регрессии при j-омфакторе;

Множественная регрессия и корреляция - student2.ru ‒ частное уравнение регрессии.

Для того чтобы оценить сравнительную силу влияния факторов, по каждому фактору рассчитывают средние коэффициенты элас­тичности:

Множественная регрессия и корреляция - student2.ru ,

где Множественная регрессия и корреляция - student2.ru — среднее значение j-го факторного признака;

Множественная регрессия и корреляция - student2.ru — среднее значение результативного признака;

Множественная регрессия и корреляция - student2.ru — коэффициент регрессии при j-м факторном признаке.

Расчет коэффициента эластичности дополняет экономический анализ. Данный коэффициент показывает, на сколько процентов следует ожидать изменения результативного показателя при изме­нении фактора на 1% и неизменном значении других факторов.

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации. Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или оценивает тесноту совместного влияния на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

Множественная регрессия и корреляция - student2.ru

где Множественная регрессия и корреляция - student2.ru — общая дисперсия результативного признака;

Множественная регрессия и корреляция - student2.ru — остаточная дисперсия, характеризующая отклонения фактических уровней результативного признака yi отрассчитанных по уравне­нию множественной регрессии Множественная регрессия и корреляция - student2.ru .

При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением:

Множественная регрессия и корреляция - student2.ru

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции или совокупного коэффициента корреляции.

При линейной форме связи расчет совокупного коэффици­ента корреляции можно также выполнить, используя парные коэффи­циенты корреляции:

Множественная регрессия и корреляция - student2.ru

где b1, b2, ..., bk — параметры уравнения множественной регрессии

в натуральном масштабе.

Наряду с измерением совместного влияния отобранных факто­ров на результативный признак важно определить воздействие каж­дого фактора при элиминировании его взаимосвязи с остальными (что возможно, когда последние зафиксированы на постоянном уровне). Для решения данной задачи при линейной связи применяют частные коэффициенты корреляции, а для нелинейной - частные индексы детерминации.

В общем виде при наличии kфакторов для уравнения:

Множественная регрессия и корреляция - student2.ru

коэффициент частной корреляции, измеряющий влияние на у фактора хk при неизменном уровне других факторов, можно определить по формуле:

Множественная регрессия и корреляция - student2.ru ,

где Множественная регрессия и корреляция - student2.ru - множественный коэффициент детерминации всего комплекса

факторов с результатом;

Множественная регрессия и корреляция - student2.ru - тот же показатель детерминации, но без введения в модель фактора хk.

Пример. Рассмотрим методику корреляционно-регрессионного анализа на примере статистической обработки данных по предприятиям электросвязи

Таблица 2.2

Наши рекомендации