Понятие множественной регрессии

Множественной регрессией называют уравнение связи с несколькими не-зависимыми переменными:

ŷ = f (x1,x2,...,xp). (3.1)
Переменная у называется зависимой, объясняемой или результативным

признаком.х12, …,хp– независимые, объясняющие переменные или фак-торные признаки (факторы).

Соответствующая регрессионная модель имеет вид

y = f (x1,x2,...,xp) +ε, (3.2)

где ε ошибка модели, являющаяся случайной величиной.

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доми-нирующий фактор и необходимо учитывать влияние нескольких факторов. На-пример, объем выпуска продукции определяется величиной основных и обо-ротных средств, численностью персонала, уровнем менеджмента и т. д., уро-вень спроса зависит не только от цены, но и от имеющихся у населения денеж-ных средств.

Основная цель множественной регрессии – построить модель с нескольки-ми факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра yиxj и ((yi,

xj,i); j=1, 2, ..., p; i=1, 2, ..., n)необходимо определить аналитическую зависи-мость ŷ= f(x1,x2,...,xp), наилучшим образом описывающую данные наблюдений.

Таблица 3.1

Результаты наблюдений

  y x1 x2 xp
y1 x11 x21 xp1
y2 x12 x22 xp2
n yn x1n x2n xpn

Каждая строка таблицы содержит p+1 число и представляет собой резуль-тат одного наблюдения. Наблюдения различаются условиями их проведения.

Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений ре-зультативного показателя ŷi=f(x1i,x2i,...,xpi) от наблюдаемых значений yi

S yˆi yi2min .

Как и в случае парной регрессии, построение уравнения множественной регрессии предполагает решение двух задач (или, другими словами, осуществ-ляется в два этапа):

1) спецификация модели;

2) оценка параметров выбранной модели.

В свою очередь, спецификация модели включает в себя решение двух задач:

– отборpфакторовxj, подлежащих включению в модель;

– выбор вида аналитической зависимостиŷ= f (x1,x2,...,xp).

Отбор факторов при построении множественной регрессии

Требования к факторам

Процесс отбора факторов в достаточно сложных ситуациях является ите-рационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа. Первоначально отбор факторов осуществляет-ся на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показате-лями. На следующем этапе отобранные факторы подвергаются проверке на ста-тистическую значимость. Окончательное решение о включении фактора в мо-дель основывается на количественной оценке степени влияния фактора на изу-чаемый показатель.

К факторам, включаемым в модель, предъявляются следующие требования:

1. Факторы не должны быть взаимно коррелированы и, тем более, нахо-диться в точной функциональной связи. Наличие высокой степени коррелиро-ванности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изоли-рованное влияние факторов на результативный показатель.

2. Включение фактора в модель должно приводить к существенному уве-личению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации R2, включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора

в модель выполняется с помощью оценки значимости соответствующего част-ного коэффициента корреляции либо значимости коэффициента в уравнении регрессии.

Если необходимо учесть влияние качественного фактора (не имеющего количественной оценки), то в модель включается соответствующая ему «фик-тивная» переменная, имеющая конечное количество формально численных зна-чений, соответствующих градациям качественного фактора. Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную z, принимающую значения

z = 0 при начальном образовании, 1 при среднем, 2 при высшем.

Если для какого-либо показателя, который представляется важным для данного исследования, отсутствуют исходные данные, либо сам показатель четко не определен, то может быть полезно включить в модель некоторый ее «заменитель». Например, в качестве показателя качества образования можноиспользовать число преподавателей или расходы на одного студента. Такой подход основан на том факте, что неучет существенного показателя приводит к

смещенным оценкам параметров. Например, производственная функция Кобба-Дугласа, построенная по данным экономики США за период 1949 1978 гг., по-строенная с учетом времени в качестве замещающей переменной для показате-ля технического прогресса имеет вид [4]

logŶ = 1,03 + 0,17 logK + 0,93 logL + 0,024t , (2,33) (0,66) (0,17) 0,016)

а без учета имеет вид

logŶ = 4,50+ 1,19 logK + 0,77 logL, (0,57) (0,10) (0,15)

где Y индекс объема выпуска частного сектора; K – индекс затрат капитала;L индекс затрат труда; t – время, равное единице в 1948 г. и т. д. Без учета за-мещающей переменной коэффициент при logK неправдоподобно велик.

При отборе факторов в модель следует, по возможности, стремиться к ми-нимизации количества факторов, так как неоправданное их увеличение приво-дит к затруднениям в интерпретации модели и снижению достоверности ре-зультатов.

Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелиро-ванность объясняющих переменных. Следствием мультиколлинеарности явля-ется линейная зависимость между столбцами наблюдений xij в таблице 3.1 или между столбцами матрицы X(3.11). В результате, матрица X′X становится пло-хо обусловленной, что приводит к неустойчивости оценок коэффициентов рег-рессии, когда незначительные изменения данных наблюдений приводят к зна-чительным изменениям оценок.

Проверка наличия мультиколлинеарности основывается на анализе матри-цы парных корреляций между факторами


    rx x rx x  
     
  rx2 x1 rx2 x2  
R    
      ...    
  ...      
    rx p x1 rx p x2  
     

... rx x p      
             
... rx x   rx   x1  
     
       
... ...              
    ...    
...       rx p x1  
rx p x p    

rx x ... rx x p      
       
  ... rx x      
    (3.3)  
       
... ... ...    
       
rx p x2 ...        
       

Коэффициенты парной корреляции rxixj между объясняющими переменны-

ми используются для выявления дублирующих факторов. Линейная зависи-мость между объясняющими переменными xi и xj считается установленной, ес-ли выполняется условие rxixj0,8 , а сами факторы называются явно коллине-

арными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при доста-точно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Наряду с парной коллинеарностью может иметь место линейная зависи-мость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя Det R

Понятие множественной регрессии - student2.ru Понятие множественной регрессии - student2.ru

матрицы парных коэффициентов корреляции rxixj между факторами либо ее

минимального собственного значения.

Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии.

Для оценки статистической значимости мультиколлинеарности факторов

        n 1 1      
может быть использован тот факт, что величина (2m 5) lg DetRимеет  
               
приближенное распределение 2 с df 1 p( p 1)степенями свободы.  
            т. е.Det   R      
Выдвигается гипотеза H0 о независимости переменных,     1.  
     
Если фактическое значение χ2 превосходит табличное (критическое)  
отклоняется и мультиколлинеарность счита-  
факт табл(df,a) , то гипотезаН0  

ется доказанной.

Для выявления мультиколлинеарности факторов можно использовать ко-

эффициенты множественной детерминации R2 |x x ...x   ; R2 |x x ...x … , полученные  
x p x p  
  1 3    

по уравнениям регрессии, в которых качестве зависимой переменной рассмат-ривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерми-

нации Rx21|x2x3...xp> 0,6 мультиколлинеарность факторов считается установлен-

ной. Оставляя в уравнении регрессии факторы с минимальной величиной ко-эффициента множественной детерминации, можно исключить мультиколлине-арность факторов.

Для преодоления явления линейной зависимости между факторами ис-пользуются такие способы, как:

исключение одного из коррелирующих факторов; переход с помощью линейного преобразования к новым некоррелирую-

щим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разно-

стям во временных рядах xitxitxit1 и т. п.;

переход к смещенным оценкам, имеющим меньшую дисперсию. В част-ности, при использовании «ридж-регрессии» применяются смещенные оценки

    (п. 3.4), гдеτнекоторое положи-  
вектора параметров bτ(X X Ep1)   X Y  

тельной число,Ep+1 единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повыша-ет устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными).

Другие аспекты вопроса отбора факторов рассмотрены в п. 1.5.

Следует также учитывать ограничение, накладываемое на количество фак-торов, имеющимся числом наблюдений. Количество наблюдений должно пре-вышать количество факторов более чем в 6-7 раз.

Наши рекомендации