Понятие множественной регрессии
Множественной регрессией называют уравнение связи с несколькими не-зависимыми переменными:
ŷ = f (x1,x2,...,xp). | (3.1) |
Переменная у называется зависимой, объясняемой или результативным |
признаком.х1,х2, …,хp– независимые, объясняющие переменные или фак-торные признаки (факторы).
Соответствующая регрессионная модель имеет вид
y = f (x1,x2,...,xp) +ε, | (3.2) |
где ε ошибка модели, являющаяся случайной величиной.
Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доми-нирующий фактор и необходимо учитывать влияние нескольких факторов. На-пример, объем выпуска продукции определяется величиной основных и обо-ротных средств, численностью персонала, уровнем менеджмента и т. д., уро-вень спроса зависит не только от цены, но и от имеющихся у населения денеж-ных средств.
Основная цель множественной регрессии – построить модель с нескольки-ми факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.
Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра yиxj и ((yi,
xj,i); j=1, 2, ..., p; i=1, 2, ..., n)необходимо определить аналитическую зависи-мость ŷ= f(x1,x2,...,xp), наилучшим образом описывающую данные наблюдений.
Таблица 3.1
Результаты наблюдений
y | x1 | x2 | … | xp | |
y1 | x11 | x21 | … | xp1 | |
y2 | x12 | x22 | … | xp2 | |
… | … | … | … | … | … |
n | yn | x1n | x2n | … | xpn |
Каждая строка таблицы содержит p+1 число и представляет собой резуль-тат одного наблюдения. Наблюдения различаются условиями их проведения.
Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений ре-зультативного показателя ŷi=f(x1i,x2i,...,xpi) от наблюдаемых значений yi
S yˆi yi2min .
Как и в случае парной регрессии, построение уравнения множественной регрессии предполагает решение двух задач (или, другими словами, осуществ-ляется в два этапа):
1) спецификация модели;
2) оценка параметров выбранной модели.
В свою очередь, спецификация модели включает в себя решение двух задач:
– отборpфакторовxj, подлежащих включению в модель;
– выбор вида аналитической зависимостиŷ= f (x1,x2,...,xp).
Отбор факторов при построении множественной регрессии
Требования к факторам
Процесс отбора факторов в достаточно сложных ситуациях является ите-рационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа. Первоначально отбор факторов осуществляет-ся на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показате-лями. На следующем этапе отобранные факторы подвергаются проверке на ста-тистическую значимость. Окончательное решение о включении фактора в мо-дель основывается на количественной оценке степени влияния фактора на изу-чаемый показатель.
К факторам, включаемым в модель, предъявляются следующие требования:
1. Факторы не должны быть взаимно коррелированы и, тем более, нахо-диться в точной функциональной связи. Наличие высокой степени коррелиро-ванности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изоли-рованное влияние факторов на результативный показатель.
2. Включение фактора в модель должно приводить к существенному уве-личению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации R2, включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора
в модель выполняется с помощью оценки значимости соответствующего част-ного коэффициента корреляции либо значимости коэффициента в уравнении регрессии.
Если необходимо учесть влияние качественного фактора (не имеющего количественной оценки), то в модель включается соответствующая ему «фик-тивная» переменная, имеющая конечное количество формально численных зна-чений, соответствующих градациям качественного фактора. Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную z, принимающую значения
z = 0 при начальном образовании, 1 при среднем, 2 при высшем.
Если для какого-либо показателя, который представляется важным для данного исследования, отсутствуют исходные данные, либо сам показатель четко не определен, то может быть полезно включить в модель некоторый ее «заменитель». Например, в качестве показателя качества образования можноиспользовать число преподавателей или расходы на одного студента. Такой подход основан на том факте, что неучет существенного показателя приводит к
смещенным оценкам параметров. Например, производственная функция Кобба-Дугласа, построенная по данным экономики США за период 1949 1978 гг., по-строенная с учетом времени в качестве замещающей переменной для показате-ля технического прогресса имеет вид [4]
logŶ = 1,03 + 0,17 logK + 0,93 logL + 0,024t , (2,33) (0,66) (0,17) 0,016)
а без учета имеет вид
logŶ = 4,50+ 1,19 logK + 0,77 logL, (0,57) (0,10) (0,15)
где Y индекс объема выпуска частного сектора; K – индекс затрат капитала;L индекс затрат труда; t – время, равное единице в 1948 г. и т. д. Без учета за-мещающей переменной коэффициент при logK неправдоподобно велик.
При отборе факторов в модель следует, по возможности, стремиться к ми-нимизации количества факторов, так как неоправданное их увеличение приво-дит к затруднениям в интерпретации модели и снижению достоверности ре-зультатов.
Мультиколлинеарность
Под мультиколлинеарностью понимается высокая взаимная коррелиро-ванность объясняющих переменных. Следствием мультиколлинеарности явля-ется линейная зависимость между столбцами наблюдений xij в таблице 3.1 или между столбцами матрицы X(3.11). В результате, матрица X′X становится пло-хо обусловленной, что приводит к неустойчивости оценок коэффициентов рег-рессии, когда незначительные изменения данных наблюдений приводят к зна-чительным изменениям оценок.
Проверка наличия мультиколлинеарности основывается на анализе матри-цы парных корреляций между факторами
rx x | rx x | ||||
rx2 x1 | rx2 x2 | ||||
R | |||||
... | |||||
... | |||||
rx p x1 | rx p x2 | ||||
... | rx x | p | |||||
... | rx x | rx | x1 | ||||
... ... | |||||||
... | |||||||
... | rx p x1 | ||||||
rx p x p |
rx x | ... | rx x | p | ||||
... | rx x | ||||||
(3.3) | |||||||
... | ... ... | ||||||
rx p x2 | ... | ||||||
Коэффициенты парной корреляции rxixj между объясняющими переменны-
ми используются для выявления дублирующих факторов. Линейная зависи-мость между объясняющими переменными xi и xj считается установленной, ес-ли выполняется условие rxixj0,8 , а сами факторы называются явно коллине-
арными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при доста-точно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
Наряду с парной коллинеарностью может иметь место линейная зависи-мость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя Det R
матрицы парных коэффициентов корреляции rxixj между факторами либо ее
минимального собственного значения.
Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии.
Для оценки статистической значимости мультиколлинеарности факторов
n 1 | 1 | |||||||||||
может быть использован тот факт, что величина | (2m 5) lg DetRимеет | |||||||||||
приближенное распределение 2 | с df | 1 p( p 1)степенями свободы. | ||||||||||
т. е.Det | R | |||||||||||
Выдвигается гипотеза H0 о независимости переменных, | 1. | |||||||||||
Если | фактическое значение | χ2 | превосходит | табличное | (критическое) | |||||||
отклоняется и мультиколлинеарность счита- | ||||||||||||
факт | табл(df,a) , то гипотезаН0 |
ется доказанной.
Для выявления мультиколлинеарности факторов можно использовать ко-
эффициенты множественной детерминации R2 | |x | x | ...x | ; R2 | |x x | ...x | … , полученные | ||
x | p | x | p | ||||||
1 3 |
по уравнениям регрессии, в которых качестве зависимой переменной рассмат-ривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерми-
нации Rx21|x2x3...xp> 0,6 мультиколлинеарность факторов считается установлен-
ной. Оставляя в уравнении регрессии факторы с минимальной величиной ко-эффициента множественной детерминации, можно исключить мультиколлине-арность факторов.
Для преодоления явления линейной зависимости между факторами ис-пользуются такие способы, как:
исключение одного из коррелирующих факторов; переход с помощью линейного преобразования к новым некоррелирую-
щим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разно-
стям во временных рядах xitxitxit1 и т. п.;
переход к смещенным оценкам, имеющим меньшую дисперсию. В част-ности, при использовании «ридж-регрессии» применяются смещенные оценки
(п. 3.4), гдеτнекоторое положи- | ||||
вектора параметров bτ(X X Ep1) | X Y |
тельной число,Ep+1 единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повыша-ет устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными).
Другие аспекты вопроса отбора факторов рассмотрены в п. 1.5.
Следует также учитывать ограничение, накладываемое на количество фак-торов, имеющимся числом наблюдений. Количество наблюдений должно пре-вышать количество факторов более чем в 6-7 раз.