Спецификация модели множественной регрессии
Множественная регрессии и корреляция
Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике. основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Построение уравнения множественной регрессии начинается с вопроса о спецификации модели. Спецификация модели множественной регрессии, как и в случае парной регрессии, состоит из решения двух основных задач: отбора факторов и выбора вида уравнения регрессии. Однако, их решение при построении множественной регрессии имеет некоторую специфику, которая рассматривается ниже.
Отбор факторов, включаемых во множественную регрессию, является одним из важнейших этапов практического использования метода регрессии, от которого во многом зависит качество построенной модели.
Одной из основных проблем построения уравнения множественной регрессии, возникающих на этапе отбора факторов является проблема размерности модели, которая заключается в определении оптимального числа факторов. Может показаться, что чем больше факторов включено в уравнение регрессии, тем оно лучше описывает явление. Однако это справедливо лишь отчасти. Насыщение модели лишними факторами часто не только не снижают величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости некоторых параметров регрессии по t- критерию Стьюдента. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует повышению ее качества.
Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. При отборе факторов рекомендуется пользоваться следующим эмпирическим правилом: число факторов, включаемых в уравнение множественной регресии должно быть в 6-7 раз меньше объема совокупности, по которой строится регрессия. Не соблюдение этого правила приводит к тому, что некоторые параметры уравнения регрессии оказываются статистически незначимыми.
После определения размерности модели встает вопрос, какие именно факторы должны быть включены в уравнение регрессии, а какие нет. Предварительный отбор факторов обычно производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о целесообразности включения того или иного фактора в модель. Поэтому на практике отбор факторов обычно осуществляется в два этапа: на первом подбираются факторы исходя из сущности проблемы; на втором - рассчитываются некоторые количественные показатели, значение которых дает возможность отобрать необходимые факторы. К таким показателям относятся частные коэффициенты корреляции и совокупный коэффициент детерминации.
На втором этапе отбора факторов обычно используют различные пошаговые процедуры (так называемый шаговый регрессионный анализ). Наиболее широкое применение получили следующие пошаговые методы отбора факторов:
* метод включения;
* метод исключения;
* метод включения-исключения факторов.
В случае реализации метода включения, на первом шаге в уравнение регрессии включается лишь один фактор, имеющий с результативной переменной y наибольший коэффициент детерминации. На втором шаге в полученное уравнение регрессии добавляется еще один фактор, который вместе с первоначально включенным фактором образует пару объясняющих переменных имеющихс y наиболее высокий коэффициент детерминации. На третье шаге вводится в уравнение регрессии еще одна объясняющая переменная, которая вместе с двумя первоначально отобранными образует тройку факторов, имеющих с y наиболее высокий коэффициент детерминации, и т. д. Процедура введения новых переменных продолжатся до тех пор, пока возрастает значение показателя детерминации.
Процедура реализации метода исключения является обратной выше описанной. Сначала строится модель регрессии с полным набором факторов и определяется показатель детерминации.
Далее последовательно из модели регрессии исключаются факторы, устранение которых обеспечивает наименьшее снижение показателя детерминации.
Метод вкючения-исключения представляет собой комбинацию выше описанных методов.
Каждый из рассмотренных методов по-своему решает проблему отбора факторов, давая в целом близкие результаты. Однако, следует отметить, что какая бы пошаговая процедура отбора факторов не использовалась, она не гарантирует определения оптимального (в смысле получения максимального значения показателя детерминации R2) набора объясняющих переменных. Однако в большинстве случаев получаемый с помощью пошаговых процедур набор переменных оказывается близким к оптимальному.
Отбор факторов для включения в уравнение множественной регрессии может быть произведен на и на основе частных коэффициентов корреляции.
Проблема отбора факторов часто усугубляется наличием взаимосвязи между независимыми переменными, включаемыми в уравнение регрессии.
Эта взаимосвязь может проявляться в виде:
* коллинеарности
* мультиколлинеарности.
Под коллинеарностью понимается тесная линейная связь между двумя факторами. Условием коллинеарности факторов xi , xj (i¹j) является .
Последствия, к которым может привести наличие тесной линейной связи между факторами легко проследить на примере линейного уравнения множественной регрессии с двумя факторами
.
Стандартные ошибки коэффициентов регрессии для этого уравнения определяются по формуле
.
Таким образом, чем теснее связь между факторами, тем ближе модуль значения парного коэффициента корреляции к единице, и тем больше стандартные ошибки коэффициентов регрессии при прочих равных условиях. Увеличение стандартных ошибок ведет к снижению статистической значимости коэффициентов регрессии.
Из приведенной выше формулы для стандартной ошибки коэффициентов регрессии видны некоторые способы устранения влияния коллинеарности факторов:
1) исключение одного из факторов, что приведет к ;
2) увеличение объема выборки n;
3) уменьшение остаточной дисперсии , путем введения дополнительных факторов, оказывающих существенное влияние на результативную переменную y;
4) формирование выборки, по которой поизводится построение уравнения регрессии, с тем расчетом, чтобы дисперсия факторов была наибольшей.
Под мультиколлинеарностью понимается тесная линейная взаимосвязь между тремя и более факторами, включенными в уравнение множественной регрессии.
Включение в модель мультиколлинеарных факторов нежелательно в силу следующих причин:
- поскольку факторы не являются независимыми, то нельзя определить их изолированное влияние на результативный признак и коэффициенты множественной регрессии становятся экономически неинтерпретируемыми;
- оценки параметров ненадежны, имеют большие стандартные ошибки и являются нестабильными, т. е. могут сильно изменятся не только по величине, но и по знаку с изменением объема наблюдений, что делает регрессионную модель непригодной для анализа и прогнозирования.
В решении проблемы мультиколлинеарности можно выделить несколько этапов:
* установление наличия мультиколлинеарности;
* определение причин возникновения мультиколлинеарности;
* разработка мер по ее устранению.
Причинами возникновения мультиколлинеарности между факторами являются:
* изучаемые факторы, характеризуют одну и ту же сторону явления или процесса. Например, показатели объема произведенной продукции и среднегодовой стоимости основных фондов одновременно включать в модель в качестве факторов не рекомендуется, так как они оба характеризуют размер предприятия;
* использование в качестве факторов показателей, суммарное значение которых представляет собой постоянную величину;
* факторы являются составными элементами друг друга;
* факторы по экономическому смыслу дублируют друг друга.
Оценка наличия мультиколлинеарности обычно производится на основе критерия Пирсона c2 («хи-квадрат»), расчетное значение которого определяется по формуле
,
где M - матрица межфакторной корреляции (матрица парных коэффициентов корреляции между факторами):
.
Расчетное значение критерия сравнивается с табличным , найденным при заданной доверительной вероятности p и числе степеней свободы . Мультиколлинеарность присутствует и является существенной если .
Для определения факторов, являющихся причиной наличия мультиколлинеарности строятся уравнения регрессии зависимости каждого j-го фактора от остальных m-1 факторов
,
и определяются соответствующие показатели детерминации
.
Чем больше значение к единице, тем теснее фактор xj связан с другими факторами, включенными в уравнение регрессии, и именно этот фактор в наибольшей степени определяет наличие мультиколлинеарности.
Если основная задача регрессионной модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (>0.9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели.
Если же целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой, которая требует своего решения.
Единого метода устранения мультиколлинеарности, пригодного в любом случае, не существует. Рассмотрим основные, наиболее широко используемые, методы.
1. Исключение переменной (-ых) из модели. Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных.
Однако в этой ситуации возможны ошибки спецификации модели. Например, при исследовании спроса на некоторый товар в качестве объясняющих переменных можно использовать цену данного товара и цены товаров-заменителей, которые зачастую коррелируют друг с другом. Исключив из модели цены товаров-заменителей, мы, скорее всего допустим ошибку спецификации. Вследствие чего можно получить неверные оценки параметров модели и сделать необоснованные выводы. Поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.
2. Получение дополнительных данных или новой выборки. Поскольку мультиколлинеарность напрямую зависит от объема и качества выборки, то возможно, при другой выборки мультиколлинерности не будет либо она будет незначительной.
Иногда для уменьшения мультиколлинерности достаточно увеличить объем выборки. Увеличение количества данных сокращает стандартные ошибки коэффициентов регрессии и тем самым увеличивает их статистическую значимость.
Однако получение новой выборки или расширение старой не всегда возможно и/или связано с серьезными издержками.
3. Изменение спецификации модели. В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.
Использование данного метода может привести к уменьшению остаточной дисперсии, а следовательно и к снижению стандартных ошибок параметров уравнения регрессии.
4. Преобразование переменных. В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью нелинейных преобразований переменных.
Например, пусть в линейном уравнении множественной регрессии
фактором, ответственным за наличие мультиколлинеарности, является фактор x1. Тогда устранить тесную линейную связь между фактором x1 и остальными факторами можно перейдя от исходного линейного уравнения множественной регрессии к нелинейному уравнению следующего вида:
Введем новые переменные
,
получим линейное уравнение регрессии
,
в котором факторы уже не находятся в тесной линейной связи.
Возможны и другие нелинейные преобразования переменных, близкие по своей сути к вышеописанным.
Одним из подходов к устранению влияния мультиколлинеарности на результаты регрессионного анализа является учет зависимости факторов, который может быть реализован двумя путями.
5. Учет коррелированности независимых переменных с помощью совмещенных уравнений. Одним из путей учета коррелированности факторов является переход от обычных уравнений множественной регрессии к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только изолированное влияние факторов, но и совместное их влияние. Для описания взаимосвязи результативного признака с тремя факторами совмещенное уравнение регрессии может быть записано в виде
.
Рассмотренное уравнение включает взаимодействие факторов первого (x1x2, x1x3, x2x3) и второго порядка (x1x2x3).
Как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми, поэтому при построении совмещенных уравнений регрессии ограничиваются взаимодействиями первого и второго порядков.
6. Учет зависимости между факторами с помощью систем совместных уравнений. Еще одним способом учета коррелированности факторов является переход от одного изолированного уравнения регрессии к системе совместных уравнений регрессии (более подробно о системах эконометрических уравнений см. 4).
Рассмотрим пример. Пусть в линейном уравнении множественной регрессии
фактор x1 является результатом действия факторов x2 и x3 . Что избежать влияния коллинеарности можно исключить фактор x1, но можно поступить и следующим образом. Вместо одного уравнения регрессии следует записать два, одно из которых описывает взаимосвязь результативного признака y с фактором x1 , а другое характеризует взаимодействие фактора x1 с факторами x2 и x3 . Полученные уравнения образуют следующую систему:
.
Таким образом, с помощью систем уравнений возможно учесть взаимодействие между факторами.
После решения проблемы отбора факторов, осуществляется выбор функциональной зависимости результативной переменой от факторов. Определение формы связи затрудняется тем, что, используя математический аппарат, теоретически зависимость между результативным и факторными признаками может быть выражена большим числом различных функций. Однако, при построении модели множественной регрессии стараются подобрать уравнение регрессии с одной стороны, по возможности, простое, с другой - с экономически интерпретируемыми параметрами. Иногда вид уравнения регрессии удается определить, исходя из сути моделируемого процесса или на основе анализа результатов аналогичных эконометрических исследований, проводившихся ранее. Но чаще всего этого сделать не получается. Наиболее приемлемым способом определения вида уравнения регрессии в этом случае является метод перебора. Данный способ является достаточно трудоемким, в связи с чем его реализация осуществляется на компьютере, оснащенным соответствующим программным обеспечением.
Практика построения многофакторных моделей взаимосвязей показывает, что почти все реально существующие зависимости между социально-экономическими явлениями можно описать, используя следующие модели:
1) линейная
;
2) степенная
;
3) экспоненциальная (показательная)
;
4) параболическая
5) гиперболическая
или
.
Ввиду четкой интерпретации параметров наиболее широко используется линейная и степенная функции.
Коэффициенты bi линейного уравнения множественной регрессии представляют собой коэффициенты чистой регрессии и показывают, на сколько в среднем изменится значение результативного признака у при изменении фактора xi на единицу при неизменном значении других факторов (включенных в равнение множественной регрессии), зафиксированных на среднем уровне.
Коэффициенты bi степенного уравнения множественной регрессии являются частными коэффициентами эластичности и показывают, на сколько процентов в среднем изменится значение результативного признака при изменении соответствующего фактора xi на 1 процент при неизменном значении других факторов, зафиксированных на среднем уровне. Этот вид уравнения получил наибольшее распространение в исследованиях спроса и потребления, а также в производственных функциях.