Мультиколлинеарность факторов (взаимозависимость). Механизм отбора факторов
1) Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между независимыми переменными (факторами) регрессионной модели (когда более чем 2 фактора связаны между собой линейной (сильной) зависимостью, т.е. имеет место интегральное (совместное) воздействие факторов друг на друга.
При этом различают полную коллинеарность, и частичную или просто мультиколлинеарность— наличие сильной корреляции между факторами.
Выделим некоторые наиболее характерные признаки мультиколлинеарности.
1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели.
2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответствующей F-статистики).
3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.
Основные причины, вызывающие мультиколлинеарность, – независимые переменные, либо характеризующие одно и то же свойство изучаемого явления, либо являющиеся составными частями одного и того же признака.
В настоящее время существует ряд методов, позволяющих оценить наличие мультиколлинеарности в совокупности независимых переменных, измерить ее степень, выявить взаимно коррелированные переменные и устранить или ослабить ее негативное влияние на регрессионную модель. Наиболее распространенным методом выявления мультиколлинеарности является метод корреляции. На практике считают, что две переменные коллинеарны (линейно зависимы), если парный коэффициент корреляции между ними по абсолютной величине превышает 0,8. Устраняют мультиколлинеарность чаще всего путем исключения из модели одного из коррелированных факторов.
На этапе содержательного анализа решается вопрос о целесообразности включения в модель тех или иных факторов, исходя из “здравого” смысла. В макроэкономических исследованиях состав факторов, как правило, определяется на основании допущений экономической теории. Пример – двухфакторные производственные функции типа Кобба-Дугласа, постоянной эластичности замены, которые строятся в предположении, что объем выпуска (производства) экономической системы в основном зависит от размеров используемых основных фондов и количества затраченного труда. Кроме того, производственная функция типа Кобба-Дугласа учитывает предположение о постоянной эластичности выпуска по каждому из факторов, а функция постоянной эластичности замены – свойство постоянства замещения изменения одного из этих факторов изменением другого.
На основании содержательного анализа однозначно состав независимых переменных модели определить практически невозможно. Могут существовать их альтернативные наборы. Например, для исследования закономерностей динамики производительности труда на заводе могут быть отобраны, исходя из содержательной целесообразности, следующие факторы: объем основных фондов, электровооруженность труда, фондовооруженность труда, численность рабочей силы, ее квалификация. При этом квалификация как явление может выражаться разными показателями, например, средним уровнем образования работников, их усредненным квалификационным разрядом и т.п. Кроме того, можно ожидать, что показатели электровооруженности, фондовооруженности труда, объема основных фондов характеризуют одно и то же явление – изменение материально-технической оснащенности производственного процесса. Таким образом, некоторые из рассматриваемых в таком исследовании показателей, выражающих количественные характеристики независимых переменных, относятся к сходным явлениям.
Факторы, выражающие одну и ту же причину, могут быть тесно взаимосвязаны между собой. Так, например, уровень розничного товарооборота в основном зависит от среднедушевого дохода; концентрация загрязняющих веществ – от объемов их выбросов; наблюдается взаимосвязь между обеспеченностью населения медицинским персоналом и койко-местами в лечебных учреждениях и т. д. Вследствие этого, одновременное включение таких факторов в модель вряд ли целесообразно, поскольку таким образом одна и та же причина будет учтена дважды.
В общем случае на этапе обоснования эконометрической модели исследователи могут столкнуться с проблемой выбора наиболее предпочтительного состава независимых факторов среди ряда альтернативных вариантов. Можно выделить два основных подхода к решению этой проблемы. Первый из них предполагает априорное (до построения модели) исследование характера и силы взаимосвязей между рассматриваемым переменными, по результатам которого в модель включаются факторы, наиболее значимые по своему “непосредственному” влиянию на зависимую переменную y. И, наоборот, из модели исключаются факторы, которые, либо малозначимы с точки зрения силы своего влияния на переменную у t , либо их сильное влияние на нее можно трактовать как индуцированное взаимосвязями с другими экзогенными переменными.
Второй подход к отбору независимых факторов можно назвать апостериорным. Он предполагает первоначально включить в модель все отобранные на этапе содержательного анализа факторы. Уточнение их состава в этом случае производится на основе анализа характеристик качества построенной модели, одной из групп которых являются и показатели, выражающие силу влияния каждого из факторов на зависимую переменную у t .
В основе “априорного” подхода лежат следующие предположения.
1. Сильное влияние фактора на зависимую переменную должно подтверждаться и определенными количественными характеристиками, важнейшей из которых является их парный линейный коэффициент корреляции, выборочное значение которого рассчитывается на основании имеющейся информации по формуле:
Логика использования коэффициента парной корреляции при отборе значимых факторов на практике состоит в следующем. Если значение |r(yx)i| достаточно велико, т. е. |r(yx)i| >ρ1 , где ρ1 – некоторый эмпирический рубеж (на практике он составляет примерно 0,5-0,6), то можно говорить о наличии существенной линейной связи между переменными у и х i или о достаточно сильном влиянии х i на у. Чем больше абсолютное значение r(yx)i, тем сильнее это влияние (положительное или отрицательное, в зависимости от знака r).
2. Если два и более факторов выражают одно и то же явление, то, как правило, между ними также должна существовать достаточно сильная взаимосвязь. На это может указать выборочное значение их парного коэффициента корреляции
На практике взаимосвязь между факторами признается существенной, если
В таких ситуациях один из этих факторов целесообразно исключить из модели, с тем, чтобы одна и та же причина не учитывалась дважды. Однако повторим, что такое исключение следует проводить только в тех случаях, когда факторы выражают одно и то же явление.
Значительно усложняет проблему отбора факторов явление ложной корреляции, которое характеризуется достаточно высокими по абсолютной величине значениями коэффициентов парной корреляции у процессов, с содержательной точки зрения между собой никак не связанных. Иными словами, большие значения парных коэффициентов корреляции могут иметь место и в тех случаях, когда тенденции рассматриваемых процессов совпали случайно, при отсутствии между ними логически обоснованной взаимосвязи. Примерами ложных корреляций являются совпадающие тенденции роста потребительских расходов в постоянных ценах и роста потребительских цен, роста выпуска продукции и потребления алкоголя и т. п. Среди основных причин включения в модель переменных с ложной корреляцией часто называют ненадежность информации, используемой при определении значений факторов в различные моменты времени, трудности формализации факторов, имеющих качественный характер, неустойчивость тенденций изменения рассматриваемых переменных, неправильную форму взаимосвязи между ними и т. п.
При этом можно предложить и некоторые общие рекомендации, которых целесообразно придерживаться при качественном анализе ошибок, связанных с “ложной корреляции”:
1. Число факторов, включаемых в модель, не должно быть слишком велико. Их увеличение может свести к минимуму ее практическую ценность, так как в этом случае модель начинает отражать не закономерность развития на фоне случайности, а саму случайность.
2. Простота модели в значительной степени является гарантией ее адекватности, поскольку более сложные зависимости часто априорно трудно уловимы на ограниченном временном интервале, но в то же время они допускают аппроксимацию достаточно простыми функциями. Иными словами, сложная модель может в большей степени выражать второстепенные взаимосвязи между переменными в ущерб основным.
При апостериорном подходе уточнение состава факторов эконометрической модели осуществляется на основе анализа значений ряда качественных характеристик уже построенного ее варианта. Одну из групп таких характеристик, являющихся наиболее важными при отборе факторов, образуют значения критерия Стьюдента, рассчитываемые для коэффициентов при каждом из факторов модели. С помощью этого критерия проверяется гипотеза о значимости влияния фактора на зависимую переменную у.
Окончательное решение о целесообразности оставления фактора или его удаления из модели принимается на основе анализа всего комплекса ее характеристик качества с учетом содержательной стороны проблемы взаимосвязей между зависимой и независимыми переменными. Вопросы их расчета и логика принятия такого решения будут изложены ниже при изучении конкретных эконометрических моделей.