Мультиколлинеарность и методы ее устранения
Одним из важнейших этапов построения регрессии является отбор факторов , j=1,..., k, i=1,2,…,n, включаемых в регрессию (3.1). Наибольшее распространение получили следующие методы построения уравнения множественной регрессии: метод исключения, метод включения, шаговый регрессионный анализ. Перечисленные методы дают близкие результаты: отсев факторов из полного их набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый метод).
Наиболее широко используются для решения вопроса об отборе факторов частные коэффициенты корреляции, оценивающие в чистом виде тесноту связи между фактором и результатом.
При включении факторов следует придерживаться правила, согласно которому число включаемых в модель объясняющих переменных должно быть в 5-6 раз меньше объема совокупности, по которой строится регрессия. Иначе число степеней свободы остаточной вариации будет мало, и параметры уравнения регрессии окажутся статистически незначимы.
Иногда при отборе переменных-факторов нарушается предположение (3.5). В этом случае говорят, что объясняющие переменные , j=1,..., k, i=1,2,…,n модели характеризуются свойством полной (строгой) мультиколлинеарности. В этом случае система (3.6) не может быть разрешена относительно неизвестных оценок коэффициентов. Строгая мультиколлинеарность встречается редко, так как ее несложно избежать на предварительной стадии отбора объясняющих переменных.
Реальная (частичная) мультиколлинеарность возникает в случаях достаточно сильных линейных статистических связей между переменными , j=1,..., k, i=1,2,…,n. Точных количественных критериев для проверки наличия мультиколлинеарности не существует, но имеются некоторые практические рекомендации по выявлению мультиколлинеарности.
1. Если среди парных коэффициентов корреляции между объясняющими переменными имеются значения 0,75-0,80 и выше, это свидетельствует о присутствии мультиколлинеарности.
Пример. В примере 2 между переменными K и L коэффициент корреляции равен 0,96, а между lnK и lnL чуть меньше 0,89. Ñ
2. О присутствии явления мультиколлинеарности сигнализируют некоторые внешние признаки построенной модели, являющиеся его следствиями:
- некоторые из оценок , j=1,2,…,k имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине значения,
- небольшое изменение исходной выборки (добавление или изъятие малой порции данных) приводит к существенному изменению оценок коэффициентов модели вплоть до изменения их знаков,
- большинство оценок коэффициентов регрессии оказываются статистически незначимо отличающимися от нуля, в то время как в действительности многие из них имеют отличные от нуля значения, а модель в целом является значимой при проверке с помощью F-критерия.
Методы устранения мультиколлинеарности.
1. Проще всего удалить из модели один или несколько факторов.
2. Другой путь состоит в преобразовании факторов, при котором уменьшается корреляция между ними. Например, при построении регрессий на основе временных рядов помогает переход от первоначальных данных к первым разностям D=Yt-Yt-1. В примере 2 переход от переменных K и L к их логарифмам уменьшил коэффициент корреляции с 0,96 до 0,89.
3. Использование в уравнении регрессии взаимодействия факторов, например, в виде их произведения.
4. Использование так называемой ридж-регрессии (гребневой регрессии). В этом случае к диагональным элементам системы (3.6) добавляется "гребень" t (небольшое число, как правило, от 0,1 до 0,4):
Это делает получаемые оценки смещенными, но уменьшает средние квадраты ошибок коэффициентов.
5. Использование метода главных компонент[5].
6. Отбор наиболее существенных объясняющих переменных на основе методов исключения, включения, шаговой регрессии, которые используют для принятия решения F-критерий.