Мультиколлинеарность факторов
Рассмотрим ситуацию, когда не выполняется требование второго условия, т.е. ранг матрицы меньше . Нарушение этого условия эквивалентно тому, что среди столбцов матрицы наблюдений есть хотя бы один такой, который является линейной комбинацией других. Следствием этого является невозможность применения МНК для получения оценок коэффициентов регрессии.
Различают абсолютную и частичную (реальную) мультиколлинеарность. Под абсолютной мультиколлинеарностью понимается ситуация, когда определитель матрицы системы нормальных уравнений равен нулю, и фактически отсутствует возможность получения однозначного решения этой системы. Частичная мультиколлинеарность предполагает, что определитель матрицы в точности не равен 0, но мало от него отличается. Обратная матрица в этом случае существует, однако ее элементы, как правило, искажены вычислительной процедурой, так как порядок малости определителя равен порядку накапливающихся ошибок вычислений.
О присутствии мультиколлинеарности можно понять по отдельным внешним признакам построенной модели. В первую очередь это касается случаев, когда некоторые оценки коэффициентов регрессии имеют неправильные с точки зрения экономической теории знаки или по абсолютной величине оказываются чрезмерно большими. Кроме того, большая часть оценок, или даже все, оказываются незначимыми в многофакторной модели в то время, как построение парных моделей свидетельствует об обратном – все факторы значимы. Иначе говоря, проявление эффектов мультиколлинеарности делает даже адекватную модель непригодной для практического использования.
Существует несколько подходов, позволяющих устранить эффекты мультиколлинеарности. Кратко остановимся на каждом из них.
Первый подход основан на исключении из модели одного из дублирующих друг друга факторов. Обычно это делается следующим образом. Рассчитывается матрица парных коэффициентов корреляции, и по ее элементам определяются тесно коррелирующие друг с другом факторы. Из каждой пары таких факторов удаляется тот, у которого теснота корреляционной связи с зависимой переменной ниже. Этот подход является эффективным в том смысле, что позволяет, как правило, устранить эффекты мультиколлинеарности. Однако исследователя не всегда может устроить такой подход, так как исключение из модели некоторых факторов не позволяет достичь поставленной цели – изучение взаимосвязи показателя именно с этим набором факторов.
Второй подход практически не упоминается в учебной литературе. В нем используется понятие псевдообратной матрицы. В некоторых ситуациях, когда определитель равен нулю, применение процедуры псевдообращения позволяет получить оценки коэффициентов регрессии, которые, несмотря на вырожденность матрицы системы нормальных уравнений, являются единственным решением этой системы. Единственность решения обеспечивается тем, что процедура псевдообращения приводит к решению с минимальной нормой, т.е. среди всех решений вырожденной системы нормальных уравнений выбирается то, которое обладает наименьшей суммой квадратов. Это интересный подход, но пока малоизученный.
В третьем подходе используются главные компоненты. Возможность использования главных компонент для целей устранения эффектов мультиколлинеарности объясняется следующим образом. Поскольку мультиколлинеарность связана с высокой степенью корреляции между факторными переменными, то возникает естественное желание заменить исходные факторы ортогональными переменными, которые представляют собой линейные комбинации исходных. В качестве коэффициентов в этих линейных комбинациях выступают компоненты собственных векторов ковариационной матрицы исходных переменных. Собственные вектора ортогональны, и поэтому построение регрессионной модели упрощается.
При использовании главных компонентов возможны два случая. Первый связан с абсолютной мультиколлинеарность, а второй – с частичной. В случае абсолютной мультиколлинеарности, по крайней мере, одно собственное значение равно нулю, и автоматически число главных компонентов меньше числа исходных переменных. Регрессия строится на главные компоненты, а затем обратным преобразованием возвращаются к исходным переменным.
В случае частичной мультиколлинеарности число главных компонент совпадает с числом исходных переменных. Если после построения регрессии на все главные компоненты обратным преобразованием вернуться к исходным наблюдениям, то все нежелательные эффекты мультиколлинеарности сохранятся. Поэтому смысл этого приема в том, что регрессия строится не на все главные компоненты, а только некоторую их часть, характеризующую основную долю вариации исходных данных. Тогда возврат к исходным переменным вполне может привести к получению модели свободной от искажений, порождаемых мультиколлинеарностью.
Четвертый подход реализует идею получения смещенных оценок, обладающих по сравнению с оценками МНК меньшей среднеквадратической ошибкой. Чаще всего получения таких оценок используется процедура ридж-оценивания или процедура построения так называемой гребневой регрессии. В основе этой процедуры лежит идея нахождения однопараметрического семейства оценок с помощью подправленной формулы МНК
, (3.45)
где (как правило, ; ).
Добавление к диагональным элементам матрицы системы нормальных уравнений единичной матрицы, умноженной на параметр , делает получаемые с помощью этой формулы оценки коэффициентов регрессии, с одной стороны, смещенными, а с другой – стандартные ошибки этих оценок уменьшаются, так как «плохо» обусловленная матрица превращается в «хорошо» обусловленную. Реализация этого метода легко осуществима, а получаемые оценки при соответствующем подборе параметра обладают требуемой надежностью.