Устранение мультиколлениарности
Воспользуемся модулем Multiple Regression и проиллюстрируем ход выполнения метода пошагового исключения переменныхв пакете STATISTICA 6.0, для этого необходимо:
Шаг 1. В главном меню выбрать Statistics ® Multiple Regression.
Шаг 2. В стартовом окне Multiple Regression (Множественная регрессия) установить флажок в поле Advanced options (stepwise or ridge regression) (Расширенные опции (пошаговая и ридж-регрессии)), далее нажмем ОК.
Рисунок 4.1 – Окно установки расширенных опций
Шаг 3. В окне Model Definition (рисунок 4.2) можно выбрать метод пошагового построения регрессии, и метод построения ридж-регрессии. Причем метод пошаговой регрессии реализован в двух вариантах, как метод пошагового исключении (Backward stepwise) и как метод пошагового включения (Forward stepwise) переменных в модель. Выберем первый способ и нажмем ОК.
Рисунок 4.2 – Выбор метода построения регрессии в окне Model Definition
В результате проведения процедуры пошагового исключения получаем модель парной линейной регрессии, в качестве независимой переменной выступает X4:
Таблица 4.4 – Показатели адекватности регрессионной модели
Value | |
Multiple R | 0,792 |
Multiple R? | 0,628 |
Adjusted R? | 0,617 |
F(1,33) | 55,701 |
p | 0,000 |
Std.Err. of Estimate | 76,895 |
Согласно результатам, представленным в таблице 4.4, 62,8% вариации Y описывается включенным в уравнение фактором X4 (см. строку Multiple R?). При этом модель получена, статистически значима по F-критерию Фишера.
Согласно скорректированному коэффициенту детерминации полученную модель можно признать более удачной, так как значение этого показателя 0,628 больше чем значения этого же показателя (0,549) по модели со всеми независимыми переменными.
Таблица 4.5 – Результаты оценивания регрессионной модели
Beta | Std.Err. of Betta | B | Std.Err. of B | t(33) | p-level | |
Intercept | 54,518 | 19,769 | 2,758 | 0,009 | ||
X4 | 0,792 | 0,106 | 9,387 | 1,258 | 7,463 | 0,000 |
Также, необходим отметить, что параметры уравнения статистически значимы по t-критерию Стьюдента.
Рассмотрим один из подходов построения хороших оценок коэффициентов регрессии в условиях мультиколлениарности, а именно построение ридж-регрессии (или гребневая регрессия). Для реализации метода гребневой регрессии в окне установок расширенных опций (рисунок 4.2) установим флажок в поле Ridge regression; lambda: (Ридж-регрессия; лямбда:) при этом возьмем значение лямбда равное 0,1, получим следующие результаты.
Таблица 4.6 – Показатели адекватности модели ридж-регрессии
Value | |
Multiple R | 0,756 |
Multiple R? | 0,571 |
Adjusted R? | 0,558 |
F(1,33) | 43,901 |
p | 0,000 |
Std.Err. of Estimate | 82,584 |
Согласно скорректированному значению коэффициента детерминации модель полученная методом ридж-регрессии хуже нежели предыдущая модель.
Таблица 4.7 – Результаты оценивания модели ридж-регрессии
Beta | Std.Err. of Betta. | B | Std.Err. of B | t(33) | p-level | |
Intercept | 64,624 | 20,676 | 3,126 | 0,004 | ||
X4 | 0,720 | 0,109 | 8,534 | 1,288 | 6,626 | 0,000 |
В результате изучения имеющихся данных было выявлено, что в рассматриваемых данных присутствует мультиколлениарность. После применения соответствующих процедур было установлено, что наилучшей моделью является регрессионное уравнение с независимой переменной X4. Следующим этапом анализа является выявление наличия гетероскедостичности в оцененной модели.