Рассчитайте матрицу парных коэффициентов корреляции и отберите информативные факторы в модели. Укажите коллинеарные факторы
Значения линейных коэффициентов парной корреляции определяют тесноту попарно связанных переменных, использованных в данном уравнении множественной регрессии.
Парные коэффициенты корреляции рассчитываются по формулам:
; .
Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
1) в главном меню последовательно выберите пункты Сервис / Анализ данных / Корреляция. Щелкните по кнопке ОК;
2) заполнит диалоговое окно ввода данных и параметров вывода (рисунок 1.3);
3) результаты вычислений – матрица коэффициентов парной корреляции – представлены на рисунке 1.4.
Рисунок 1.3 - Диалоговое окно ввода параметров инструмента Корреляция
Рисунок 1.4 – Матрица коэффициентов парной корреляции
Из матрицы можно заметить, что факторы и , и мультиколлинеарны, т.к. коэффициенты корреляции превышают 0,75. Таким образом, можно сказать, что они дублируют друг друга.
При отборе факторов в модель предпочтение отдается фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В нашем примере получаем, информативными факторами являются: и .
Построим новое уравнение множественной регрессии с информативными факторами.
Постройте модель в естественной форме только с информативными факторами и оцените ее параметры.
Построим уравнение множественной линейной регрессии следующего вида:
.
Параметры вычисляем аналогично пункту 1 (рисунок 1.5).
Рисунок 1.5 – Результат применения инструмента Регрессия
Получаем уравнение следующего вида: .
Выводы по коэффициентам регрессии делаются аналогично пункту 1.
Оцените с помощью F-критерия Фишера-Снедекора значимость уравнения линейной регрессии и показателя тесноты связи
Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F-критерий Фишера:
.
Для проверки значимости уравнения выдвигаем две гипотезы:
Н0: уравнение регрессии статистически не значимо;
Н1: уравнение регрессии статистически значимо.
По данным таблиц дисперсионного анализа, представленным на рисунке 1.5, =32,8. Вероятность случайно получить такое значение F-критерия составляет 0,0000, что не превышает допустимый уровень значимости 5 %; об этом свидетельствует величина P – значение из этой же таблицы. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .