Проверка наличия мультиколлинеарности
Проверим наличие мультиколлинеарности, проанализировав коэффициенты парной и частной корреляции.
Рис.5 – Описательная статистика.
Рис.6– Таблица значений парной корреляции.
На рис. 5 видно, что существует нежелательная зависимость от количества ремонтов и количества рейсов. Соответствующие значения парной корреляции составляют r12=0,835; r13=0,755. Коэффициент парной корреляции между факторами Количество ремонтов и Количество рейсов также существует зависимость и составляет r23=0,58. Чтобы избежать мультиколлинеарности, необходимо убрать из уравнения одну из взаимозависимых переменных.
Для того чтобы оценить интенсивность связи между зависимой переменной и одной из независимых при исключении влияния остальных факторов, исследуем коэффициенты частной корреляции.
Рис.7 - Коэффициенты частной корреляции.
На рис. 7 коэффициенты частной корреляции расположены во втором столбце (Partial Cor.). Наблюдается сильная зависимость от количества рейсов (r = 0,47) , а также зависимость от количество ремонтов(r = 0,48). Это значит, что факторы X2 и X3 целесообразно оставить.
Исключим Мультиколлинеарность, которая была обнаружена в таблице парной корреляции (Табл. 3). Исключим фактор X1, т.к. он имеет самый маленький коэффициент частной корреляции с Y.
Аналогично предыдущему построим и проанализируем новое уравнение регрессии.
Рис.8 – Результаты множественной регрессии.
Multiple Regression Results
Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986
R?= ,65005016 df = 2,9
No. of cases: 12 adjusted R?= ,57228353 p = ,008872
Standard error of estimate:235,65331927
Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168
Количество ре beta=,489 Количество ре beta=,418
Коэффициенты множественной корреляции (0,80626), множественной детерминации (0,6501) немного уменьшились, а наша ситуация немного улучшилась за счет того, что скорректированный коэффициент множественной детерминации (0,5723) немного увеличился. Т.к. в нашей задаче выборка экспериментальных данных мала (n=12), то скорректированному коэффициенту множественной детерминации можно доверять в большей мере, чем коэффициенту множественной детерминации.
Тогда уравнения множественной регрессии будет иметь вид:
Ŷ=343,99 +92,4*Х2+0,04*Х3
Ŷ’=0,48*Х’2+0,42 *Х’3
Рис.9 - Подробная информация о множественной регрессии.
Рис. 10 - Таблица парной корреляции.
Рис11. Таблица коэффициентов частной корреляции.
Но остается нежелательная сильная зависимость количества ремонтов от количество рейсов (рис. 10). Исключим стоимость и вновь повторим процедуру исследования (рис. 12).
Рис.12. Результаты множественной регрессии.
Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986
R?= ,65005016 df = 2,9
No. of cases: 12 adjusted R?= ,57228353 p = ,008872
Standard error of estimate:235,65331927
Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168
Количество ре beta=,418
Коэффициенты множественной корреляции (0,80626), множественной детерминации (0,65005) и скорректированный коэффициент множественной детерминации (0,5723) уменьшились. Т.е. наша ситуация ухудшилась при исключении Количества ремонтов.
Тогда наиболее приемлемым является второй вариант модели:
Ŷ=343,99 +92,4*Х2+0,04*Х3
Ŷ’=0,48*Х’2+0,42 *Х’3
Для того чтобы проверить правильность наших рассуждений проведем автоматический анализ множественной регрессии методом прямой пошаговой регрессии.
Рис.13. Результат автоматического анализа множественной регрессии.
Multiple Regression Results (Step 2)
Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986
R?= ,65005016 df = 2,9
No. of cases: 12 adjusted R?= ,57228353 p = ,008872
Standard error of estimate:235,65331927
Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168
Количество ре beta=,489 Количество ре beta=,418
Как видно эта модель совпадает с полученной нами ранее методом обратной пошаговой регрессии.
Анализ остатков.
Оценим степень адекватности модели исследуя остатки
Рис. 14. – Анализ остатков.
Dependent: 6-месячная Multiple R : ,80625688 F = 8,358986
R?: ,65005016 df = 2,9
No. of cases: 12 adjusted R?: ,57228353 p = ,008872
Standard error of estimate: 235,65331927
Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p < ,0168
Рис. 15. – Результат анализа остатков
В первом столбце этой таблицы на рис. 15 отображаются наблюдаемые значения переменной Стоимость (Observed Value), во втором – рассчитанные с помощью составленного уравнения множественной регрессии (Predicted Value), а в третьем столбце – вычисленные остатки (Residual).
Для проверки выполнения предпосылки о случайном характере остатков построим график зависимости остатков от теоретического значения ŷ.
Рис. 16 – График зависимости остатков от теоретического значения
На рис. 16 видно, что остатки разбросаны случайным образом внутри горизонтальной полосы, т.е. представляют собой случайные величины. Значит, метод наименьших квадратов оправдан, и теоретические значения ŷ хорошо аппроксимируют фактические значения y.
Для проверки выполнения предпосылки о нулевой средней величине остатков, не зависящей от x, построим графики зависимости остатков от экзогенных переменных, включенных в модель – «Количество ремонтов» и «Количество рейсов ».
Рис. 17 – Графики зависимости остатков от экзогенных факторов.
Из графиков на рис. 17 видно, что остатки (точки на плоскости) хаотично разбросаны относительно прямых регрессии остатков, в их поведении нет закономерностей. Нет оснований говорить, что остатки коррелированны с экзогенными факторами (т.е. предпосылка E(Û)=0 (выполняется).
Дисперсия остатков гомоскедастична, т.к. диапазон варьирования остатков не меняется с переходом от одного xi к другому. Значит, третья предпосылка также выполняется.
Для проверки наличия автокорреляции в остатках проведем тест Дарбина-Уотсона.
Рис. 18 – Результаты теста Дарбина-Уотсона.
Для числа наблюдений n=12, количества независимых переменных m=2 и уровня значимости α=0,05 находим значения dL=0,81 и dU=1,57.
0 dL=0,81 dU=1,57 2 4- dU=2,43 4- dL=3,19
Полож.коррел. Зона неопр. Отсутствие автокоррел. Зона неопр. Отр.коррел.
Расчетное значение d=1,038, следовательно, попадает в зону неопределенности. Значит, будем считать, что автокорреляция в остатках имеет место, следовательно, четвертая предпосылка не выполняется.
Для проверки выполнения пятой предпосылки рассмотрим график остатков на нормальной вероятностной бумаге.
Рис. 21 – График остатков на нормальной вероятностной бумаге.
На графике можно увидеть, что значения остатков лежат достаточно близко к прямой, поэтому предположение о нормальном распределении ошибок выполнено.
Вывод:в результате выполнения лабораторной работы были получены уравнения:
уравнение множественной регрессии в естественной форме:
Ŷ = 375,32-30,405*Х1+113,11*Х2+0,0414*Х3
стандартизированное уравнение:
Ŷ’= - 0,18*Х’1+0,59*Х’2+0,49 *Х’3
Стандартизированное уравнение не имеет размерности параметров, поэтому оно удобно для сравнения степени влияния соответствующих факторов на зависимую переменную.
Был рассчитан средний коэффициент эластичности:
|Э̄xy2|>|Э̄xy3|>|Э̄xy1|- в наибольшей степени на цену влияет "Количество ремонтов" (X2) и "Количество рейсов" (Х3).
Сделали вывод, что наиболее приемлемым является второй вариант модели:
Ŷ=343,99 +92,4*Х2+0,04*Х3
Ŷ’=0,48*Х’2+0,42 *Х’3
Так как коэффициенты множественной корреляции (0,80626), множественной детерминации (0,6501) немного уменьшились, скорректированный коэффициент множественной детерминации (0,5723) немного увеличился.
По анализу предпосылок
1.Случайный. характер остатков- выполняется;
2. Нулевая средняя величина остатков- выполняется;
3.Гомоскедастичность- выполняется;
4.Отсутствие автокорреляции -не выполняется;
5.Остатки подчиненному нормальному распределению- выполняется.