Логарифмическая модель
Построим логарифмическую модель без переменных guest и cruising_speed, так как они способствовали появлению мультиколлинеарности в модели, и это было обосновано в линейной модели.
Модель 5: МНК, использованы наблюдения 1-153
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 4,81344 | 0,726664 | 6,6240 | <0,00001 | *** |
l_length | 0,634772 | 0,388665 | 1,6332 | 0,10464 | |
l_beam | 1,63233 | 0,624219 | 2,6150 | 0,00989 | *** |
l_draft | -0,0504981 | 0,122795 | -0,4112 | 0,68152 | |
l_displacemen | 0,200203 | 0,146602 | 1,3656 | 0,17422 | |
l_max_speed | 0,55254 | 0,163258 | 3,3845 | 0,00092 | *** |
l_power | -0,0987403 | 0,0934228 | -1,0569 | 0,29234 | |
l_fuel | 0,576526 | 0,143556 | 4,0161 | 0,00010 | *** |
l_water | -0,251632 | 0,113808 | -2,2110 | 0,02863 | ** |
l_cabin | -0,0208788 | 0,120634 | -0,1731 | 0,86284 | |
region | -0,0837315 | 0,0672008 | -1,2460 | 0,21482 |
Среднее зав. перемен | 14,28327 | Ст. откл. зав. перемен | 0,763842 | |
Сумма кв. остатков | 17,50363 | Ст. ошибка модели | 0,351091 | |
R-квадрат | 0,802631 | Испр. R-квадрат | 0,788732 | |
F(10, 142) | 57,74660 | Р-значение (F) | 4,72e-45 | |
Лог. правдоподобие | -51,24334 | Крит. Акаике | 124,4867 | |
Крит. Шварца | 157,8215 | Крит. Хеннана-Куинна | 138,0278 |
В данной модели переменные l_beam, l_max_speed и l_fuel значимы на 1% уровне значимости, l_water значим на 5% уровне. В целом уравнение значимо на 1% и R2=0,802631.
Исключим незначимые переменные, но оставим переменную l_power и l_cabin ( причина объяснена в линейной модели), Такие переменные как l_legth, l_draft, l_displacement можно исключить, так как между размерами судов наблюдается сильная корреляционная зависимость.
Так как на данном этапе мы исключаем фиктивную переменную region ( 1-Европа, 0- Америка), то проинтерпретируем коэффициент при ней:
Цена яхты в Европе ниже цены яхты в Америке на 8.03 %. ( e-0,0837315) -1)*100%.
Модель 6: МНК, использованы наблюдения 1-153
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 4,50261 | 0,636568 | 7,0733 | <0,00001 | *** |
l_beam | 2,61185 | 0,48985 | 5,3319 | <0,00001 | *** |
l_max_speed | 0,554798 | 0,158727 | 3,4953 | 0,00063 | *** |
l_power | -0,0889051 | 0,0922248 | -0,9640 | 0,33664 | |
l_fuel | 0,715292 | 0,130239 | 5,4921 | <0,00001 | *** |
l_cabin | -0,0227344 | 0,117833 | -0,1929 | 0,84728 | |
l_water | -0,254149 | 0,113666 | -2,2359 | 0,02687 | ** |
Среднее зав. перемен | 14,28327 | Ст. откл. зав. перемен | 0,763842 | |
Сумма кв. остатков | 18,41225 | Ст. ошибка модели | 0,355122 | |
R-квадрат | 0,792386 | Испр. R-квадрат | 0,783854 | |
F(6, 146) | 92,87131 | Р-значение (F) | 2,53e-47 | |
Лог. правдоподобие | -55,11484 | Крит. Акаике | 124,2297 | |
Крит. Шварца | 145,4428 | Крит. Хеннана-Куинна | 132,8468 |
В данной модели коэффициенты при l_beam, l_max_speed, l_fuel , const значимы на 1% уровне значимости, при , l_water на 5%. Уравнение в целом значимо на 1% уровне, R2=0,792386.
Однако коэффициенты при l_power и l_cabin не являются значимыми. Но, так как, по нашим предположениям, они играют важную роль при формировании цены яхты, то проведем тест на линейной ограничение.
H0: b[l_cabin]=0
F(1, 146) = 0,0372249 , р-значение = 0,847276
Так как р-значение больше тестовой статистики, то Н0 отвергается, и это означает, что коэффициент при данной переменной не равен нулю.
H0: b[power]=0
F(1, 146) = 0,929303, р-значение = 0,336638
Так как р-значение меньше тестовой статистики, то Н0 принимается, и это означает, что коэффициент при данной переменной равен нулю.
Таким образом, нужно исключить l_power из модели.
Модель 7: МНК, использованы наблюдения 1-153
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 4,59755 | 0,628752 | 7,3122 | <0,00001 | *** |
l_beam | 2,5175 | 0,479856 | 5,2464 | <0,00001 | *** |
l_max_speed | 0,452243 | 0,11777 | 3,8400 | 0,00018 | *** |
l_fuel | 0,691972 | 0,127942 | 5,4085 | <0,00001 | *** |
l_cabin | -0,0515864 | 0,113941 | -0,4527 | 0,65140 | |
l_water | -0,256186 | 0,113619 | -2,2548 | 0,02563 | ** |
Среднее зав. перемен | 14,28327 | Ст. откл. зав. перемен | 0,763842 | |
Сумма кв. остатков | 18,52945 | Ст. ошибка модели | 0,355036 | |
R-квадрат | 0,791064 | Испр. R-квадрат | 0,783958 | |
F(5, 147) | 111,3132 | Р-значение (F) | 3,61e-48 | |
Лог. правдоподобие | -55,60023 | Крит. Акаике | 123,2005 | |
Крит. Шварца | 141,3831 | Крит. Хеннана-Куинна | 130,5865 |
В данной модели коэффициенты при l_beam, l_max_speed, l_fuel , const значимы на 1% уровне значимости, при , l_water на 5%. Уравнение в целом значимо на 1% уровне, R2=0,791064.
Данную модель также проверим на наличие гетероскедастичности. Проведем тест Уайта.
Н0: в модели нет гетероскедастичности
Тест Вайта (White) на гетероскедастичность
МНК, использованы наблюдения 1-153
Зависимая переменная: uhat^2
Коэффициент Ст. ошибка t-статистика P-значение
----------------------------------------------------------------
const 7,09404 6,37821 1,112 0,2681
l_beam -13,1299 7,80315 -1,683 0,0948 *
l_max_speed -1,67252 2,10988 -0,7927 0,4294
l_fuel 1,64935 2,12831 0,7750 0,4398
l_cabin 0,756417 1,49560 0,5058 0,6139
l_water -0,157891 1,93383 -0,08165 0,9351
sq_l_beam 4,52949 2,90885 1,557 0,1218
X2_X3 2,21599 1,56585 1,415 0,1594
X2_X4 -1,50959 1,65491 -0,9122 0,3633
X2_X5 -1,19951 1,24191 -0,9659 0,3359
X2_X6 0,653917 1,13130 0,5780 0,5642
sq_l_max_spee 0,0425538 0,257734 0,1651 0,8691
X3_X4 -0,390976 0,438914 -0,8908 0,3747
X3_X5 -0,258997 0,280929 -0,9219 0,3582
X3_X6 0,172519 0,407442 0,4234 0,6727
sq_l_fuel 0,185598 0,222722 0,8333 0,4062
X4_X5 0,379067 0,319207 1,188 0,2372
X4_X6 -0,191417 0,268517 -0,7129 0,4772
sq_l_cabin 0,384456 0,218509 1,759 0,0808 *
X5_X6 -0,251668 0,246313 -1,022 0,3088
sq_l_water 0,0240513 0,187312 0,1284 0,8980
Неисправленный R-квадрат = 0,160589
Тестовая статистика: TR^2 = 24,570042,
р-значение = P(Хи-квадрат(20) > 24,570042) = 0,218378
Так как расчетная статистика меньше табличной, то нулевая гипотеза принимается и в модели нет гетероскедастичности.
Таким образом, достоинством полученной модели является то что, оценки несмещенные и состоятельные, и являются наилучшими среди линейных не смещенных оценок. ( по теореме Гаусса- Маркова).
Полученная модель отображает логарифмическую зависимость цены яхты от ширины, максимальной скорости, запаса топлива, запаса воды, числа кают. В процессе улучшения модели фиктивная переменная region была исключена из модели, но была проинтерпретирована ранее.
ln( price) = 4,59755+2,5175*ln(beam)+ 0,452243* ln(max_speed) + 0,691972* ln(fuel) -0,0515864*ln (cabin) -0,256186*ln (water)
Проинтерпретируем коэффициенты при переменных в данной модели:
ü При увеличении ширины судна на 1 %, цена яхты увеличится на 2.52%;
ü При увеличении максимальной скорости на 1 %, цена яхты увеличится на 0.45 % ;
ü При увеличении запаса топлива на 1 %, цена яхты увеличится практически на 0.69%;
ü При увеличении количества кают на 1% , цена яхты уменьшится на 0.05%;
ü При увеличении запаса воды на 1%, цены яхты уменьшится практически на 0,26%.