Построение эконометрических моделей и поиск модели, описывающей ценообразование на рынке яхт наилучшим образом
Линейная модель.
Построим линейную модель, включающую все переменные.
Модель 1: МНК, использованы наблюдения 1-153
Зависимая переменная: price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | -5,02835e+06 | 1,07755e+06 | -4,6665 | <0,00001 | *** |
length | 44683,9 | 3,8972 | 0,00015 | *** | |
beam | 1,7813 | 0,07703 | * | ||
draft | 2,3343 | 0,02100 | ** | ||
displacement | -11498,6 | -1,5130 | 0,13254 | ||
max_speed | -1322,43 | 48204,4 | -0,0274 | 0,97815 | |
cruising_speed | 36094,7 | 53087,2 | 0,6799 | 0,49768 | |
power | -184,244 | 117,736 | -1,5649 | 0,11986 | |
fuel | 216,728 | 46,9857 | 4,6126 | <0,00001 | *** |
water | -246,793 | 184,203 | -1,3398 | 0,18249 | |
cabin | -168766 | -0,7287 | 0,46738 | ||
guest | 13858,2 | 0,1225 | 0,90268 | ||
region | -195736 | -1,1731 | 0,24276 |
Среднее зав. перемен | Ст. откл. зав. перемен | |||
Сумма кв. остатков | 1,05e+14 | Ст. ошибка модели | 866624,0 | |
R-квадрат | 0,768623 | Испр. R-квадрат | 0,748790 | |
F(12, 140) | 38,75599 | Р-значение (F) | 1,50e-38 | |
Лог. правдоподобие | -2302,176 | Крит. Акаике | 4630,352 | |
Крит. Шварца | 4669,747 | Крит. Хеннана-Куинна | 4646,355 |
В этой модели переменные length, const и fuel значимы на 1% уровне, draft на 5 % уровне и beam на 10% уровне. Все остальные переменные оказались незначимыми. В целом уравнение значимо на 1% уровне и R2 = 0.76823.
Данные результаты (небольшое количество значимых переменных при значимом уравнении в целом) свидетельствуют о наличии мультиколлинеарности в модели. Проведенный тест на мультиколлинеарность подтверждает мои предположения. Таким образом, сделанные мной выводы о необходимом исключении переменных (guest, cruising_speed) оказались правильными.
Построим линейную модель без переменных guest и cruising_speed.
Модель 2: МНК, использованы наблюдения 1-153
Зависимая переменная: price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | -5,14094e+06 | 1,05869e+06 | -4,8560 | <0,00001 | *** |
length | 44021,4 | 3,9240 | 0,00014 | *** | |
beam | 1,9000 | 0,05946 | * | ||
draft | 2,4176 | 0,01689 | ** | ||
displacement | -12380,4 | 7438,33 | -1,6644 | 0,09824 | * |
max_speed | 29808,7 | 15009,5 | 1,9860 | 0,04896 | ** |
power | -180,854 | 116,982 | -1,5460 | 0,12433 | |
fuel | 222,842 | 45,8429 | 4,8610 | <0,00001 | *** |
water | -261,857 | 178,225 | -1,4692 | 0,14398 | |
cabin | -147276 | 89416,9 | -1,6471 | 0,10175 | |
region | -175152 | -1,0741 | 0,28461 |
Среднее зав. перемен | Ст. откл. зав. перемен | |||
Сумма кв. остатков | 1,05e+14 | Ст. ошибка модели | 861919,9 | |
R-квадрат | 0,767858 | Испр. R-квадрат | 0,751510 | |
F(10, 142) | 46,96944 | Р-значение (F) | 4,00e-40 | |
Лог. правдоподобие | -2302,428 | Крит. Акаике | 4626,857 | |
Крит. Шварца | 4660,191 | Крит. Хеннана-Куинна | 4640,398 |
В данной модели length, fuel, const значимы на 1% уровне, draft, max_speed на 5% уровне, beam, displacement на 10% уровне. Уравнение в целом также значимо на 1% и R2= 0,767858.
Так как следующим шагом будет исключение незначимых переменных из модели, а фиктивная переменная не является значимой, то проинтерпретируем коэффициент при фиктивной переменной region.
Коэффициент при переменной region означает, что цена яхты в Америке на 175152 евро выше, чем цена яхты в Европе.
Таким образом, количество значимых переменных в модели увеличилось, но все равно не все переменные стали значимыми.
Мною принято решение убрать незначимые переменные, при этом оставив такие переменные как power и cabin, так как, на мой взгляд, мощность является неотъемлемой характеристикой любого транспортного средства, а количество кают отображает возможное число гостей хозяина яхты. Построим данную модель.
Модель 3: МНК, использованы наблюдения 1-153
Зависимая переменная: price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | -5,40916e+06 | 1,05111e+06 | -5,1461 | <0,00001 | *** |
length | 43971,7 | 3,7491 | 0,00026 | *** | |
beam | 2,0736 | 0,03990 | ** | ||
draft | 2,5966 | 0,01039 | ** | ||
displacement | -14319 | 7300,86 | -1,9613 | 0,05178 | * |
max_speed | 14436,6 | 2,1272 | 0,03511 | ** | |
power | -202,767 | 116,92 | -1,7342 | 0,08502 | * |
fuel | 198,118 | 39,7408 | 4,9853 | <0,00001 | *** |
cabin | -171202 | -1,9281 | 0,05581 | * |
Среднее зав. перемен | Ст. откл. зав. перемен | |||
Сумма кв. остатков | 1,08e+14 | Ст. ошибка модели | 866147,8 | |
R-квадрат | 0,762273 | Испр. R-квадрат | 0,749066 | |
F(8, 144) | 57,71717 | Р-значение (F) | 3,62e-41 | |
Лог. правдоподобие | -2304,247 | Крит. Акаике | 4626,494 | |
Крит. Шварца | 4653,768 | Крит. Хеннана-Куинна | 4637,573 |
В данной модели length, fuel, const значимы на 1% уровне, draft, beam, max_speed на 5% уровне. Переменные displacement, power и cabin незначимы на 5% уровне значимости, но значимы на 10% уровне. Уравнение в целом значимо на 1% уровне и R2 =0,762273.
Для построения данной модели мы пользовались методом наименьших квадратов, но для данного метода одним из необходимых условий является отсутствие гетероскедастичности. Если в модели есть гетероскедастичность, то МНК-оценки коэффициентов становятся неэффективными и стандартные ошибки коэффициентов смещены и несостоятельны => t-статистики вычисляются некорректно.
Для обнаружения гетероскедастичности проведем тест Уайта.
Н0: в модели нет гетероскедастичности.
Тест Вайта (White) на гетероскедастичность
МНК, использованы наблюдения 1-153
Зависимая переменная: uhat^2
Коэффициент Ст. ошибка t-статистика P-значение
-----------------------------------------------------------------------------
const 2,40754e+013 2,14208e+013 1,124 0,2635
length 2,19300e+011 9,64988e+011 0,2273 0,8207
beam -8,44924e+012 8,12380e+012 -1,040 0,3006
draft -7,86633e+012 5,33894e+012 -1,473 0,1436
displacement 2,48166e+011 2,38617e+011 1,040 0,3007
max_speed -5,59625e+011 4,64055e+011 -1,206 0,2305
power 1,06114e+010 5,11135e+09 2,076 0,0403 **
fuel -4,02562e+09 1,29093e+09 -3,118 0,0023 ***
cabin 4,13366e+012 2,80202e+012 1,475 0,1431
sq_length -7,85703e+010 3,60375e+010 -2,180 0,0314 **
X2_X3 4,25956e+011 2,46097e+011 1,731 0,0863 *
X2_X4 2,89243e+011 3,06779e+011 0,9428 0,3479
X2_X5 2,67882e+010 1,06476e+010 2,516 0,0133 **
X2_X6 -3,81329e+010 1,63833e+010 -2,328 0,0218 **
X2_X7 1,68880e+08 1,64651e+08 1,026 0,3073
X2_X8 -1,19766e+08 4,49588e+07 -2,664 0,0089 ***
X2_X9 1,62140e+011 1,00063e+011 1,620 0,1081
sq_beam 3,03925e+011 6,18554e+011 0,4913 0,6242
X3_X4 8,92396e+011 1,57036e+012 0,5683 0,5710
X3_X5 -1,27627e+011 6,14778e+010 -2,076 0,0403 **
X3_X6 1,69024e+011 1,08645e+011 1,556 0,1227
X3_X7 -1,87251e+09 1,22996e+09 -1,522 0,1308
X3_X8 9,83635e+08 3,04710e+08 3,228 0,0017 ***
X3_X9 -1,84479e+012 7,32947e+011 -2,517 0,0133 **
sq_draft 5,63266e+011 7,46269e+011 0,7548 0,4520
X4_X5 -1,28199e+011 4,13969e+010 -3,097 0,0025 ***
X4_X6 -2,36777e+09 5,88167e+010 -0,04026 0,9680
X4_X7 5,82182e+08 5,56418e+08 1,046 0,2978
X4_X8 4,51766e+08 2,48950e+08 1,815 0,0723 *
X4_X9 -5,88676e+011 5,57806e+011 -1,055 0,2936
sq_displaceme 1,10700e+09 6,05385e+08 1,829 0,0702 *
X5_X6 5,64435e+09 3,19677e+09 1,766 0,0803 *
X5_X7 -7,58590e+07 2,18796e+07 -3,467 0,0008 ***
X5_X8 -1,11236e+07 7,09398e+06 -1,568 0,1198
X5_X9 -3,57120e+09 1,48899e+010 -0,2398 0,8109
sq_max_speed 4,86841e+09 5,21236e+09 0,9340 0,3524
X6_X7 -1,95624e+08 6,67602e+07 -2,930 0,0041 ***
X6_X8 1,57180e+07 2,24268e+07 0,7009 0,4849
X6_X9 2,21308e+010 3,32422e+010 0,6657 0,5070
sq_power 1,34639e+06 358375 3,757 0,0003 ***
X7_X8 -76908,9 112223 -0,6853 0,4946
X7_X9 1,20886e+08 2,66676e+08 0,4533 0,6512
sq_fuel 17609,3 27382,6 0,6431 0,5215
X8_X9 1,49490e+08 8,21010e+07 1,821 0,0714 *
sq_cabin 3,29007e+011 1,45331e+011 2,264 0,0256 **
ВНИМАНИЕ: матрица данных близка к сингулярной!
Неисправленный R-квадрат = 0,705925
Тестовая статистика: TR^2 = 108,006569,
р-значение = P(Хи-квадрат(44) > 108,006569) = 0,000000
Так как тестовая статистика больше p-значения, то Н0 отвергается, то есть в модели есть гетероскедастичность.
Проведем коррекцию ошибок в формуле Уайта.
Предположим, что для суммы квадратов остатков верна следующая зависимость:
Оцениваем параметры модели. Получаем ряд .
Используем оценку дисперсии: .
В качестве весов возьмем переменную w1=1/ .
Модель 4: ВМНК, использованы наблюдения 1-153
Зависимая переменная: price
Весовая переменная: w1
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | -5,27394e+06 | 1,03276e+06 | -5,1066 | <0,00001 | *** |
length | 43299,1 | 3,7161 | 0,00029 | *** | |
beam | 2,0518 | 0,04200 | ** | ||
draft | 2,4677 | 0,01477 | ** | ||
max_speed | 30938,4 | 14201,7 | 2,1785 | 0,03100 | ** |
fuel | 199,891 | 39,5985 | 5,0480 | <0,00001 | *** |
cabin | -163860 | 87783,3 | -1,8666 | 0,06399 | * |
power | -201,515 | 117,014 | -1,7222 | 0,08719 | * |
displacement | -13377,3 | 7277,62 | -1,8381 | 0,06810 | * |
Статистика, полученная по взвешенным данным:
Сумма кв. остатков | 4,10e+12 | Ст. ошибка модели | 168696,4 | |
R-квадрат | 0,763332 | Испр. R-квадрат | 0,750184 | |
F(8, 144) | 58,05607 | Р-значение (F) | 2,64e-41 | |
Лог. правдоподобие | -2053,946 | Крит. Акаике | 4125,892 | |
Крит. Шварца | 4153,166 | Крит. Хеннана-Куинна | 4136,971 |
Статистика, полученная по исходным данным:
Среднее зав. перемен | Ст. откл. зав. перемен | |||
Сумма кв. остатков | 1,08e+14 | Ст. ошибка модели | 866310,2 |
В итоговой линейной модели отсутствует гетероскедастичность, все коэффициенты значимы на 10%, причем коэффициенты при const, length и fuel значимы на 1%, а при beam, draft, max_speed на 5%. В целом данное уравнении множественной регрессии значимо на 1% уровне. R2 = 0.763332 и R2 adj = 0.750184.
Полученная модель отображает линейную зависимость цены яхты от длины, ширины, осадки, водоизмещения судна, максимальной скорости, запаса топлива, числа кабин, а также мощности. В процессе улучшения модели фиктивная переменная region была исключена из модели, но была проинтерпретирована ранее.
Зависимость цены от ее характеристик выглядит следующим образом:
Price = -5,27394e+06 +160906*length + 517151 * beam + 505904*draft + 30938,4*max_speed + 199,891* fuel - 163860 * cabin + -201,515 * power -13377,3 displacement
Проинтерпретируем коэффициенты при переменных в данной модели:
ü При увеличении длины судна на 1 метр, цена яхты увеличится на 160906 евро;
ü При увеличении ширины судна на 1 метр, цена яхты увеличится на 517151 евро;
ü При увеличении осадки судна на 1 метр, цена яхты увеличится на 539224 евро;
ü При увеличении водоизмещения яхты на 1 тонну, цена яхты уменьшится на 13377,3 евро;
ü При увеличении максимальной скорости на 1 узел, цена яхты увеличится на 30938,4 евро;
ü При увеличении запаса топлива на 1 литр, цена яхты увеличится практически на 200 евро;
ü При увеличении количества кают на 1, цена яхты уменьшится на 163860 евро;
ü При увеличении мощности на 1 HP, цена яхты уменьшится на 201 евро.
Среди недостатков данной скорректированной модели следует выделить отсутствие наилучших оценок среди линейных несмещенных оценок.