Логарифмически – линейная модель
Построим логарифмически-линейную модель без переменных guest и cruising_speed, так как они способствуют появлению мультиколлинеарности в модели, и это было обосновано в линейной модели.
Модель 13: МНК, использованы наблюдения 1-153
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 9,89956 | 0,460668 | 21,4896 | <0,00001 | *** |
length | 0,054887 | 0,0191551 | 2,8654 | 0,00480 | *** |
beam | 0,497135 | 0,111996 | 4,4389 | 0,00002 | *** |
draft | 0,0399495 | 0,0909817 | 0,4391 | 0,66126 | |
displacement | -0,000552881 | 0,00323665 | -0,1708 | 0,86461 | |
max_speed | 0,0237727 | 0,00653109 | 3,6399 | 0,00038 | *** |
power | -8,85183e-05 | 5,09024e-05 | -1,7390 | 0,08421 | * |
fuel | 4,16582e-05 | 1,99477e-05 | 2,0884 | 0,03855 | ** |
water | -9,01121e-05 | 7,75512e-05 | -1,1620 | 0,24720 | |
cabin | -0,0178849 | 0,0389081 | -0,4597 | 0,64646 | |
region | -0,101861 | 0,0709582 | -1,4355 | 0,15334 |
Среднее зав. перемен | 14,28327 | Ст. откл. зав. перемен | 0,763842 | |
Сумма кв. остатков | 19,97390 | Ст. ошибка модели | 0,375048 | |
R-квадрат | 0,774777 | Испр. R-квадрат | 0,758916 | |
F(10, 142) | 48,84862 | Р-значение (F) | 4,83e-41 | |
Лог. правдоподобие | -61,34272 | Крит. Акаике | 144,6854 | |
Крит. Шварца | 178,0202 | Крит. Хеннана-Куинна | 158,2266 |
В данной модели коэффициенты при length, beam, max_speed значимы на 1% уровне, при fuel значим на 5%, а при power на 10%. В целом уравнение является значимым на 1% уровне значимости и R2= 0.77477.
В целях улучшения модели были решено исключить незначимые переменные, кроме переменной cabin по описанной выше причине.
Проинтерпретируем коэффициент при region (1-Европа, 0 – Америка):
Цена яхты в Европе на 9,68 % ниже, чем в Америке. (e^(-0,101861) – 1) *100%)
Модель 14: МНК, использованы наблюдения 1-153
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 9,91177 | 0,424348 | 23,3576 | <0,00001 | *** |
length | 0,0494995 | 0,0183571 | 2,6965 | 0,00783 | *** |
beam | 0,508304 | 0,108715 | 4,6755 | <0,00001 | *** |
max_speed | 0,0233093 | 0,00621179 | 3,7524 | 0,00025 | *** |
power | -0,000101 | 5,02943e-05 | -2,0082 | 0,04647 | ** |
fuel | 3,20045e-05 | 1,57517e-05 | 2,0318 | 0,04399 | ** |
cabin | -0,025506 | 0,037828 | -0,6743 | 0,50121 |
Среднее зав. перемен | 14,28327 | Ст. откл. зав. перемен | 0,763842 | |
Сумма кв. остатков | 20,53832 | Ст. ошибка модели | 0,375065 | |
R-квадрат | 0,768413 | Испр. R-квадрат | 0,758895 | |
F(6, 146) | 80,73863 | Р-значение (F) | 6,95e-44 | |
Лог. правдоподобие | -63,47446 | Крит. Акаике | 140,9489 | |
Крит. Шварца | 162,1620 | Крит. Хеннана-Куинна | 149,5660 |
В данной модели коэффициенты при length, beam, max_speed значимы на 1% уровне, при power, fuel значимы на 5%. В целом уравнение является значимым на 1% уровне и R2=0.768413.
Коэффициент при переменной cabin остался незначимым, поэтому проведем тест на линейной ограничение.
Н0: b[cabin] = 0
Тестовая статистика: F(1, 146) = 0,454629, р-значение = 0,501211
Так как р-значение больше тестовой статистики, то нулевая гипотеза отвергается, т.е. коэффициент при cabin не равняется нулю.
Проведем тест Уайта на гетероскедастичность, так как метод МНК можно применять лишь при отсутствии гетероскедастичности.
Н0: в модели нет гетероскедастичности
Тест Вайта (White) на гетероскедастичность
МНК, использованы наблюдения 1-153
Зависимая переменная: uhat^2
Коэффициент Ст. ошибка t-статистика P-значение
------------------------------------------------------------------
const 5,25618 2,29287 2,292 0,0236 **
length 0,252828 0,108242 2,336 0,0211 **
beam -2,33198 0,844865 -2,760 0,0066 ***
max_speed -0,108694 0,0481628 -2,257 0,0258 **
power -0,000364148 0,000567113 -0,6421 0,5220
fuel -0,000121774 0,000131085 -0,9290 0,3547
cabin 0,569793 0,292768 1,946 0,0539 *
sq_length -0,00157383 0,00360271 -0,4368 0,6630
X2_X3 -0,0122995 0,0277385 -0,4434 0,6582
X2_X4 -0,00474531 0,00197819 -2,399 0,0179 **
X2_X5 3,32815e-06 2,00784e-05 0,1658 0,8686
X2_X6 1,64236e-07 3,75896e-06 0,04369 0,9652
X2_X7 -0,00110004 0,0116695 -0,09427 0,9250
sq_beam 0,156129 0,0729010 2,142 0,0342 **
X3_X4 0,0340789 0,0132349 2,575 0,0112 **
X3_X5 0,000117342 0,000127126 0,9230 0,3578
X3_X6 8,28772e-06 2,57275e-05 0,3221 0,7479
X3_X7 -0,104807 0,0716279 -1,463 0,1459
sq_max_speed 0,000315194 0,000572516 0,5505 0,5829
X4_X5 -1,74606e-06 8,03123e-06 -0,2174 0,8282
X4_X6 2,37163e-06 2,41266e-06 0,9830 0,3275
X4_X7 -0,00504799 0,00390465 -1,293 0,1985
sq_power -2,86432e-08 4,21798e-08 -0,6791 0,4983
X5_X6 -2,30338e-08 1,23299e-08 -1,868 0,0641 *
X5_X7 2,59563e-06 2,93039e-05 0,08858 0,9296
sq_fuel 4,85108e-010 2,35884e-09 0,2057 0,8374
X6_X7 1,37964e-05 1,09033e-05 1,265 0,2081
sq_cabin 0,0185207 0,0176845 1,047 0,2970
R2= 0,362602
TR^2 = 55,478158,
Р-значение = P(р-значение (27) > 55,478158) = 0,000999
Таким образом, делаем вывод, что в модели есть гетероскедастичность.
Проведем коррекцию ошибок в формуле Уайта.
Предположим, что зависимость квадратных остатков описывается следующим образом:
Оцениваем параметры модели. Получаем ряд . В ряде есть отрицательные значения, поэтому в дальнейшем коррекция ошибок не возможна в формуле Уайта.
Полученная модель отображает зависимость цены яхты от длины, ширины, максимальной скорости, запаса топлива, числа кают, а также мощности. В процессе улучшения модели фиктивная переменная region была исключена из модели, но была проинтерпретирована ранее.
Проинтерпретируем коэффициенты полученной модели:
ü При увеличении длины яхты на 1м, цена увеличивается на 5,07%;
ü При увеличении ширины яхты на 1м, цена увеличивается на 66,25%;
ü При увеличении максимальной скорости на 1 узел, цена увеличивается на 2,35%;
ü При увеличении мощности на 1 НР, цена уменьшается на 1%;
ü При увеличении запаса топлива на 1 литр, цена увеличивается на 0,0032%;
ü При увеличении количества кабин на 1, цена уменьшается на 2,51%.
Сравнение моделей
Если зависимая переменная одна и та же, то для сравнения моделей можно использовать R2 и R2-adj .
Сравним линейную и линейно-логарифмическую.
Линейная модель: R2=0,0,76332, R2-adj=0,750184
Линейно-логарифмическая модель: R2=0,668510 R2-adj=0,661836
Итак, из этих моделей линейная модель является наилучшей, так как у нее наибольший R2-adj.
Сравним логарифмическую и логарифмически-линейную модели множественной регрессии.
Логарифмическая модель: R2=0,0.791064 R2-adj=0.783958
Логарифмически-линейная модель: R2=0.768413 R2-adj=0.758895
Итак, из этих моделей логарифмическая модель является наилучшей, так как у нее наибольший R2-adj. К тому же недостатком логарифмически-линейной модели является гетероскедастичность.
Сравним линейную и логарифмическую модель.
Так как зависимые переменные разные, то нельзя сравнивать R2 и R2-adj, будем использовать критерий Акаике и критерий Шварца.
Линейная модель: Критерий Акаике = 4125,92, критерий Шварца = 4153,166
Логарифмическая модель: Критерий Акаике = 123,2005, критерий Шварца = 141,3831
Логарифмическая модель является наилучшей, так как критерий Акаике и критерий Шварца в этой модели ниже, чем в линейной.
Таким образом, лучшей моделью является логарифмическая модель.
ln(price) = 4,59755+2,5175*ln(beam) + 0,452243*ln(max_speed) + 0,691972*ln(fuel) -0,0515864*ln (cabin) - 0,256186*ln (water)
В итоге, в лучшей модели (в моем случае - логарифмической) были оставлены логарифмы следующих переменных: ширина судна, максимальная скорость, запасы топлива и воды, число кают. Данные переменные отражают влияние на цену яхты всех видов характеристик, а именно размеров судна, мощностных и скоростных показателей, запасов судна, а также показателей размещения экипажа. Это дает возможность дать более глубокий анализ ценообразования на рынке моторных яхт. Необходимо отметить, что все переменные, за исключением запаса воды, положительно влияют на цену. Однако увеличение запаса воды ведет к снижению стоимости яхты. Это может быть связано с тем, что наиболее состоятельные покупатели, приобретающие соответственно более дорогие суда, меньше проводят времени на своих яхтах и поэтому не нуждаются в больших запасах пресной воды.
Необходимо также логически обосновать исключение остальных переменных из логарифмической модели (технически это уже было сделано ранее). При первом рассмотрении достаточно странным видится исключение переменной длины. Ведь чаще всего любое упоминание о характеристиках яхты начинается с приведения именно этого показателя. Здесь необходимо вспомнить, что ранее нами была выявлена сильная положительная связь между показателями длины и ширины, так что в целом, оба показателя могут быть успешно использованы при описания внешних габаритов судна. Конечно, длина для человека является более наглядной характеристикой, однако для компьютерной программы это не имеет значения. Поэтому здесь было решено довериться точным расчетам программы и выбрать ширину основной характеристикой габаритов судна. Исключение переменной "осадка" можно обосновать так же. Интереснее обстоит дело с переменной "водоизмещение". Её влияние на цену достаточно противоречиво, ибо судно с большим водоизмещением может оказаться как очень дорогой мегаяхтой, так и недорогой баржей схожих размеров. Ввиду данной нестабильности и неопределенности исключение данной переменной кажется нам достаточно логичным. Показатель "мощность" тоже весьма противоречивый, так как не всегда наиболее мощные яхты являются самыми престижными и дорогими. Обоснуем теперь исключение переменной "крейсерская скорость". И данный показатель, и переменная "максимальная скорость" примерно одинаково могут влиять на цену яхты, однако, максимальная скорость для многих покупателей зачастую является более "интересным" показателем, что делает его влияние на цену несколько более сильным и позволяет нам исключить дублирующую переменную "крейсерская скорость". Другая исключенная переменная, "число спальных мест" практически прямо зависит от числа кают, и поэтому здесь также было решено положиться на точные оценки программы, которая предложила оставить переменную "число кают"
Интерпретация полученных коэффициентов была приведена выше.
Для подтверждения правильности спецификации модели проведем тест Рамсея.
Н0: спецификация модели правильная
Тест Рамсея (RESET) (квадраты и кубы )
Расчетное значение: F = 1,552195,
Р – значение = P(F(2,145) > 1,5522) = 0,215
Тест Рамсея (RESET) ( только квадраты)
Расчетное значение : F = 3,032891,
Р – значение = P(F(1,146) > 3,03289) = 0,0837
Тест Рамсея (RESET) (только кубы)
Расчетное значение : F = 3,013034,
Р – значение = P(F(1,146) > 3,01303) = 0,0847
Так как для всех случаев р-значение > 0.05, то это означает, что спецификация модели верна на 5% уровне значимости.
Источники:
- Веб-сайты компаний-производителей яхт (например, Amels, Princess, Lürssen и др.)
- Веб-сайты, предоставляющие возможности расширенного поиска яхт (например, www. yachtworld.com и др.)
- Журналы, посвященные теме яхт (Yachts, Yachting, Yacht world и др.)