Логарифмически – линейная модель

Построим логарифмически-линейную модель без переменных guest и cruising_speed, так как они способствуют появлению мультиколлинеарности в модели, и это было обосновано в линейной модели.

Модель 13: МНК, использованы наблюдения 1-153

Зависимая переменная: l_price

Коэффициент Ст. ошибка t-статистика P-значение  
const 9,89956 0,460668 21,4896 <0,00001 ***
length 0,054887 0,0191551 2,8654 0,00480 ***
beam 0,497135 0,111996 4,4389 0,00002 ***
draft 0,0399495 0,0909817 0,4391 0,66126  
displacement -0,000552881 0,00323665 -0,1708 0,86461  
max_speed 0,0237727 0,00653109 3,6399 0,00038 ***
power -8,85183e-05 5,09024e-05 -1,7390 0,08421 *
fuel 4,16582e-05 1,99477e-05 2,0884 0,03855 **
water -9,01121e-05 7,75512e-05 -1,1620 0,24720  
cabin -0,0178849 0,0389081 -0,4597 0,64646  
region -0,101861 0,0709582 -1,4355 0,15334  
Среднее зав. перемен 14,28327   Ст. откл. зав. перемен 0,763842
Сумма кв. остатков 19,97390   Ст. ошибка модели 0,375048
R-квадрат 0,774777   Испр. R-квадрат 0,758916
F(10, 142) 48,84862   Р-значение (F) 4,83e-41
Лог. правдоподобие -61,34272   Крит. Акаике 144,6854
Крит. Шварца 178,0202   Крит. Хеннана-Куинна 158,2266

В данной модели коэффициенты при length, beam, max_speed значимы на 1% уровне, при fuel значим на 5%, а при power на 10%. В целом уравнение является значимым на 1% уровне значимости и R2= 0.77477.

В целях улучшения модели были решено исключить незначимые переменные, кроме переменной cabin по описанной выше причине.

Проинтерпретируем коэффициент при region (1-Европа, 0 – Америка):

Цена яхты в Европе на 9,68 % ниже, чем в Америке. (e^(-0,101861) – 1) *100%)

Модель 14: МНК, использованы наблюдения 1-153

Зависимая переменная: l_price

Коэффициент Ст. ошибка t-статистика P-значение  
const 9,91177 0,424348 23,3576 <0,00001 ***
length 0,0494995 0,0183571 2,6965 0,00783 ***
beam 0,508304 0,108715 4,6755 <0,00001 ***
max_speed 0,0233093 0,00621179 3,7524 0,00025 ***
power -0,000101 5,02943e-05 -2,0082 0,04647 **
fuel 3,20045e-05 1,57517e-05 2,0318 0,04399 **
cabin -0,025506 0,037828 -0,6743 0,50121  


Среднее зав. перемен 14,28327   Ст. откл. зав. перемен 0,763842
Сумма кв. остатков 20,53832   Ст. ошибка модели 0,375065
R-квадрат 0,768413   Испр. R-квадрат 0,758895
F(6, 146) 80,73863   Р-значение (F) 6,95e-44
Лог. правдоподобие -63,47446   Крит. Акаике 140,9489
Крит. Шварца 162,1620   Крит. Хеннана-Куинна 149,5660

В данной модели коэффициенты при length, beam, max_speed значимы на 1% уровне, при power, fuel значимы на 5%. В целом уравнение является значимым на 1% уровне и R2=0.768413.

Коэффициент при переменной cabin остался незначимым, поэтому проведем тест на линейной ограничение.

Н0: b[cabin] = 0

Тестовая статистика: F(1, 146) = 0,454629, р-значение = 0,501211

Так как р-значение больше тестовой статистики, то нулевая гипотеза отвергается, т.е. коэффициент при cabin не равняется нулю.

Проведем тест Уайта на гетероскедастичность, так как метод МНК можно применять лишь при отсутствии гетероскедастичности.

Н0: в модели нет гетероскедастичности

Тест Вайта (White) на гетероскедастичность

МНК, использованы наблюдения 1-153

Зависимая переменная: uhat^2

Коэффициент Ст. ошибка t-статистика P-значение

------------------------------------------------------------------

const 5,25618 2,29287 2,292 0,0236 **

length 0,252828 0,108242 2,336 0,0211 **

beam -2,33198 0,844865 -2,760 0,0066 ***

max_speed -0,108694 0,0481628 -2,257 0,0258 **

power -0,000364148 0,000567113 -0,6421 0,5220

fuel -0,000121774 0,000131085 -0,9290 0,3547

cabin 0,569793 0,292768 1,946 0,0539 *

sq_length -0,00157383 0,00360271 -0,4368 0,6630

X2_X3 -0,0122995 0,0277385 -0,4434 0,6582

X2_X4 -0,00474531 0,00197819 -2,399 0,0179 **

X2_X5 3,32815e-06 2,00784e-05 0,1658 0,8686

X2_X6 1,64236e-07 3,75896e-06 0,04369 0,9652

X2_X7 -0,00110004 0,0116695 -0,09427 0,9250

sq_beam 0,156129 0,0729010 2,142 0,0342 **

X3_X4 0,0340789 0,0132349 2,575 0,0112 **

X3_X5 0,000117342 0,000127126 0,9230 0,3578

X3_X6 8,28772e-06 2,57275e-05 0,3221 0,7479

X3_X7 -0,104807 0,0716279 -1,463 0,1459

sq_max_speed 0,000315194 0,000572516 0,5505 0,5829

X4_X5 -1,74606e-06 8,03123e-06 -0,2174 0,8282

X4_X6 2,37163e-06 2,41266e-06 0,9830 0,3275

X4_X7 -0,00504799 0,00390465 -1,293 0,1985

sq_power -2,86432e-08 4,21798e-08 -0,6791 0,4983

X5_X6 -2,30338e-08 1,23299e-08 -1,868 0,0641 *

X5_X7 2,59563e-06 2,93039e-05 0,08858 0,9296

sq_fuel 4,85108e-010 2,35884e-09 0,2057 0,8374

X6_X7 1,37964e-05 1,09033e-05 1,265 0,2081

sq_cabin 0,0185207 0,0176845 1,047 0,2970

R2= 0,362602

TR^2 = 55,478158,

Р-значение = P(р-значение (27) > 55,478158) = 0,000999

Таким образом, делаем вывод, что в модели есть гетероскедастичность.

Проведем коррекцию ошибок в формуле Уайта.

Предположим, что зависимость квадратных остатков описывается следующим образом:

Логарифмически – линейная модель - student2.ru

Оцениваем параметры модели. Получаем ряд Логарифмически – линейная модель - student2.ru . В ряде есть отрицательные значения, поэтому в дальнейшем коррекция ошибок не возможна в формуле Уайта.

Полученная модель отображает зависимость цены яхты от длины, ширины, максимальной скорости, запаса топлива, числа кают, а также мощности. В процессе улучшения модели фиктивная переменная region была исключена из модели, но была проинтерпретирована ранее.

Логарифмически – линейная модель - student2.ru Логарифмически – линейная модель - student2.ru

Проинтерпретируем коэффициенты полученной модели:

ü При увеличении длины яхты на 1м, цена увеличивается на 5,07%;

ü При увеличении ширины яхты на 1м, цена увеличивается на 66,25%;

ü При увеличении максимальной скорости на 1 узел, цена увеличивается на 2,35%;

ü При увеличении мощности на 1 НР, цена уменьшается на 1%;

ü При увеличении запаса топлива на 1 литр, цена увеличивается на 0,0032%;

ü При увеличении количества кабин на 1, цена уменьшается на 2,51%.

Сравнение моделей

Если зависимая переменная одна и та же, то для сравнения моделей можно использовать R2 и R2-adj .

Сравним линейную и линейно-логарифмическую.

Линейная модель: R2=0,0,76332, R2-adj=0,750184

Линейно-логарифмическая модель: R2=0,668510 R2-adj=0,661836

Итак, из этих моделей линейная модель является наилучшей, так как у нее наибольший R2-adj.

Сравним логарифмическую и логарифмически-линейную модели множественной регрессии.

Логарифмическая модель: R2=0,0.791064 R2-adj=0.783958

Логарифмически-линейная модель: R2=0.768413 R2-adj=0.758895

Итак, из этих моделей логарифмическая модель является наилучшей, так как у нее наибольший R2-adj. К тому же недостатком логарифмически-линейной модели является гетероскедастичность.

Сравним линейную и логарифмическую модель.

Так как зависимые переменные разные, то нельзя сравнивать R2 и R2-adj, будем использовать критерий Акаике и критерий Шварца.

Линейная модель: Критерий Акаике = 4125,92, критерий Шварца = 4153,166

Логарифмическая модель: Критерий Акаике = 123,2005, критерий Шварца = 141,3831

Логарифмическая модель является наилучшей, так как критерий Акаике и критерий Шварца в этой модели ниже, чем в линейной.

Таким образом, лучшей моделью является логарифмическая модель.

ln(price) = 4,59755+2,5175*ln(beam) + 0,452243*ln(max_speed) + 0,691972*ln(fuel) -0,0515864*ln (cabin) - 0,256186*ln (water)

В итоге, в лучшей модели (в моем случае - логарифмической) были оставлены логарифмы следующих переменных: ширина судна, максимальная скорость, запасы топлива и воды, число кают. Данные переменные отражают влияние на цену яхты всех видов характеристик, а именно размеров судна, мощностных и скоростных показателей, запасов судна, а также показателей размещения экипажа. Это дает возможность дать более глубокий анализ ценообразования на рынке моторных яхт. Необходимо отметить, что все переменные, за исключением запаса воды, положительно влияют на цену. Однако увеличение запаса воды ведет к снижению стоимости яхты. Это может быть связано с тем, что наиболее состоятельные покупатели, приобретающие соответственно более дорогие суда, меньше проводят времени на своих яхтах и поэтому не нуждаются в больших запасах пресной воды.

Необходимо также логически обосновать исключение остальных переменных из логарифмической модели (технически это уже было сделано ранее). При первом рассмотрении достаточно странным видится исключение переменной длины. Ведь чаще всего любое упоминание о характеристиках яхты начинается с приведения именно этого показателя. Здесь необходимо вспомнить, что ранее нами была выявлена сильная положительная связь между показателями длины и ширины, так что в целом, оба показателя могут быть успешно использованы при описания внешних габаритов судна. Конечно, длина для человека является более наглядной характеристикой, однако для компьютерной программы это не имеет значения. Поэтому здесь было решено довериться точным расчетам программы и выбрать ширину основной характеристикой габаритов судна. Исключение переменной "осадка" можно обосновать так же. Интереснее обстоит дело с переменной "водоизмещение". Её влияние на цену достаточно противоречиво, ибо судно с большим водоизмещением может оказаться как очень дорогой мегаяхтой, так и недорогой баржей схожих размеров. Ввиду данной нестабильности и неопределенности исключение данной переменной кажется нам достаточно логичным. Показатель "мощность" тоже весьма противоречивый, так как не всегда наиболее мощные яхты являются самыми престижными и дорогими. Обоснуем теперь исключение переменной "крейсерская скорость". И данный показатель, и переменная "максимальная скорость" примерно одинаково могут влиять на цену яхты, однако, максимальная скорость для многих покупателей зачастую является более "интересным" показателем, что делает его влияние на цену несколько более сильным и позволяет нам исключить дублирующую переменную "крейсерская скорость". Другая исключенная переменная, "число спальных мест" практически прямо зависит от числа кают, и поэтому здесь также было решено положиться на точные оценки программы, которая предложила оставить переменную "число кают"

Интерпретация полученных коэффициентов была приведена выше.

Для подтверждения правильности спецификации модели проведем тест Рамсея.

Н0: спецификация модели правильная

Тест Рамсея (RESET) (квадраты и кубы )

Расчетное значение: F = 1,552195,

Р – значение = P(F(2,145) > 1,5522) = 0,215

Тест Рамсея (RESET) ( только квадраты)

Расчетное значение : F = 3,032891,

Р – значение = P(F(1,146) > 3,03289) = 0,0837

Тест Рамсея (RESET) (только кубы)

Расчетное значение : F = 3,013034,

Р – значение = P(F(1,146) > 3,01303) = 0,0847

Так как для всех случаев р-значение > 0.05, то это означает, что спецификация модели верна на 5% уровне значимости.

Источники:

  • Веб-сайты компаний-производителей яхт (например, Amels, Princess, Lürssen и др.)
  • Веб-сайты, предоставляющие возможности расширенного поиска яхт (например, www. yachtworld.com и др.)
  • Журналы, посвященные теме яхт (Yachts, Yachting, Yacht world и др.)

Наши рекомендации