Распределение цен на яхты
Цена большинства яхт из выборки не превышает 10000000 евро, поэтому из модели исключим те яхты, которые стоят больше данной суммы.
Регион
В исходной выборке большинство яхт находится в Европе и это обусловлено тем, что в Европе больше обеспеченных людей, которые могут покупать яхты.
В результате исключения из модели переменных число наблюдений сократилось до 153.
Предположения относительно влияния исследуемых показателей на цену и друг на друга:
1) Наличие положительной зависимости между всеми характеристиками яхты и её ценой;
2) Наличие положительной зависимости между всеми характеристиками размера судна (например, чем больше длина яхты, тем больше ее ширина и т.д.);
3) Наличие положительной зависимости между мощностью и скоростными характеристиками;
4) Наличие положительной зависимости между запасом топлива и запасом пресной воды;
5) Наличие сильной положительной зависимости между числом кают и числом спальных мест;
6) Наличие отрицательной зависимости между размерами судна и скоростью яхты;
7) Наличие положительной зависимостью между размещением экипажа и размерами судна.
Для подтверждения или опровержения сформулированных гипотез проанализируем соответствующие корреляционные матрицы.
1)
length | beam | draft | displacement | max_speed | cruising_speed | power | fuel | water | cabin | guest | price | region | |
price | 0,8 | 0,8 | 0,4 | 0,76 | -0,07 | -0,03 | 0,49 | 0,8 | 0,7 | 0,4 | 0,4 | 0,02 |
Таким образом, мое предположение о том, что цена положительно зависит от всех характеристик судна, подтвердилось для всех параметров кроме двух: максимальная и крейсерская скорость. Это может быть объяснено тем, что наиболее быстрые яхты – это спортивные яхты не слишком крупных размеров, отделка и комфортабельность которых ниже, чем у типичных яхт типа флайбридж, и поэтому цена находится в обратной зависимости от скорости.
2)
length | beam | draft | displacement | |
0,9232 | 0,4072 | 0,8905 | length | |
0,4153 | 0,8863 | beam | ||
0,4482 | draft | |||
displacement |
Гипотеза о положительной зависимости между основными характеристиками размера судна подтвердилась. Наиболее сильная связь наблюдается между шириной и длиной яхты.
3)
max_speed | cruising_speed | power | |
0,9628 | 0,2864 | max_speed | |
0,2966 | cruising_speed | ||
power |
Предположение о положительной зависимости между максимальной скоростью, крейсерской скоростью и мощностью яхты подтвердилось. Коэффициент корреляции max_speed-cruising_speed равен 0,9628, что свидетельствует о сильной связи между максимальной и крейсерской скоростями. Данная связь также свидетельствует о наличии мультиколлинеарности в модели, поэтому нужно будет исключить одну из переменных в процессе улучшения модели, характеризующей зависимость цены от разнообразных характеристик яхты.
4) corr(fuel, water) = 0,83827669
Данный коэффициент корреляции подтверждает наличие сильной прямой связи между запасом топлива и запасом пресной воды.
5) corr(cabin, guest) = 0,94752591
Коэффициент корреляции cabin-guest, равный 0,945175291, свидетельствует о положительной зависимости между данными характеристиками, причем данная зависимость близка к линейной. В данной выборке для большинства наблюдений guest=2*cabin. Таким образом, в дальнейшем придется исключить одну из переменных с целью преодоления мультиколлинеарности.
6)
max_speed | cruising_speed | power | |
-0,0636 | -0,0435 | 0,6555 | length |
-0,1457 | -0,1104 | 0,6204 | beam |
-0,1274 | -0,0885 | 0,2789 | draft |
-0,1505 | -0,1314 | 0,6051 | displacement |
0,9628 | 0,2864 | max_speed | |
0,2966 | cruising_speed | ||
power |
Предположение о том, что максимальная скорость и крейсерская скорость судна отрицательно зависят от размера судна, подтвердилась. Также из корреляционной матрицы видно, что чем больше яхта, тем больше ее мощность, так как увеличивается число двигателей.
7)
cabin | guest | |
0,5623 | 0,6052 | length |
0,5436 | 0,5755 | beam |
0,3708 | 0,3398 | draft |
0,5226 | 0,5534 | displacement |
0,9475 | cabin | |
guest |
Предположение о том, что чем больше судно, тем больше на яхте кают и число гостей, подтвердилось. Вместимость яхты находится в прямой зависимости от размера судна.
Таким образом, на основе коэффициентов корреляции с целью преодоления проблемы мультиколлинеарности на данном этапе можно исключить такие переменные как: guest(число спальных мест) и cruising_speed (крейсерская скорость).
Основные характеристики, по которым будет строиться модель: length (длина яхты), draft (осадка яхты), beam (ширина) , displacement (водоизмещение), power (мощность яхты), max_speed (максимальная скорость), fuel (запас топлива), water (запас пресной воды), cabin (число кают), region ( регион).