По лабораторной работе «Кластерный анализ»
Титульный лист
НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЯДЕРНЫЙ УНИВЕРСИТЕТ «МИФИ»
Кафедра системного анализа
ОТЧЕТ
По лабораторной работе «Кластерный анализ»
Выполнил студент ___________________________________
Проверил_____________________________________________
Дата___________________
Лист с исходными данными
Исходные данные:
В качестве исходных данных использованы данные об автомобилях.
Прводится таблица с исходными данными с расшифровкой показателей (в случае небходимости)
Визуальная кластеризация
Лица Чернова
«Звездные диаграммы»
По результатам визуальной кластеризации лиц Чернова решено выделить три кластера:
· Грустные, длинноносые, вытянутые лица – это первый кластер.
· Без определенного настроения, с маленькими носами и менее вытянутые лица – это второй кластер.
· Радостные, длинноносые лица, с яйцеобразной головой и низко посаженными ушами – третий кластер.
Визуальный анализ «звездных диаграмм» проводится аналогичным образом, выделяя характерную форму звезд.
Кластеризация методом К-средних
Анализ проводился по всем переменным кроме make и model (обе переменные текстового типа, и на результат анализа не влияют)
Описание исходных данных
mpg | cylinders | displace | horsepower | accel | year | weight | origin | make | model | price | |
21,1 | 14,8 | Toyota | Celica GT | ||||||||
23,9 | 14,9 | Datsun | 200-SX | ||||||||
20,3 | 15,9 | Audi | |||||||||
13,6 | Volvo | 264GL | |||||||||
21,6 | 15,7 | Saab | 99GLE | ||||||||
16,2 | 15,8 | Peugeot | 604SL | ||||||||
16,5 | 13,2 | Mercury | GrandMarqs | ||||||||
18,2 | 15,2 | Dodge | St. Regis | ||||||||
16,9 | 14,9 | Buick | Estate SW | ||||||||
15,5 | 14,3 | Ford | Country SW | ||||||||
31,3 | 17,5 | Mazda | |||||||||
Datsun | 510 Hatch | ||||||||||
32,2 | 15,2 | Toyota | Corolla | ||||||||
46,6 | 17,9 | Mazda | GLC | ||||||||
40,8 | 19,2 | Datsun |
Расстояния между кластерами (квадраты расстояний над главной диагональю)
No. 1 | No. 2 | No. 3 | |
No. 1 | 0,000000 | 1,128490 | 1,585298 |
No. 2 | 1,062304 | 0,000000 | 3,321331 |
No. 3 | 1,259086 | 1,822452 | 0,000000 |
Средние значения по кластерам
Cluster | Cluster | Cluster | |
mpg | -0,32612 | 1,24951 | -0,82384 |
cylinders | -0,65166 | -0,79332 | 1,09554 |
displace | -0,53318 | -0,75268 | 0,98268 |
horsepower | -0,16242 | -1,10671 | 1,03054 |
accel | -0,13465 | 0,88929 | -0,65131 |
year | -1,05615 | 1,20703 | -0,30176 |
weight | -0,45788 | -0,91132 | 1,06469 |
origin | 0,34807 | 0,92819 | -1,00554 |
price | -0,61336 | -0,57717 | 0,88988 |
График средних значений переменных по каждому кластеру
Состав кластеров:
Первый кластер: 1, 2, 3, 5 объекты
Второй кластер: 11, 12, 13, 14, 15 объекты
Третий кластер: 4, 6, 7, 8, 9, 10 объекты
Построение дендрограммы
Анализ и классификация
Проверка качества разбиения по Т-критерию
S2 = 0,0163779
S0 = 0,1556549
T = 1 - (0,0163779/0,1556549) = 0,895
ЗАКЛЮЧЕНИЕ
В ходе выполнения ЛР проведено разбиение исходного множества автомобилей методами раздельного и иерархического кластерного анализа.
Можно считать, что разбиение прошло успешно, поскольку критерий Т оказался весьма близок к единице.
К первому кластеру (сегменту) относятся автомобили 1978 года выпуска, дешевые, со средними техническими характеристиками, европейского и японского производства. Возможно, это авто среднего класса
Во второй кластер (сегмент) входят японские автомобили, последнего (1980) года выпуска, их преимуществом является маленький вес, самый низкий расход топлива и хорошее ускорение. Вероятно, эти автомобили также можно отнести к автомобилям среднего класса.
Третий кластер (сегмент) составляют дорогие авто, с хорошими техническими показателями, но, и большим расходом топлива. Скорее всего, это автомобили «представительского» класса.