Иерархическая кластеризация
Лабораторная работа № 1
Тема: Кластерный анализ
Задание 1. Провести классификацию объектов иерархическим методом (древовидная кластеризация) динамики экспорта товаров и услуг в различные страны по 20-25 выбранным странам за 2008-2015 гг. Исходные данные находятся в файле Динамика экспорта_ Украина.doc. В качестве расстояния между объектами принять “обычное евклидово расстояние”, а расстояния между кластерами измерять по принципу: “ближайшего соседа”.
Варианты заданий:
№ варианта | Страны |
Страны ЕС (до 20) | |
Страны Азии (20-25) | |
Страны Африки (20-25) | |
Страны Северной и Южной Америки (до 25) | |
От Бельгии + следующих 20 стран из файла Динамика экспорта_ Украина.doc | |
От Гонконга + следующих 20 стран из файла Динамика экспорта_ Украина.doc | |
От Испании + следующих 20 стран из файла Динамика экспорта_ Украина.doc | |
От Колумбии + следующих 20 стран из файла Динамика экспорта_ Украина.doc | |
От Германия + следующих 20 стран из файла Динамика экспорта_ Украина.doc | |
От США + следующих 20 стран из файла Динамика экспорта_ Украина.doc |
Задание 2. Решить Задание 1, но в качестве расстояния между объектами принять “расстояние городских кварталов (Манхэттенское расстояние)”, а расстояния между кластерами измерять по методу Варда. Не нормируя предварительно исходные данные.
Задание 3. В качестве примера рассмотрим результаты опроса 17-ти сотрудников предприятия по удовлетворённости показателями качества служебной карьеры. В таблице даны ответы на вопросы анкеты по десятибалльной шкале (1 – минимальный балл, 10 – максимальный). Имена переменных соответствуют ответам на следующие вопросы: СЛЦ – сочетание личных целей и целей организации; ОСО – ощущение справедливости в оплате труда; ТБД – территориальная близость к дому; ОЭБ – ощущение экономического благосостояния; КР – карьерный рост; ЖСР – желание сменить работу; ОСБ – ощущение социального благополучия.
Результаты опроса сотрудников представлены в таблице.
Используя эти данные, необходимо разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.
Решение.
Рассмотрим основные этапы проведения кластерного анализа в системе STATISTICA на следующем примере. В файле Динамика экспорта_ Украина.doc содержатся данные по импорту в более чем 160 стран мира (импорт товаров за 2008–2015 г). Задача состоит в том, чтобы распределить объекты по однородным группам и установить качественные взаимосвязи между группами стран с близкими значениями показателей.
Предварительно нормируем исходные данные в целях устранения различий в единицах измерения показателей. Нажав на кнопку (Переменные) выполниться стандартизация данных . С помощью кнопки (Наблюдения), можно отобрать лишь часть наблюдений для стандартизации, по умолчанию выбираются все. Также по умолчанию все наблюдения вносят одинаковый вклад в вычисляемые средние значения и стандартные отклонения.
После процедуры нормирования данные выглядят следующим образом.
Для проведения кластеризации вызовем модуль (Кластерный анализ) в разделе Анализ (Многомерный анализ)
Появившееся диалоговое окно содержит следующие методы:
· Joining (tree clustering) – Иерархическая кластеризация
· K – means clustering - Кластеризация методом К– средних
· Two-way joining – Двувходовое объединение
Необходимо провести кластеризацию всеми методами.
Иерархическая кластеризация
Нажимаем на кнопку переменные выберем показатели для анализа с помощью мыши или же в белом нижнем окошке через тире наберем их номера с клавиатуры, если они идут подряд, иначе через пробел. Кнопка Select All (Выбрать все) отбирает весь список.
Пункт «Файл Данных» представляет собой раскрывающееся меню. Строка Distance matrix (Матрица расстояний) предусмотрена на тот случай, если входная информация представлена в виде мер сходства. В данной задаче выбираем тип – Raw data (Исходные данные).
В поле «Объекты» задается направление классификации. При кластеризации самих переменных помечаются Variables (Переменные [столбцы]), в данной задаче Cases [rows] (Наблюдения [строки]).
Строка «Правило объединения» содержит установки для выбора следующих мер сходства:
· Single Linkage (Метод одиночной связи “принцип ближайшего соседа”).
· Complete Linkage (Метод полной связи “принцип дальнего соседа”).
· Unweighted pair-group average (Невзвешенное попарное среднее).
· Weighted pair-group average (Взвешенное попарное среднее).
· Unweighted pair-group centroid (Невзвешенный центроидный метод).
· Weighted pair-group centroid (Взвешенный центроидный метод).
· Ward’s method (Метод Варда).
Для решения данной задачи выбираем метод Варда.
В окошке Distance measure (Мера расстояния) предлагаются различные виды расстояний:
· Squared Euclidean distances (квадрат Евклидова расстояния)
· Euclidean distances (Евклидово расстояние)
· City-block (Manhattan) distance (Расстояние городских кварталов (Манхэттенское расстояние))
· Chebychev distance metric (Расстояние Чебышева)
· Power: SUM(ABS(x-y)**p)**1/r (Степенное расстояние)
· Percent disagreement (Процент несогласия).
Выберем City-block (Manhattan) distance (Манхэттенское расстояние [расстояние городских кварталов]).
Перейдем к строке «Удаление ПД» (Пропущенные данные)
В системе STATISTICA в модуле Cluster Analysis (Кластерный анализ) предусмотрено два способа обработки некомплектных наблюдений, содержащих пропуски хотя бы одной переменной:
· Casewise deleted (Построчное удаление) - обработки некомплектные наблюдения полностью исключаются из дальнейшего анализа. Однако подобный метод приводит к смещенности и несостоятельности полученных статистических оценок, а также к искажению эмпирического распределения.
·Substituted by means (Замена средними значениями) – пропущенные данные заменяются средними значениями показателя, полученным по комплектным (полным) данным, что также имеет свои недостатки. В данном примере пропуски отсутствуют, поэтому выбор того или иного метода не актуален. После установки всех необходимых параметров для проведения кластеризации щелкнем на Ok и рассмотрим окно с результатами классификации.
Рассмотрим Vertical icicle plot (Вертикальную древовидную дендограмму).
На этой дендограмме горизонтальная ось представляет наблюдения, вертикальная – расстояние объединения. Таким образом, на первом шаге были объединены такие страны как Индия и Египет, как имеющие минимальное расстояние, а на последнем – все, уже объединенные в какие-либо кластеры. На основе анализа диаграммы посмотрим, на каком шаге кластеризации следует принять полученную классификацию как окончательную.
При числе кластеров равным двум K=2: в первый войдут: Индия, Египет, Эстония, Израиль, Дания, а во второй – Индонезия, Доминиканская республика, Эфиопия, Доминика, Экваториальная Гвинея, Йемен, Эквадор, Западная Сахара, Зимбабве, Эритрея, Джерси, Ирак, Гибралтар.
При К=3 первый кластер будет состоять из Индии и Египта, второй из Эстонии, Израиля и Дании а третий из всех остальных.
При К=4 первый кластер будет состоять из Индии и Египта, второй из Эстонии, третий из Израиля и Дании а четвертый из всех остальных.
При К=5 первый кластер будет состоять из Индии и Египта, второй из Эстонии, третий из Израиля и Дании, четвертый из Ирака и Гибралтара а пятый из всех остальных.
Предпочтительнее взять количество кластеров равное 4 или 5, так как при большем их числе теряется наглядность классификации.
Щелкнув по кнопке Amalgamation schedule (Схема объединения), можно выбрать таблицу результатов со схемой объединения. Первый столбец таблицы содержит расстояния для соответствующих кластеров.
Каждая строка показывает состав кластера на данном шаге классификации. Например, на первом шаге (1 строка) объединились Замбия и Зимбабве, на втором (2 строка) – Джерси и Эритрея, на третьем (3 строка) – Замбия, Зимбабве, Джерси и Эритрея на четвертом (4 строка) – к этим странам добавилась Западная Сахара и т.д.
Щелкнув по кнопке Graph of amalgamation schedule (График схемы объединения), просмотрим результаты древовидной кластеризации в графическом виде.
Просмотр матрицы расстояний осуществляется через кнопку Distance matrix (Матрица расстояний).
Строка Descriptive statistics (Описательные характеристики) открывает таблицу результатов со средними значениями и стандартными отклонениями для каждого объекта, включенного в кластерный анализ, т.е. для каждого наблюдения и переменной, в зависимости от установки, выбранной в списке Cluster (Кластер) стартовой панели.