Стратегии кластеризации
Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояние между кластерами определяется по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга.
Аггломеративные стратегии позволяют строить дендрограмму классификации в ходе иерархического процесса объединения кластеров:
- стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных и рекомендуется для получения минимального дерева взамен групповой классификации;
- стратегия дальнего соседа сильно растягивает пространство;
- стратегия группового соседа сохраняет метрику пространства;
- гибкая стратеги универсальна и зависит от значения коэффициента бета, ввод которого запрашивается при выборе этой стратегии (бета должно быть меньше 1): при бета=0 метрика не меняется, при бета>0 пространство сжимается, а при бета<0 - растягивается;
- метод Уорда минимизирует внутрикластерный разброс объектов и дендрограмма получается с глубоко, "гипертрофированно" разделенными кластерами.
- Дивизивная стратегия динамических сгущений позволяет сгруппировать объекты в заданное число кластеров.
Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.
На первом шаге алгоритма каждое наблюдение zi (i = 1,2,…, n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединением двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.
Пример
Провести классификацию пяти предприятий, каждое из которых характеризуется следующими экономическими показателями: x1 - прибыль от реализации x2 - удельный вес продукции высшей категории качества x3 - выработка товарной продукции на одного работника ППП, x4 – среднегодовая стоимость основных производственных фондов.
Таблица 5.5.1. Значение основных экономических показателей.
Номер предприятия | x1 | x2 | x3 | x4 |
3,338 1,909 6,653 2,105 6,178 | 78,46 50,83 26,12 72,11 13,70 | 5,013 3,423 3,314 2,534 1,863 | 7,312 17,785 21,544 8,125 1,780 |
Решение: Для устранения различия в единицах измерения показателей нормируем их. В результате расчетов по программе получаем матрицу нормированных исходных данных
;
А также среди значений показателей x1, x2, x3, x4 и их средние квадратические отклонения:
x1 = 4,0366 s1 = 2.0088277
x2 = 48,2444 s2 = 25.187455
x3 = 3,2294 s3 = 1.0560776
x4 = 11,3092 s4 = 7.2609854
В качестве расстояния между объектами возьмем взвешенное евклидово расстояние, причем «веса» wl зададим пропорционально степени важности экономического показателя: w1 = 0.4; w2 = 0.3; w3 = 0.2; w4 = 0.1. Получаем матрицу расстояний между всеми пятью предприятиями:
;
Из матрицы следует, что объекты 2 и 4 наиболее близки и поэтому объединяются в один кластер. После объединения имеем 4 кластера.
Номер кластера 1 2 3 4
__________________
Состав кластера (1) (2,4) (3) (5)
Расстояние между кластерами будем находить по принципу «ближайшего соседа». За расстояние между кластерами S1 и S(2,4) берем минимальное из расстояний и . Аналогично находим расстояния между S3, S5 и S(2,4) , которые соответственно равны: и Расстояние между остальными кластерами остается без изменения. Таким образом, получаем матрицу расстояний
;
Из матрицы следует, что кластеры S3 S5 наиболее близки и поэтому объединяются в новй кластер S(3,5). После объединения будем иметь три кластера S1, S(2,4) и S(3,5) . Расстояние между новым кластером S(3,5) и кластерами S1, S(2,4) соответственно равны: меньше и . Матрица расстояний имеет следующий вид:
;
Из этой матрицы следует, что кластеры S1и S(2,4) объединяются в новый кластер S(1,2,4), так как расстояние между ними минимально . Тогда получим матрицу расстояний
.
Таким образом, на расстояние два кластера и объединяются в один.
Задание. Проведите кластерный анализ.
№ набл | № выборки | № набл | № выборки | № набл | № выборки | |||||||||||
10,9 | 25,9 | 81,0 | 50,3 | 10,1 | 24,8 | 89,7 | 43,5 | 10,5 | 24,9 | 92,0 | 47,7 | |||||
11,1 | 23,5 | 84,5 | 46,5 | 11,0 | 26,1 | 87,9 | 44,7 | 10,6 | 24,9 | 91,1 | 47,2 | |||||
10,4 | 21,3 | 85,7 | 42,5 | 10,4 | 25,8 | 81,1 | 44,8 | 10,2 | 23,4 | 85,2 | 48,7 | |||||
10,8 | 26,9 | 80,9 | 45,8 | 10,1 | 24,7 | 82,6 | 51,2 | 10,1 | 21,5 | 91,4 | 47,9 | |||||
10,46 | 23,00 | 82,71 | 42,81 | 10,62 | 25,45 | 89,66 | 48,14 | 11,02 | 26,15 | 81,52 | 45,28 | |||||
Вар 1 | Вар 2 | Вар 3 | ||||||||||||||
№ набл | № выборки | № набл | № выборки | № набл | № выборки | |||||||||||
11,1 | 26,1 | 91,9 | 41,0 | 10,8 | 21,7 | 81,7 | 40,3 | 10,3 | 24,1 | 83,2 | 48,1 | |||||
10,4 | 21,5 | 85,7 | 42,4 | 10,0 | 20,2 | 85,9 | 40,7 | 11,1 | 21,0 | 89,8 | 46,0 | |||||
10,3 | 20,2 | 84,2 | 47,4 | 10,3 | 26,4 | 89,9 | 43,8 | 11,2 | 25,7 | 91,3 | 44,0 | |||||
10,9 | 25,5 | 91,3 | 51,3 | 10,4 | 22,3 | 82,6 | 44,1 | 10,4 | 23,3 | 88,2 | 40,8 | |||||
10,5 | 26,5 | 80,8 | 44,7 | 10,1 | 24,4 | 89,8 | 46,6 | 10,3 | 20,3 | 87,7 | 48,3 | |||||
Вар 4 | Вар 5 | Вар 6 | ||||||||||||||
№ набл | № выборки | № набл | № выборки | № набл | № выборки | |||||||||||
10,9 | 20,2 | 90,9 | 50,7 | 10,9 | 22,2 | 91,9 | 46,8 | 10,2 | 21,2 | 90,9 | 50,2 | |||||
10,5 | 20,8 | 86,9 | 51,8 | 10,3 | 22,0 | 83,1 | 47,9 | 10,3 | 20,0 | 82,3 | 42,4 | |||||
10,6 | 20,5 | 85,8 | 42,8 | 10,8 | 26,1 | 91,2 | 40,7 | 10,7 | 21,8 | 83,4 | 42,7 | |||||
10,8 | 25,9 | 85,4 | 43,4 | 10,8 | 20,2 | 85,9 | 48,9 | 10,6 | 22,9 | 80,8 | 45,8 | |||||
10,6 | 24,2 | 83,9 | 48,3 | 11,1 | 24,3 | 88,2 | 51,4 | 10,5 | 20,2 | 83,7 | 45,9 | |||||
Вар 7 | Вар 8 | Вар 9 | ||||||||||||||
№ набл | № выборки | |||||||||||||||
10,8 | 23,3 | 89,8 | 49,9 | |||||||||||||
10,7 | 24,6 | 84,3 | 51,8 | |||||||||||||
10,9 | 21,3 | 83,4 | 45,1 | |||||||||||||
10,4 | 26,0 | 89,8 | 40,7 | |||||||||||||
10,0 | 23,3 | 86,9 | 50,4 | |||||||||||||
Вар 10 |