Стратегии кластеризации

Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояние между кластерами определяется по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга.

Аггломеративные стратегии позволяют строить дендрограмму классификации в ходе иерархического процесса объединения кластеров:

- стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных и рекомендуется для получения минимального дерева взамен групповой классификации;

- стратегия дальнего соседа сильно растягивает пространство;

- стратегия группового соседа сохраняет метрику пространства;

- гибкая стратеги универсальна и зависит от значения коэффициента бета, ввод которого запрашивается при выборе этой стратегии (бета должно быть меньше 1): при бета=0 метрика не меняется, при бета>0 пространство сжимается, а при бета<0 - растягивается;

- метод Уорда минимизирует внутрикластерный разброс объектов и дендрограмма получается с глубоко, "гипертрофированно" разделенными кластерами.

- Дивизивная стратегия динамических сгущений позволяет сгруппировать объекты в заданное число кластеров.

Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.

На первом шаге алгоритма каждое наблюдение zi (i = 1,2,…, n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединением двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.

Пример

Провести классификацию пяти предприятий, каждое из которых характеризуется следующими экономическими показателями: x1 - прибыль от реализации x2 - удельный вес продукции высшей категории качества x3 - выработка товарной продукции на одного работника ППП, x4 – среднегодовая стоимость основных производственных фондов.

Таблица 5.5.1. Значение основных экономических показателей.

Номер предприятия x1 x2 x3 x4
3,338 1,909 6,653 2,105 6,178 78,46 50,83 26,12 72,11 13,70 5,013 3,423 3,314 2,534 1,863 7,312 17,785 21,544 8,125 1,780

Решение: Для устранения различия в единицах измерения показателей нормируем их. В результате расчетов по программе получаем матрицу нормированных исходных данных

Стратегии кластеризации - student2.ru ;

А также среди значений показателей x1, x2, x3, x4 и их средние квадратические отклонения:

x1 = 4,0366 s1 = 2.0088277

x2 = 48,2444 s2 = 25.187455

x3 = 3,2294 s3 = 1.0560776

x4 = 11,3092 s4 = 7.2609854

В качестве расстояния между объектами возьмем взвешенное евклидово расстояние, причем «веса» wl зададим пропорционально степени важности экономического показателя: w1 = 0.4; w2 = 0.3; w3 = 0.2; w4 = 0.1. Получаем матрицу расстояний между всеми пятью предприятиями:

Стратегии кластеризации - student2.ru ;

Из матрицы следует, что объекты 2 и 4 наиболее близки Стратегии кластеризации - student2.ru и поэтому объединяются в один кластер. После объединения имеем 4 кластера.

Номер кластера 1 2 3 4

__________________

Состав кластера (1) (2,4) (3) (5)

Расстояние между кластерами будем находить по принципу «ближайшего соседа». За расстояние между кластерами S1 и S(2,4) берем минимальное из расстояний Стратегии кластеризации - student2.ru и Стратегии кластеризации - student2.ru . Аналогично находим расстояния между S3, S5 и S(2,4) , которые соответственно равны: Стратегии кластеризации - student2.ru и Стратегии кластеризации - student2.ru Расстояние между остальными кластерами остается без изменения. Таким образом, получаем матрицу расстояний

Стратегии кластеризации - student2.ru ;

Из матрицы следует, что кластеры S3 S5 наиболее близки Стратегии кластеризации - student2.ru и поэтому объединяются в новй кластер S(3,5). После объединения будем иметь три кластера S1, S(2,4) и S(3,5) . Расстояние между новым кластером S(3,5) и кластерами S1, S(2,4) соответственно равны: Стратегии кластеризации - student2.ru Стратегии кластеризации - student2.ru меньше Стратегии кластеризации - student2.ru и Стратегии кластеризации - student2.ru . Матрица расстояний имеет следующий вид:

Стратегии кластеризации - student2.ru ;

Из этой матрицы следует, что кластеры S1и S(2,4) объединяются в новый кластер S(1,2,4), так как расстояние между ними минимально Стратегии кластеризации - student2.ru . Тогда получим матрицу расстояний

Стратегии кластеризации - student2.ru .

Таким образом, на расстояние Стратегии кластеризации - student2.ru два кластера Стратегии кластеризации - student2.ru и Стратегии кластеризации - student2.ru объединяются в один.

Задание. Проведите кластерный анализ.

№ набл № выборки     № набл № выборки     № набл № выборки  
   
10,9 25,9 81,0 50,3   10,1 24,8 89,7 43,5   10,5 24,9 92,0 47,7
11,1 23,5 84,5 46,5   11,0 26,1 87,9 44,7   10,6 24,9 91,1 47,2
10,4 21,3 85,7 42,5   10,4 25,8 81,1 44,8   10,2 23,4 85,2 48,7
10,8 26,9 80,9 45,8   10,1 24,7 82,6 51,2   10,1 21,5 91,4 47,9
10,46 23,00 82,71 42,81   10,62 25,45 89,66 48,14   11,02 26,15 81,52 45,28
Вар 1           Вар 2           Вар 3        
                                 
№ набл № выборки     № набл № выборки     № набл № выборки  
   
11,1 26,1 91,9 41,0   10,8 21,7 81,7 40,3   10,3 24,1 83,2 48,1
10,4 21,5 85,7 42,4   10,0 20,2 85,9 40,7   11,1 21,0 89,8 46,0
10,3 20,2 84,2 47,4   10,3 26,4 89,9 43,8   11,2 25,7 91,3 44,0
10,9 25,5 91,3 51,3   10,4 22,3 82,6 44,1   10,4 23,3 88,2 40,8
10,5 26,5 80,8 44,7   10,1 24,4 89,8 46,6   10,3 20,3 87,7 48,3
Вар 4           Вар 5           Вар 6        
                                 
№ набл № выборки     № набл № выборки     № набл № выборки  
   
10,9 20,2 90,9 50,7   10,9 22,2 91,9 46,8   10,2 21,2 90,9 50,2
10,5 20,8 86,9 51,8   10,3 22,0 83,1 47,9   10,3 20,0 82,3 42,4
10,6 20,5 85,8 42,8   10,8 26,1 91,2 40,7   10,7 21,8 83,4 42,7
10,8 25,9 85,4 43,4   10,8 20,2 85,9 48,9   10,6 22,9 80,8 45,8
10,6 24,2 83,9 48,3   11,1 24,3 88,2 51,4   10,5 20,2 83,7 45,9
Вар 7           Вар 8           Вар 9        
                                 
№ набл № выборки                          
                       
10,8 23,3 89,8 49,9                        
10,7 24,6 84,3 51,8                        
10,9 21,3 83,4 45,1                        
10,4 26,0 89,8 40,7                        
10,0 23,3 86,9 50,4                        
Вар 10                                

Наши рекомендации