Методика кластерного анализа

Кластерный анализ (КлА)– это совокупность методов многомерной классификации, целью которой является образование групп (кластеров) схожих между собой объектов. В отличие от традиционных группировок, рассматриваемых в общей теории статистики, КлА приводит к разбиению на группы с учетом всех группировочных признаков одновременно.

Методы КлА позволяют решать следующие задачи:

- проведение классификации объектов с учетом множества признаков;

- проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

- построение новых классификаций для слабо изученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Для записи формализованных алгоритмов КлА используются следующие условные обозначения:

Методика кластерного анализа - student2.ru – совокупность объектов наблюдения;

Методика кластерного анализа - student2.ru – i-е наблюдение в m-мерном пространстве признаков ( Методика кластерного анализа - student2.ru );

Методика кластерного анализа - student2.ru – расстояние между Методика кластерного анализа - student2.ru -м и Методика кластерного анализа - student2.ru -м объектами;

Методика кластерного анализа - student2.ru – нормированные значения исходных переменных;

Методика кластерного анализа - student2.ru – матрица расстояний между объектами.

Для реализации любого метода КлА необходимо ввести понятие «сходство объектов». Причем в процессе классификации в каждый кластер должны попадать объекты, имеющие наибольшее сходство друг с другом с точки зрения наблюдаемых переменных.

Для количественной оценки сходства вводится понятие метрики. Каждый объект описывается Методика кластерного анализа - student2.ru -признаками и представлен как точка в Методика кластерного анализа - student2.ru -мерном пространстве. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Как правило, используются следующие меры расстояния между объектами:

- евклидово расстояние Методика кластерного анализа - student2.ru ;

- взвешенное евклидово расстояние Методика кластерного анализа - student2.ru ;

- расстояние city-block Методика кластерного анализа - student2.ru ;

- расстояние Махаланобиса Методика кластерного анализа - student2.ru ,

где Методика кластерного анализа - student2.ru – расстояние между Методика кластерного анализа - student2.ru -ым и Методика кластерного анализа - student2.ru -ым объектами;

Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru – значения Методика кластерного анализа - student2.ru -переменной и соответственно у Методика кластерного анализа - student2.ru -го и Методика кластерного анализа - student2.ru -го объектов;

Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru – векторы значений переменных у Методика кластерного анализа - student2.ru -го и Методика кластерного анализа - student2.ru -го объектов;

Методика кластерного анализа - student2.ru – общая ковариационная матрица;

Методика кластерного анализа - student2.ru – вес, приписываемый Методика кластерного анализа - student2.ru -й переменной.

Все методы КлА можно разделить на две группы: иерархические (агломеративные и дивизимные) и итеративные (метод Методика кластерного анализа - student2.ru -cpeдних, метод поиска сгущений).

Иерархический кластерный анализ. Из всех методов кластерного анализа наиболее распространенными является агломеративный алгоритм классификации. Сущность аглогритма заключается в том, что на первом шаге каждый объект выборки рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. Если матрица расстояний первоначально имеет размерность ( Методика кластерного анализа - student2.ru ), то полностью процесс объединения завершается за ( Методика кластерного анализа - student2.ru ) шагов. В итоге все объекты будут объединены в один кластер.

Последовательность объединения может быть представлена в виде дендрограммы, представленной на рисунке 3.1. Дендрограмма показывает, что на первом шаге объединены в один кластер второй и третий объекты при расстоянии между ними 0,15. На втором шаге к ним присоединился первый объект. Расстояние от первого объекта до кластера, содержащего второй и третий объекты, 0,3 и т.д.

Множество методов иерархического кластерного анализа отличаются алгоритмами объединения (сходства), из которых наиболее распространенными являются: метод одиночной связи, метод полных связей, метод средней связи, метод Уорда.

Метод полных связей – включение нового объекта в кластер происходит только в том случае, если сходство между всеми объектами не меньше некоторого заданного уровня сходства (рисунок 1.3).

 

 
 
б)

 

Методика кластерного анализа - student2.ru
Метод средней связи – при включении нового объекта в уже существующий кластер вычисляется среднее значение меры сходства, которое затем сравнивается с заданным пороговым уровнем. Если речь идет об объединении двух кластеров, то вычисляют меру сходства между их центрами и сравнивают ее с заданным пороговым значением. Рассмотрим геометрический пример с двумя кластерами (рисунок 1.4).

Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru

Рисунок 1.4. Объединение двух кластеров по методу средней связи:

Если мера сходства между центрами кластеров ( Методика кластерного анализа - student2.ru ) будет не меньше заданного уровня, то кластеры Методика кластерного анализа - student2.ru и Методика кластерного анализа - student2.ru будут объединены в один.

Метод Уорда – на первом шаге каждый кластер состоит из одного объекта. Первоначально объединяются два ближайших кластера. Для них определяются средние значения каждого признака и рассчитывается сумма квадратов отклонений Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru , (1.1)

где Методика кластерного анализа - student2.ru – номер кластера, Методика кластерного анализа - student2.ru – номер объекта, Методика кластерного анализа - student2.ru – номер признака; Методика кластерного анализа - student2.ru – количество признаков, характеризующих каждый объект; Методика кластерного анализа - student2.ru – количество объектов в Методика кластерного анализа - student2.ru -мкластере.

В дальнейшем на каждом шаге работы алгоритма объединяются те объекты или кластеры, которые дают наименьшее приращение величины Методика кластерного анализа - student2.ru .

Метод Уорда приводит к образованию кластеров приблизительно равных размеров с минимальной внутрикластерной вариацией.

Алгоритм иерархического кластерного анализа можно представить в виде последовательности процедур:

- нормирование исходных значений переменных;

- расчет матрицы расстояний или матрицы мер сходства;

- определение пары самых близких объектов (кластеров) и их объединение по выбранному алгоритму;

- повторение первых трех процедур до тех пор, пока все объекты не будут объединены в один кластер.

Мера сходства для объединения двух кластеров определяется следующими методами:

- метод «ближайшего соседа» – степень сходства между кластерами оценивается по степени сходства между наиболее схожими (ближайшими) объектами этих кластеров;

- метод «дальнего соседа» – степень сходства оценивается по степени сходства между наиболее отдаленными (несхожими) объектами кластеров;

- метод средней связи – степень сходства оценивается как средняя величина степеней сходства между объектами кластеров;

- метод медианной связи – расстояние между любым кластером S и новым кластером, который получился в результате объединения кластеров р и q, определяется как расстояние от центра кластера S до середины отрезка, соединяющего центры кластеров р и q.

Метод поиска сгущений. Одним из итеративных методов классификации является алгоритм поиска сгущений. Суть итеративного алгоритма данного метода заключается в применении гиперсферы заданного радиуса, которая перемещается в пространстве классификационных признаков с целью поиска локальных сгущений объектов.

 
  Методика кластерного анализа - student2.ru

Метод поиска сгущений требует, прежде всего, вычисления матрицы расстояний (или матрицы мер сходства) между объектами и выбора первоначального центра сферы. Обычно на первом шаге центром сферы служит объект (точка), в ближайшей окрестности которого расположено наибольшее число соседей. На основе заданного радиуса сферы (R) определяется совокупность точек, попавших внутрь этой сферы, и для них вычисляются координаты центра (вектор средних значений признаков).

Когда очередной пересчет координат центра сферы приводит к такому же результату, как и на предыдущем шаге, перемещение сферы прекращается, а точки, попавшие в нее, образуют кластер, и из дальнейшего процесса кластеризации исключаются. Перечисленные процедуры повторяются для всех оставшихся точек. Работа алгоритма завершается за конечное число шагов, и все точки оказываются распределенными по кластерам. Число образовавшихся кластеров заранее неизвестно и сильно зависит от радиуса сферы.

Для оценки устойчивости полученного разбиения целесообразно повторить процесс кластеризации несколько раз для различных значений радиуса сферы, изменяя каждый раз радиус на небольшую величину.

Существуют несколько способов выбора радиуса сферы. Если Методика кластерного анализа - student2.ru – расстояние между Методика кластерного анализа - student2.ru -м и Методика кластерного анализа - student2.ru -м объектами, то в качестве нижней границы радиуса ( Методика кластерного анализа - student2.ru )выбирают Методика кластерного анализа - student2.ru , а верхняя граница радиуса Методика кластерного анализа - student2.ru может быть определена как Методика кластерного анализа - student2.ru .

Если начинать работу алгоритма с величины Методика кластерного анализа - student2.ru и при каждом его повторении изменять Методика кластерного анализа - student2.ru на небольшую величину, то можно выявить значения радиусов, которые приводят к образованию одного и того же числа кластеров, т.е. к устойчивому разбиению.

Пример 1. На основании приведенных данных таблицы 1.1 необходимо провести классификацию пяти предприятий при помощи иерархического агломеративного кластерного анализа.

Таблица 1.1

Номер предприятия Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru
220,0 185,0 245,0 178,0 170,0 94,0 75,0 80,0 75,2 73,1 264,0 192,0 220,0 96,0 105,0
Среднее значение ( Методика кластерного анализа - student2.ru ) 199,6 79,5 175,4
Среднее квадратическое отклонение ( Методика кластерного анализа - student2.ru ) 28,4 7,6 65,4

Здесь: Методика кластерного анализа - student2.ru – среднегодовая стоимость основных производственных фондов, млрд. р.; Методика кластерного анализа - student2.ru – материальные затраты на один рубль произведенной продукции, коп.; Методика кластерного анализа - student2.ru – объем произведенной продукции, млрд. р.

Решение. Перед тем как вычислять матрицу расстояний, нормируем исходные данные по формуле

Методика кластерного анализа - student2.ru .

Матрица значений нормированных переменных будет иметь вид

Методика кластерного анализа - student2.ru .

Классификацию проведем при помощи иерархического агломеративного метода. Для построения матрицы расстояний воспользуемся евклидовым расстоянием. Тогда, например, расстояние между первым и вторым объектами будет

Методика кластерного анализа - student2.ru .

Матрица расстояний Методика кластерного анализа - student2.ru характеризует расстояния между объектами, каждый из которых, на первом шаге представляет собой отдельный кластер

Методика кластерного анализа - student2.ru .

Как видно из матрицы Методика кластерного анализа - student2.ru , наиболее близкими являются объекты Методика кластерного анализа - student2.ru и Методика кластерного анализа - student2.ru . Объединим их в один кластер и присвоим ему номер Методика кластерного анализа - student2.ru . Пересчитаем расстояния всех оставшихся объектов (кластеров) до кластера Методика кластерного анализа - student2.ru получим новую матрицу расстояний Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru .

В матрице Методика кластерного анализа - student2.ru расстояния между кластерами определены по алгоритму «дальнего соседа». Тогда расстояние между объектом Методика кластерного анализа - student2.ru и кластером Методика кластерного анализа - student2.ru равно

Методика кластерного анализа - student2.ru и т.д.

В матрице Методика кластерного анализа - student2.ru опять находим самые близкие кластеры. Это будут Методика кластерного анализа - student2.ru и Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru . Следовательно, на этом шаге объединяем Методика кластерного анализа - student2.ru и Методика кластерного анализа - student2.ru кластеры; получим новый кластер, содержащий объекты Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru . Присвоим ему номер Методика кластерного анализа - student2.ru . Теперь имеем три кластера Методика кластерного анализа - student2.ru {1,3}, Методика кластерного анализа - student2.ru {2,5}, Методика кластерного анализа - student2.ru {4}.

Методика кластерного анализа - student2.ru .

Судя по матрице Методика кластерного анализа - student2.ru ,на следующем шаге объединяем кластеры Методика кластерного анализа - student2.ru и Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru в один кластер и присвоим ему номер Методика кластерного анализа - student2.ru . Теперь имеем только два кластера:

Методика кластерного анализа - student2.ru .

Методика кластерного анализа - student2.ru .

И, наконец, на последнем шаге объединим кластеры Методика кластерного анализа - student2.ru и Методика кластерного анализа - student2.ru на расстоянии 3,861.

 
  Методика кластерного анализа - student2.ru

Представим результаты классификации в виде дендрограммы (рисунок 1.5). Дендрограмма свидетельствует о том, что кластер Методика кластерного анализа - student2.ru более однороден по составу входящих объектов, так как в нем объединение происходило при меньших расстояниях, чем в кластере Методика кластерного анализа - student2.ru .

Рисунок 3.5.Дендрограмма кластеризации пяти объектов

Пример 2. На основании данных, приведенных ниже, проведите классификацию магазинов по трем признакам: Методика кластерного анализа - student2.ru – площадь торгового зала, м2 , Методика кластерного анализа - student2.ru – товарооборот на одного продавца, ден. ед., Методика кластерного анализа - student2.ru – уровень рентабельности, %.

Номер магазина Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Номер магазина Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru

Для классификации магазинов используйте метод поиска сгущений (необходимо выделить первый кластер).

Решение. 1. Рассчитаем расстояния между объектами по евклидовой метрике

Методика кластерного анализа - student2.ru ,

где Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru – стандартизированные значения исходных переменных соответственно у Методика кластерного анализа - student2.ru -го и Методика кластерного анализа - student2.ru -го объектов; т – число признаков.

Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru .

2. На основе матрицы Z рассчитаем квадратную симметричную матрицу расстояний между объектами ( Методика кластерного анализа - student2.ru ).

Методика кластерного анализа - student2.ru

Анализ матрицы расстояний Методика кластерного анализа - student2.ru помогает определить положение первоначального центра сферы и выбрать радиус сферы.

В данном примере большинство «маленьких» расстояний находятся в первой строке, т.е. у первого объекта достаточно много «близких» соседей. Следовательно, первый объект можно взять в качестве центра сферы.

3. Зададим радиус сферы Методика кластерного анализа - student2.ru . В этом случае в сферу попадают объекты, расстояние которых до первого объекта меньше 2.

Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru , Методика кластерного анализа - student2.ru .

Для шести точек (объекты 1, 2, 3, 6, 7, 8) определяем координаты центра тяжести: Методика кластерного анализа - student2.ru .

4. На следующем шаге алгоритма помещаем центр сферы в точку Методика кластерного анализа - student2.ru и определяем расстояние каждого объекта до нового центра:

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru .

Следовательно, в сферу опять попали объекты 1, 2, 3, 6, 7, 8, расстояния которых до центра меньше радиуса сферы. Поскольку в этом случае центр сферы не изменит своих координат, выделение первого кластера закончено, в его состав вошли шесть объектов (1,2,3,6,7,8).

5. Чтобы начать формирование второго кластера, нужно поместить центр сферы в одну из точек, не вошедших в первый кластер (объекты 4,5,9,10).

Судя по матрице расстояний Методика кластерного анализа - student2.ru , целесообразно в качестве центра сферы выбрать объекты 9 или 10. Если взять объект 9 в качестве центра сферы, то в сферу попадают четыре точки (объекты 4,8,9,10). Рассчитаем для них координаты нового центра тяжести Методика кластерного анализа - student2.ru .

6. Определим расстояние каждого из десяти объектов до точки Методика кластерного анализа - student2.ru :

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru .

В сферу попадают объекты, которые имеют расстояние до центра Методика кластерного анализа - student2.ru меньше двух (объекты 1,3,4,8,9,10).

На основании матрицы Z по евклидовой метрике определяем новые координаты центра для этих точек Методика кластерного анализа - student2.ru .

Для нового центра повторяем пункт 6 данного алгоритма:

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru .

После выполнения этого шага видно, что в сферу с радиусом R=2 попадают объекты 1,3,4,7,8,9,10, т.е. состав второго кластера опять изменился. Следовательно, повторяются процедуры пункта 6 и пункта 7:

Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru

Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru Методика кластерного анализа - student2.ru .

Как видно из полученных расстояний каждого из десяти объектов до центра второго кластера, состав кластера не изменился. На этом выделение второго кластера завершается. В его состав вошли семь объектов 1,3,4,7,8,9,10.

Второй кластер

Методика кластерного анализа - student2.ru

Первый кластер
Методика кластерного анализа - student2.ru
 
  Методика кластерного анализа - student2.ru

Результаты выделения первых двух кластеров представлены на рисунке 3.6

Так как полученные кластеры являются пересекающимися и в области пересечения находятся четыре объекта из десяти, есть все основания считать результаты классификации неудовлетворительными. По-видимому, следует повторить классификацию, предварительно изменив радиус сферы или выбрать другой метод.

Наши рекомендации