Кластерный алгоритм выделения «ведущих» показателей

Рассмотренный ниже алгоритм А2 основан на применении аппарата кластерного анализа, задачей которого является разделение рассматриваемой совокупности объектов на некоторые однородные группы, называемые кластерами. Следует отметить, что в настоящее время имеется множество различных подходов к решению задачи кластеризации объектов или признаков [27].

При не очень большой размерности задачи (n<100) наиболее эффективными являются алгоритмы, основанные на последовательном объединении наиболее близких кластеров в один. Они свободны от такого недостатка, как зависимость результата от порядка просмотра, не требуют первоначального разбиения объектов на кластеры.

При использовании в качестве объектов кластеризации признаков (показателей) естественной мерой близости Pi и Pj является абсолютная величина коэффициента корреляции Кластерный алгоритм выделения «ведущих» показателей - student2.ru .

За меру близости показателя Pk и кластера Gl примем абсолютную величину коэффициента корреляции между Pk и gl, где gl характеризует центр кластера Gl и с точностью до нормирования равен [29]

Кластерный алгоритм выделения «ведущих» показателей - student2.ru , (4.19)

где величина mi может принимать два значения: 1 или –1.

Учитывая, что нормирование gl не изменяет его корреляции с другими переменными и стандартизованность Кластерный алгоритм выделения «ведущих» показателей - student2.ru имеем

Кластерный алгоритм выделения «ведущих» показателей - student2.ru .

Из (4.19) следует, что Кластерный алгоритм выделения «ведущих» показателей - student2.ru ,

Кластерный алгоритм выделения «ведущих» показателей - student2.ru и, следовательно,

Кластерный алгоритм выделения «ведущих» показателей - student2.ru     (4.20)    

Кластерный алгоритм выделения «ведущих» показателей - student2.ru В качестве меры близости между кластерами Gl и Gs будем использовать абсолютную величину коэффициента корреляции между gl и gs.

Кластерный алгоритм выделения «ведущих» показателей - student2.ru Кластерный алгоритм выделения «ведущих» показателей - student2.ru Кластерный алгоритм выделения «ведущих» показателей - student2.ru

   
Кластерный алгоритм выделения «ведущих» показателей - student2.ru     (4.21)

На практике, однако, мы имеем выборочную корреляционную матрицу показателей, поэтому в качестве меры близости будем использовать соответствующие оценки

Кластерный алгоритм выделения «ведущих» показателей - student2.ru (4.22)

Кластерный алгоритм выделения «ведущих» показателей - student2.ru     (4.23)

Сущность алгоритма А2 состоит в следующем. Вначале каждый показатель рассматривается как отдельный кластер и все Кластерный алгоритм выделения «ведущих» показателей - student2.ru равны единице. На каждом шаге работы алгоритма отыскивается максимальный по абсолютной величине элемент матрицы близости Кластерный алгоритм выделения «ведущих» показателей - student2.ru :

Кластерный алгоритм выделения «ведущих» показателей - student2.ru ,

Кластерный алгоритм выделения «ведущих» показателей - student2.ru

где QT – текущая размерность матрицы близости.

Кластеры Gl и Gs объединяются в один – Gl*. При этом анализируется знак коэффициента корреляции Кластерный алгоритм выделения «ведущих» показателей - student2.ru . Если он положителен, величины mj показателей, входивших в кластер Gs, сохраняются, а в противном случае изменяются на противоположные.

Далее рассчитывается центр кластера Gl*:

Кластерный алгоритм выделения «ведущих» показателей - student2.ru

и преобразуется матрица близости: из нее исключаются элементы, характеризующие расстояние до каждого из объединившихся кластеров, и добавляются элементы, определяющие близость между полученным кластером Gl* и всеми остальными.

В каждом кластере выбирается по одному «ведущему» показателю, наиболее близкому к центру кластера. Данный выбор обусловлен тем, что вектор gl максимизирует Кластерный алгоритм выделения «ведущих» показателей - student2.ru [18], приводя к максимально тесной средней связи с ним всех остальных показателей кластера.

Таким образом, на текущем (i-м) шаге работы алгоритма формируется Кластерный алгоритм выделения «ведущих» показателей - student2.ru «ведущих» показателя. Процесс кластеризации продолжается до тех пор, пока выполняется условие (4.15).

Использование в качестве меры близости кластеров абсолютной величины коэффициента корреляции между векторами центров кластеров приводит к объединению кластеров с наиболее близкими центрами. При этом происходит замена двух близких «ведущих» показателей одним, что позволяет надеяться на сохранение выполнения системы ограничений.

Отметим, что рассмотренные выше алгоритмы А1 и А2 обеспечивают тесную статистическую связь «ведомых» показателей с «ведущими», однако в принципе не гарантируют слабой коррелированности «ведущих» показателей.

Особенностью рассмотренного ниже алгоритма А3 является попытка учесть оба эти требования: тесная связь «ведомых» показателей с «ведущими» и слабая коррелированность «ведущих» показателей между собой.

Такой подход обеспечивается использованием следующего критерия выхода из процедуры кластеризации [20]:

Кластерный алгоритм выделения «ведущих» показателей - student2.ru   (4.24)

где nr – число показателей в кластере Sr;

k – количество кластеров.

Критерий (4.24) представляет собой разность между средней мерой близости показателей внутри кластеров и средней мерой близости между показателями из разных кластеров. Наилучшим вариантом кластеризации считается тот, при котором значение этого критерия максимально. Проведенные исследования показали, что значение критерия возрастает на начальном этапе объединения объектов в кластеры, достигает максимума при некотором количестве кластеров k, а затем уменьшается.

Наши рекомендации