Термины и рекомендации к применяемым формулам
Кластерный анализ
Алгоритм кластерного анализа
Определение 5.1. Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, «сгустков» наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.
Выбор конкретного метода кластерного анализа зависит от цели классификации.
Кластерный анализ используется при исследовании структуры совокупностей социально – экономических показателей или объектов: предприятий, регионов, социологических анкет, коллективов и т. д.
переходим к матрице нормированных значений Z с элементами
,
где j =1,2,…,k–номер показателя, i = 1,2,…,n – номер наблюдения;
, ,
Формулы для вычисления расстояния между объектами
Вычисление расстояний dij между объектами i,j=1-n в пространстве m переменных производится по следующим формулам:
Эвклидово:
Нормированное Эвклидово
Сумма квадратов (СК)
Взвешенная СК
Корреляция:
Абсолютная корреляция:
Манхеттен:
Брея-Картинса:
Канберра:
В качестве расстояния между двумя наблюдениями zi и zv используют «взвешенное» евклидово расстояние, определяемое по формуле
, где wl - «вес» показателя; .
Если wl = 1 для всех l = 1,2,3,4, то получаем обычное евклидово расстояние.
Полученное значение удобно представить в виде матрицы расстояний
; .
Так как матрица R симметрическая т.е. то достаточно ограничится записью наддиагональных элементов матрицы.
Термины и рекомендации к применяемым формулам
Эвклидовы расстояния применимы для переменных, измеренных в одних единицах. Нормализованные эвклидовы расстояния более подходят для переменных, измеренных в различных единицах или сильно различающихся по величине.
Расстояния суммы квадратов можно использовать, чтобы стратегии объединения были аддитивны по отношению к переменным (расстояние между кластерами равно сумме расстояний между их компонентами).
Если переменные обладают существенно различной значимостью, то целесообразно взвешенное суммирование квадратов, но при этом последняя строка матрицы данных должна содержать веса переменных.
Расстояния, вычисляемые на основе коэффициента корреляции, применимы к упорядоченным переменным типа временных рядов.
Манхеттеновская метрика, как правило, применяется для номинальных или качественных переменных.
Расстояния Брея-Картиса имеют значения между 0 и 1, однако, переменные с большими значениями оказывают большее влияние на результат.
Канберровы расстояния также лежат между 0 и 1, но обладают нечувствительностью к сильно асимметричным данным. Однако применение этого метода при наличии нулевых и отрицательных значений нежелательно, поэтому рекомендуется предварительное преобразование данных посредством сложения каждой переменной с некоторым значением.