Термины и рекомендации к применяемым формулам

Кластерный анализ

Алгоритм кластерного анализа

Определение 5.1. Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, «сгустков» наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Кластерный анализ используется при исследовании структуры совокупностей социально – экономических показателей или объектов: предприятий, регионов, социологических анкет, коллективов и т. д.

Термины и рекомендации к применяемым формулам - student2.ru

переходим к матрице нормированных значений Z с элементами

Термины и рекомендации к применяемым формулам - student2.ru ,

где j =1,2,…,k–номер показателя, i = 1,2,…,n – номер наблюдения;

Термины и рекомендации к применяемым формулам - student2.ru , Термины и рекомендации к применяемым формулам - student2.ru ,

Формулы для вычисления расстояния между объектами

Вычисление расстояний dij между объектами i,j=1-n в пространстве m переменных производится по следующим формулам:

Эвклидово: Термины и рекомендации к применяемым формулам - student2.ru

Нормированное Эвклидово Термины и рекомендации к применяемым формулам - student2.ru

Сумма квадратов (СК) Термины и рекомендации к применяемым формулам - student2.ru

Взвешенная СК Термины и рекомендации к применяемым формулам - student2.ru

Корреляция: Термины и рекомендации к применяемым формулам - student2.ru

Абсолютная корреляция: Термины и рекомендации к применяемым формулам - student2.ru

Манхеттен: Термины и рекомендации к применяемым формулам - student2.ru

Брея-Картинса: Термины и рекомендации к применяемым формулам - student2.ru

Канберра: Термины и рекомендации к применяемым формулам - student2.ru

В качестве расстояния между двумя наблюдениями zi и zv используют «взвешенное» евклидово расстояние, определяемое по формуле

Термины и рекомендации к применяемым формулам - student2.ru , где wl - «вес» показателя; Термины и рекомендации к применяемым формулам - student2.ru .

Если wl = 1 для всех l = 1,2,3,4, то получаем обычное евклидово расстояние.

Полученное значение удобно представить в виде матрицы расстояний

Термины и рекомендации к применяемым формулам - student2.ru ; Термины и рекомендации к применяемым формулам - student2.ru .

Так как матрица R симметрическая т.е. Термины и рекомендации к применяемым формулам - student2.ru то достаточно ограничится записью наддиагональных элементов матрицы.

Термины и рекомендации к применяемым формулам

Эвклидовы расстояния применимы для переменных, измеренных в одних единицах. Нормализованные эвклидовы расстояния более подходят для переменных, измеренных в различных единицах или сильно различающихся по величине.

Расстояния суммы квадратов можно использовать, чтобы стратегии объединения были аддитивны по отношению к переменным (расстояние между кластерами равно сумме расстояний между их компонентами).

Если переменные обладают существенно различной значимостью, то целесообразно взвешенное суммирование квадратов, но при этом последняя строка матрицы данных должна содержать веса переменных.

Расстояния, вычисляемые на основе коэффициента корреляции, применимы к упорядоченным переменным типа временных рядов.

Манхеттеновская метрика, как правило, применяется для номинальных или качественных переменных.

Расстояния Брея-Картиса имеют значения между 0 и 1, однако, переменные с большими значениями оказывают большее влияние на результат.

Канберровы расстояния также лежат между 0 и 1, но обладают нечувствительностью к сильно асимметричным данным. Однако применение этого метода при наличии нулевых и отрицательных значений нежелательно, поэтому рекомендуется предварительное преобразование данных посредством сложения каждой переменной с некоторым значением.

Наши рекомендации