Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа

Алгоритм метода k-средних

1. выделяют k центров a1, a2, a3, … ak,

2. выделение классов, соответствующих центрам

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

3. расчет новых центров для классов

a’1, a’2, ….., a’k

итерации ( все аналогично для новых центров)

алгоритм останавливается, когда ничего нового не происходит.

При анализе алгоритма возникает проблема: завершится ли процесс улучшения положения центра кластера через конечное число шагов или же он может быть бесконечным. Она получила название «проблема остановки». Однако когда остановиться, сколько итераций сделать, какая точность оценивания будет при этом достигнута? Общий ответ, видимо, невозможно найти, но обычно нет ответа и для конкретных семейств распределения вероятностей. Именно поэтому мы нет оснований рекомендовать решать системы уравнений максимального правдоподобия, вместо них целесообразно использовать т.н. одношаговые оценки. Эти оценки задаются конечными формулами, но асимптотически столь же хороши (на профессиональном языке - эффективны), как и оценки максимального правдоподобия.

Двухкритериальная оптимизационная постановка кластер-анализа на основе внутрикластерного разброса и числа кластеров.

А-конечное множество

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru , то есть разбиение на k кластеров.

Характеристики разбиения:

1) k-число кластеров Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

2) внутриклассовый разброс Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru , то есть внутри кластера

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru , Аm-мощность множества

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru это невозможно решить, поэтому ее разбивают на 2 задачи более простые:

1) Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

или

2) Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Кластер-анализ признаков. Измерение расстояния между признаками с помощью линейного коэффициента корреляции Пирсона и непараметрического рангового коэффициента корреляции Спирмена.

Коэффициентом корреляции Пирсона: Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Если rn = 1, то Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru причем a>0

Если же rn = -1, то Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru причем a<0

Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи.

Коэффициент ранговой корреляции Спирмена

1. Для каждого xi рассчитывают его ранг ri в вариационном ряду, построенном по выборке Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

2. Для каждого yi рассчитывают его ранг qi в вариационном ряду, построенном по выборке Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

3. Для набора из n пар Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru вычисляют (линейный) коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги.

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений.

Сокращенный вариант:

Для разбиения признаков на группы можно применять различные алгоритмы кластер-анализа. Достаточно ввести расстояние (меру близости, показатель различия) между признаками. Пусть Х и У – два признака. Различие d(X,Y) между ними можно измерять с помощью выборочных коэффициентов корреляции:

d1(X,Y) = 1 – rn(X,Y), d2(X,Y) = 1 – ρn(X,Y),

где rn(X,Y) – выборочный линейный коэффициент корреляции Пирсона, ρn(X,Y) – выборочный коэффициент ранговой корреляции Спирмена.

Наши рекомендации