Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа

Алгоритм метода k-средних

1. выделяют k центров a₁, a₂, a₃, … a_k,

2. выделение классов, соответствующих центрам

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

3. расчет новых центров для классов

a’_1,a’_{2, …..,}a’_k

итерации ( все аналогично для новых центров)

алгоритм останавливается, когда ничего нового не происходит.

При анализе алгоритма возникает проблема: завершится ли процесс улучшения положения центра кластера через конечное число шагов или же он может быть бесконечным. Она получила название «проблема остановки». Однако когда остановиться, сколько итераций сделать, какая точность оценивания будет при этом достигнута? Общий ответ, видимо, невозможно найти, но обычно нет ответа и для конкретных семейств распределения вероятностей. Именно поэтому мы нет оснований рекомендовать решать системы уравнений максимального правдоподобия, вместо них целесообразно использовать т.н. одношаговые оценки. Эти оценки задаются конечными формулами, но асимптотически столь же хороши (на профессиональном языке - эффективны), как и оценки максимального правдоподобия.

Двухкритериальная оптимизационная постановка кластер-анализа на основе внутрикластерного разброса и числа кластеров.

А-конечное множество

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru , то есть разбиение на k кластеров.

Характеристики разбиения:

1) k-число кластеров Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

2) внутриклассовый разброс Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru , то есть внутри кластера

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru , А_m-мощность множества

Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru это невозможно решить, поэтому ее разбивают на 2 задачи более простые:

1) Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

или

2) Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Кластер-анализ признаков. Измерение расстояния между признаками с помощью линейного коэффициента корреляции Пирсона и непараметрического рангового коэффициента корреляции Спирмена.

Коэффициентом корреляции Пирсона: Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

Если r_n = 1, то Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru причем a>0

Если же r_n = -1, то Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru причем a<0

Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи.

Коэффициент ранговой корреляции Спирмена

1. Для каждого x_i рассчитывают его ранг r_i в вариационном ряду, построенном по выборке Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

2. Для каждого y_i рассчитывают его ранг q_i в вариационном ряду, построенном по выборке Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru

3. Для набора из n пар Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа - student2.ru вычисляют (линейный) коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги.

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений.

Сокращенный вариант:

Для разбиения признаков на группы можно применять различные алгоритмы кластер-анализа. Достаточно ввести расстояние (меру близости, показатель различия) между признаками. Пусть Х и У – два признака. Различие d(X,Y) между ними можно измерять с помощью выборочных коэффициентов корреляции:

d₁(X,Y) = 1 – r_n(X,Y), d₂(X,Y) = 1 – ρ_n(X,Y),

где r_n(X,Y) – выборочный линейный коэффициент корреляции Пирсона, ρ_n(X,Y) – выборочный коэффициент ранговой корреляции Спирмена.

Наши рекомендации

Вопрос № 14. Понятие алгоритма. Свойства алгоритмов. Способы записи алгоритма. Принципы структурного проектирования алгоритмов

Б6. Понятие алгоритма. Исполнитель алгоритма. Система команд исполнителя (на примере учебного исполнителя). Свойства алгоритма. Способы записи алгоритмов; блок-схемы.

Понятие алгоритма. Свойства алгоритмов. Способы представления алгоритмов.

При построении надежностных структурных схем используют последовательное, параллельное и последовательно-параллельное включение элементов

Вопрос 13. Последовательное и параллельное соединения резисторов. Входное сопротивление и свойства цепей данных соединений. Последовательное соединение источников ЭДС

Понятие кластер - анализа, использование его в маркетинговых исследованиях

Методы многомерного статистического анализа. Кластер-анализ. Понятие об иерархическом методе и о методе К-средних. Многомерная классификация с использованием нечетких множеств.

Тема: Понятие алгоритма. Свойства алгоритма. Исполнители алгоритмов (назначение, среда, режим работы, система команд). Компьютер как формальный исполнитель алгоритмов (программ)

Алгоритм. Свойства алгоритма. Типы алгоритмов. Графический способ записи алгоритма.

Последовательное, параллельное

← Предыдущая страница | Следующая страница →