Понятие кластерного анализа

Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. Главная цель кластерного анализа - нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Не существует общепринятого определения термина «кластер», однако считается, что кластеры обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость.

Плотность - это свойство, которое позволяет определить кластер как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащими их вовсе. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера, т.е. насколько близко друг к другу расположены точки кластера. Свойство кластера - размеры - тесно связано с дисперсией; если кластер можно идентифицировать, то можно измерить и его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т.е. имеют круглую форму) в многомерном пространстве, описываемом признаками. Форма - это расположение точек в пространстве. Если кластеры имеют удлиненную форму, то вместо размера можно вычислить его «связность» - относительную меру расстояния между точками. Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве.

Таким образом, кластеры- это непрерывные области некоторого пространства с относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек.

Предостережения:

Применяя процедуры кластерного анализа, всегда следует помнить, что:

1) многие методы кластерного анализа - довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования (то есть большинство методов являются эвристическими);

2) методы кластерного анализа разрабатывались для многих дисциплин, а потому несут на себе отпечатки специфики этих дисциплин;

3) разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных;

4) цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, и эта структура может не совпадать с искомой «реальной».

Выбор переменных

Выбор переменных в кластерном анализе является одним из наиболее важных шагов в исследовательском процессе, но, к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации. Однако на практике теория, обосновывающая классификационные исследования, часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче.

Отбор и последующий анализ как можно большего количества переменных в надежде на то, что «структура» проявится, как только будет собрано достаточное количество данных, особенно опасны при применении кластерного анализа ввиду эвристической природы метода и большого числа нерешенных проблем.

Обычно при выполнении кластерного анализа данные подвергаются нормировке таким образом, чтобы среднее у всех переменных равнялось нулю, а дисперсия - единице. Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой в кластерном анализе. Нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия. Более целесообразно проводить нормировку внутри групп (т. е. внутри кластеров), но, очевидно, этого нельзя сделать, пока объекты не разнесены по группам.

Ситуация относительно нормировки не совсем ясна. В некоторых исследованиях получилось, что нормировка не приводит к существенным различиям в классификации. Другие исследования показали, что нормировка отрицательно сказывается на адекватности результатов кластерного анализа, а третьи - положительно. Пользователи, имеющие данные с существенно различными измерениями, без сомнения, захотят стандартизировать их, особенно если применяется такая мера сходства, как евклидово расстояние. Решение о проведении нормировки должно приниматься с учетом специфики решаемой задачи, при этом пользователь должен понимать, что результаты могут различаться в зависимости от принятого решения, хотя величина воздействия будет меняться от одного множества данных к другому.

Полемика ведется и вокруг вопроса о необходимости взвешивания переменных. Взвешивание - это манипулирование значением переменной, позволяющее ей играть большую или меньшую роль в измерении сходства между объектами. Хотя эта идея и проста, ее практическое применение затруднительно. Видимо, имеет смысл взвешивать некоторые переменные априори, если для этого есть хорошее теоретическое обоснование.

Наши рекомендации