ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА. В SPSS главной программой для иерархической кластеризации объектов являете CLUSTER
В SPSS главной программой для иерархической кластеризации объектов являете CLUSTER. Можно вычислить различные значения меры расстояний, доступны также все м< тоды кластеризации, рассмотренные в этой главе. Для неиерархической кластеризации и< пользуется программа QUICK CLUSTER. Она чрезвычайно полезна для кластеризации бол] шого количества случаев. Все опции по умолчанию приводят к кластеризации методом У средних. Для кластеризации переменных следует вычислять значения меры сходства по все переменным, используя программу PROXIMITIES. Матрицу близости можно получить с ш мощью программы CLUSTER
В SAS используется программа CLUSTER для иерархической кластеризации случаев ил объектов. Доступны все методы кластеризации, описанные в данной главе, а также некоторь дополнительные. Неиерархическая кластеризация случаев или объектов выполняется с помс щью FASTCLUS. Для кластеризации переменных используется программа VARCLUS. Дендрс граммы не вычисляются автоматически, их можно получить с помощью программы TREE.
В программном пакете BMDP главной программой для кластеризации случаев с использс ванием иерархических методов является 2М. Она позволяет использовать несколько мер рас стояний, но только одну из процедур кластеризации: метод одиночной связи, центроидны метод или правило k ближайших соседей. Для неиерархической кластеризации используете программа КМ, позволяющая выполнять кластеризацию объектов с ^-средними. Кластеризг ция переменных выполняется программой 1М. Она дает возможность использовать метод одиночной, полной и средней связи. Существует также специальная программа ЗМ для пс строения блок-кластеров для категориальных переменных. Поднаборы объектов объединяютс в кластеры, аналогичные поднаборам переменных.
В Minitab можно оценить кластерный анализ, используя функцию Multivariate>Cluster ot servation. Кроме того, существуют функции Clustering of Variables и Cluster K-Means. Кластер ный анализ нельзя выполнить в Excel (версия 7.0 для PC).
В центре внимания Burke
Когда компания Burke представляет результаты кластерного анализа клиенту, он должен получить ответы на следующие три существенных вопроса.
1. Что я могут узнать с помощью кластеров о моем рынке?
2. Какие переменные лежат в основе кластеризации?
3. Насколько отличаются кластеры?
Что я могут узнать с помощью кластеров о моем рынке?
Чтобы ответить на этот вопрос, компания Burke обычно использует данные респондентов, которые не были включены в процедуру кластеризации. Например, нам удалось определить четыре кластера респондентов, исходя из их оценок преимуществ товара. Для проверки нашего предположения о наличии четырех кластеров мы также собрали фактические данные о поведении покупателей и их намерениях относительно покупок. Если кластеры не отражают каких-либо важных для руководства значимых различий по этим показателям, описывающим поведение при покупке товара и намерения купить его, то сложно убедить руководство компании-заказчика в том, что деление клиентов на кластеры целесообразно. Поскольку цель кластеризации — создание групп, очень схожих между собой, то нет гарантии, что они будут отличаться чем-либо другим, кроме внешних признаков.
Какие переменные лежат в основе кластеризации?
Если для создания кластеров мы используем несколько переменных, то следует быть внимательным, чтобы не создать неявно взвешенную систему. Например, в маркетинговом исследовании в сфере автоиндустрии заказчик предложил сгруппировать респондентов в соответствии с ответами на 20 вопросов, касающихся желаемых преимуществ нового автомобиля. Уже при первом их рассмотрении стало ясно, что семь вопросов прямо или косвенно связаны с экономией денег, восемь — с имиджем, три — с ценой и два отражали скоростные качества автомобиля. Можно было спрогнозировать, что вопросы, лежащие в основе кластеризации, скорее всего приведут руководство компании к выводу о том, что группы респондентов, по-видимому, больше всего отличаются отношением к экономии денег и имиджу автомобиля. Но когда вы вычислите евклидовы расстояния, чтобы изучить различия между респондентами, то в формулу их расчета будет входить данные, полученные при ответах на 15 вопросов относительно экономии и имиджа и только пять, касающиеся вопросов из области ценовых и скоростных характеристик автомобиля. Если эти вопросы имеют сопоставимые шкалы, то явно будет завышено значение данных из первых двух категорий. Разумнее сократить как можно больше похожих вопросов, чтобы получить в каждой категории одинаковое число вопросов, отражающее высококоррелированные группы вопросов. Если этого не сделать, то число вопросов, которые вы зададите по данной проблеме, может сильно повлиять на ваши результаты, сильнее, чем сама проблема.
Насколько отличаются кластеры?
Выше, в первом пункте, мы обсудили, насколько целесообразно выделять кластеры с точки зрения существования различий между переменными. Нам также необходимо проверить, действительно ли кластеры различаются с точки зрения переменных, которые лежали в основе создания кластеров. Вы можете ввести данные в алгоритм кластеризации, и если вы зададите остановку этого процесса на двух кластерах, то получите два кластера в силу самой природы этого процесса, а вовсе не из-за логики проблемы или структуры различий, существующих в изучаемой совокупности. Поэтому после деления на кластеры важно убедиться, что различия имеют достаточную величину и стабильность, чтобы вы были уверены в полученных результатах.
1. Маловероятно, что кластеры отличаются по всем вопросам, использованным в качестве исходных данных для процесса кластеризации. Хотя статистические процедуры не действенны применительно к систематически создаваемым кластерам, они помогают понять процесс формирования кластеров. Однофакторный дисперсионный анализ покажет, различаются ли отдельные вопросы между сформированными кластерами, исходя из значения статистики, которая больше всего подходит для вероятностной выборки (конечно, это не то, что вы хотите... но все же лучше иметь такой "коэффициент"). Привлекательнее использование дискриминантного анализа, поскольку он покажет, какие из вопросов станут потенциальными дискриминаторами групп, учитывая при этом коллинеарность между этими предикторами.
2. Значимость различий между кластерами с точки зрения руководства— это отдельная проблема. Предположим, ваши кластеры представляются различными по статистическим показателям (полученным в результате дисперсионного и дискриминантного анализа). Однако это вовсе не означает, что различия настолько велики, что руководство компании-заказчика сочтет их полезными для решения своих проблем. Рассмотрим, например, такую ситуацию. Вопрос, по которому было проведено различие кластеров, относился к экономии средств, и 90% ответов находилось в диапазоне от 6 до 9 по десятибалльной шкале.
Чтобы убедить руководство принять во внимание такое разделение между кластерами, вам необходимо предоставить дополнительные убедительные доказательства. Дело в том, что оценки респондентов показывают различия в степени "положительного отношения" и ничего не говорят о величине различий в рамках одного кластера. Это трудный вопрос, и нет рецепта для ответа на него. Конечно, было бы лучше, если бы вы могли перевести эти численные различия в решения, имеющие смысл для высшего руководства.
резюме
Кластерный анализ используют для группирования (классификации) объектов (событш случаев), а иногда и переменных в относительно однородные группы. Образование кластер зависит от имеющихся данных, а не определяется заранее.
Переменные, которые являются основанием для кластеризации, следует выбирать, исх дя из опыта предшествующих исследований, теоретических предпосылок, проверяемых г потез, а также по усмотрению исследователя. Кроме того, следует выбрать соответствующе меру расстояния (сходства). Особенность иерархической кластеризации — разработка иера хической или древовидной структуры. Иерархические методы кластеризации могут быть г ломеративными или дивизивными. Агломеративные методы включают: метод одиночн связи, метод полной связи и метод средней связи. Широко распространенным дисперсно ным методом является метод Варда. Неиерархические методы кластеризации часто называ] методами /г-средних. Эти методы включают последовательный пороговый метод, параллел ный пороговый метод и оптимизирующее распределение. Иерархические и неиерархическ методы можно применять совместно. Выбор метода кластеризации и выбор меры расстоян взаимосвязаны.
Решение о числе кластеров принимают по теоретическим и практическим соображ ниям. В иерархической кластеризации важным критерием принятия решения о числе класп ров являются расстояния, при которых происходит объединение кластеров. Относительн размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а объединить его с другими. Кластеры интерпретируют с точки зрения кластерных центроиде Часто интерпретировать кластеры помогает их профилирование через переменные, которые лежали в основе кластеризации. Надежность и достоверность решений кластеризации оцен вают разными способами.