Принятие решения о количестве кластеров
Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых правил, позволяющих быстро принять решение, но можно руководствоваться следующим.
1. При определении количества кластеров руководствуются теоретическими и практическими соображениями. Например, если цель кластеризации — выявление сегментов рынка, то менеджмент может захотеть получить конкретное число кластеров.
2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры. В нашем случае из плана агломерации в табл. 20.2 видно, что значение в колонке "Коэффициент" увеличивается больше, чем вдвое при переходе от 17 к 18 стадии. Аналогично, на последних стадиях древовидной диаграммы (рис. 20.8) кластеры объединяются при больших расстояниях. Следовательно, самое приемлемое решение — это решение о трех кластерах.
3. В неиерархической кластеризации чертят график зависимости отношения суммарной внут-ригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров. Увеличение числа кластеров за эту точку обычно безрезультативно.
4. Относительные размеры кластеров должны быть достаточно выразительными. Из табл. 20.2, просто подсчитав частоты кластерной принадлежности, мы увидим, что решение с тремя кластерами приводит к кластерам, содержащим 8, 6 и 6 элементов. Однако если мы перейдем к четырем кластерам, то размеры кластеров будут 8, 6, 5 и 1. Бессмысленно создавать кластер с одним случаем, поэтому в данной ситуации предпочтительнее решение с тремя кластерами.
Интерпретация и профилирование кластеров
Интерпретация и профилирование кластеров включает проверку кластерных центроидов. Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку. Если компьютерная программа кластеризации не выдаст такую информацию, ее можно получить через дискриминантный анализ. В табл. 20.3 приведены центроиды или средние значения для каждого кластера в расматриваемом примере.
(блица 20.3. Кластерные центроиды
Средние переменных Номер кластера V/
Уз
Vs
5,750 | 3,625 | 6,000 | 3,125 | 1,750 | 3,875 | |
1,667 | 3,000 | 1,833 | 3,500 | 5,500 | 3,333 | |
3,500 | 5,833 | 3,333 | 6,000 | 3,500 | 6,000 |
Кластер 1 имеет относительно высокие значения по переменной FJ (посещение магазинов — приятный процесс) и переменной V3 (я совмещаю посещение магазинов с питанием вне дома). Он также имеет низкое значение по переменной У5 (меня не интересуют покупки). Следовательно, кластер 1 можно назвать так: "любители посещать магазины и делать покупки". Этот кластер состоит из случаев 1, 3, 6, 7, 8, 12, 15 и 17. Кластер 2 — прямая противоположность кластеру 1: он имеет низкие значения по переменным У{иУ3и высокое значение по переменной К5, значит, этот кластер можно назвать "апатичные покупатели". В кластер входят случаи 2, 5, 9, 11, 13 и 20. Кластер 3 имеет высокие значения по переменным У2 (посещение магазинов плохо сказывается на моем бюджете), У4 (я стараюсь сделать лучшие покупки, посещая магазины) и F6 (можно сэкономить много денег, сравнивая цены в разных магазинах). Таким образом, этот кластер можно назвать "экономные покупатели". Кластер 3 охватывает случаи 4, 10, 14, 16, 18 и 19.
Часто имеет смысл профилировать кластеры через переменные, которые не явились о( нованием для кластеризации. Эти переменные могут включать демографические, психогрг фические характеристики, использование продукта или другие переменные. Например, клг стеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование ос> ществляют через демографические или психографические переменные, чтобы определи! маркетинговую стратегию для каждого кластера. Переменные, существенно различающиес между кластерами, можно идентифицировать дискриминантным анализом и однофакто{ ным дисперсионным анализом.