Статистические методы анализа информации. 4 страница
Стохастическое моделирование является в определенной степени дополнением и углублением детерминированного факторного анализа. В факторном анализе эти модели используются по трем основным причинам:
- необходимо изучить влияние факторов, по которым нельзя построить жестко детерминированную факторную модель (например, уровень финансового левериджа);
- необходимо изучить влияние сложных факторов, которые не поддаются объединению в одной и той же жестко детерминированной модели;
- необходимо изучить влияние сложных факторов, которые не могут быть выражены одним количественным показателем (например, уровень научно-технического прогресса).
В отличие от жестко детерминированного стохастический подход для реализации требует ряда предпосылок:
- наличие совокупности;
- достаточный объем наблюдений;
- случайность и независимость наблюдений;
- однородность;
- наличие распределения признаков, близкого к нормальному;
- наличие специального математического аппарата.
Построение стохастической модели проводится в несколько этапов:
- качественный анализ (постановка цели анализа, определение совокупности, определение результативных и факторных признаков, выбор периода, за который проводится анализ, выбор метода анализа);
- предварительный анализ моделируемой совокупности (проверка однородности совокупности, исключение аномальных наблюдений, уточнение необходимого объема выборки, установление законов распределения изучаемых показателей);
- построение стохастической (регрессионной) модели (уточнение перечня факторов, расчет оценок параметров уравнения регрессии, перебор конкурирующих вариантов моделей);
- оценка адекватности модели (проверка статистической существенности уравнения в целом и его отдельных параметров, проверка соответствия формальных свойств оценок задачам исследования);
- экономическая интерпретация и практическое использование модели (определение пространственно-временной устойчивости построенной зависимости, оценка практических свойств модели).
Кроме деления на детерминированный и стохастический, различают следующие типы факторного анализа:
- прямой и обратный;
- одноступенчатый и многоступенчатый;
- статический и динамичный;
- ретроспективный и перспективный (прогнозный).
При прямом факторном анализе исследование ведется дедуктивным способом - от общего к частному. Обратный факторный анализ осуществляет исследование причинно-следственных связей способом логичной индукции - от частных, отдельных факторов к обобщающим.
Факторный анализ может быть одноступенчатым и многоступенчатым. Первый тип используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, . При многоступенчатом факторном анализе проводится детализация факторов a и b на составные элементы с целью изучения их поведения. Детализация факторов может быть продолжена и дальше. В этом случае изучается влияние факторов различных уровней соподчиненности.
Необходимо также различать статический и динамический факторный анализ. Первый вид применяется при изучении влияния факторов на результативные показатели на соответствующую дату. Другой вид представляет собой методику исследования причинно-следственных связей в динамике.
И, наконец, факторный анализ может быть ретроспективным, который изучает причины прироста результативных показателей за прошлые периоды, и перспективным, который исследует поведение факторов и результативных показателей в перспективе.
Кластерный анализ. Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По сути это задача многомерной классификации данных. Существует около 100 разных алгоритмов кластеризации, однако наиболее часто используемые: иерархический кластерный анализ и кластеризация методов k-средних.
Где применяется кластерный анализ? В маркетинге это сегментация конкурентов и потребителей. В менеджменте: разбиение персонала на различные по уровню мотивации группы, классификация поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В медицине - классификация симптомов, пациентов, препаратов. В социологии - разбиение респондентов на однородные группы. По сути кластерный анализ хорошо зарекомендовал себя во всех сферах жизнедеятельности человека.
Прелесть данного метода - он работает даже тогда, когда данных мало и невыполняются требования нормальности распределений случайных величин и другие требования классических методов статистического анализа.
Поясним суть кластерного анализа, не прибегая к строгой терминологии: допустим, Вы провели анкетирование сотрудников и хотите определить, каким образом можно наиболее эффективно управлять персоналом. То есть Вы хотите разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.
Для решения задачи предлагается использовать иерархический кластерный анализ. В результате мы получим дерево, глядя на которое мы должны определиться, на сколько классов (кластеров) мы хотим разбить персонал. Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер, получим табличку примерно следующего содержания:
Кластер | Муж | 30-50 лет | >50 лет | Рук. | Мед | Льготы | з/п | стаж | Образов. |
80% | 90% | 5% | 70% | 10% | 12% | 95% | 30% | 30% | |
40% | 35% | 45% | 13% | 60% | 70% | 60% | 40% | 20% | |
50% | 70% | 10% | 5% | 30% | 20% | 70% | 20% | 50% |
Поясним, как сформирована приведенная выше таблица:
В первом столбце расположен номер кластера - группы, данные по которой отражены в строке. Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее. Попытаемся составить портреты респондентов каждого кластера.
Первая группа - в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет (MED, LGOTI, TIME-своб время) их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.
Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном, из людей "в возрасте", занимающих невысокие посты. Зарплата для них, безусловно, важна, но есть и другие приоритеты.
Третья группа наиболее "молодая". В отличие от предыдущих двух, очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.
Таким образом, планируя кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате. Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.
Многомерное шкалирование. Общая цель. Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу (см. Факторный анализ). Целью последнего, вообще говоря, является поиск и интерпретация "латентных (т.е. непосредственно не наблюдаемых) переменных", дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении ее i-й строки и j-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта [i] и объекта [j]). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во "вспомогательных шкалах", связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).
Логика многомерного шкалирования. Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США.
В общем случае метод МНШ позволяет таким образом расположить "объекты" (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно "измерить" эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.
Ориентация осей координат. Как и в Факторном анализе, ориентация осей может быть выбрана произвольной. Возвращаясь к нашему примеру, можно поворачивать карту США произвольным образом, но расстояния между городами при этом не изменятся. Таким образом, окончательная ориентация осей на плоскости или в пространстве является, в большей степени результатом содержательного решения в конкретной предметной области (т.е. решением пользователя, который выберет такую ориентацию осей, которую легче всего интерпретировать). В примере можно было бы выбрать ориентацию осей, отличающуюся от пары Север/Юг и Восток/Запад, однако последняя удобнее, как "наиболее осмысленная" и естественная. В начало
Вычислительные методы. Многомерное шкалирование - это не просто определенная процедура, а скорее способ наиболее эффективного размещения объектов, приближенно сохраняющий наблюдаемые между ними расстояния. Другими словами, МНШ размещает объекты в пространстве заданной размерности и проверяет, насколько точно полученная конфигурация сохраняет расстояния между объектами. Говоря более техническим языком, МНШ использует алгоритм минимизации некоторой функции, оценивающей качество получаемых вариантов отображения.
Меры качества отображения: стресс. Мерой, наиболее часто используемой для оценки качества подгонки модели (отображения), измеряемого по степени воспроизведения исходной матрицы сходств, является так называемый стресс. Величина стресса Phi в для текущей конфигурации определяется так:
Phi = [dij - f ( ij)]2.
Здесь dij - воспроизведенные расстояния в пространстве заданной размерности, а ij (дельта ij) - исходное расстояние. Функция f (ij) обозначает неметрическое монотонное преобразование исходных данных (расстояний). Таким образом, МНШ воспроизводит не количественные меры сходств объектов, а лишь их относительный порядок.
Обычно используется одна из несколько похожих мер сходства. Тем не менее, большинство из них сводится к вычислению суммы квадратов отклонений наблюдаемых расстояний (либо их некоторого монотонного преобразования) от воспроизведенных расстояний. Таким образом, чем меньше значение стресса, тем лучше матрица исходных расстояний согласуется с матрицей результирующих расстояний.
Диаграмма Шепарда. Можно построить для текущей конфигурации точек график зависимости воспроизведенных расстояния от исходных расстояний. Такая диаграмма рассеяния называется диаграммой Шепарда. По оси ординат OY показываются воспроизведенные расстояния (сходства), а по оси OX откладываются истинные сходства (расстояния) между объектами (отсюда обычно получается отрицательный наклон). На этом график также строится график ступенчатой функции. Ее линия представляет так называемые величины D-с крышечкой, то есть, результат монотонного преобразования f( ) исходных данных. Если бы все воспроизведенные результирующие расстояния легли на эту ступенчатую линию, то ранги наблюдаемых расстояний (сходств) был бы в точности воспроизведен полученным решением (пространственной моделью). Отклонения от этой линии показывают на ухудшение качества согласия (т.е. качества подгонки модели).
Задание размерности пользователем. Если вы уже знакомы с факторным анализом, вы вполне можете пропустить этот раздел. В противном случае вы можете перечитать раздел Факторный анализ. Однако это не является необходимым для понимания идей многомерного шкалирования.
Вообще говоря, чем больше размерность пространства, используемого для воспроизведения расстояний, тем лучше согласие воспроизведенной матрицы с исходной (меньше значение стресса). Если взять размерность пространства равной числу переменных, то возможно абсолютно точное воспроизведение исходной матрицы расстояний. Однако нашей целью является упрощение решаемой задачи, с тем, чтобы объяснить матрицу сходства (расстояний) в терминах лишь нескольких важнейших факторов (латентных переменных или вспомогательных шкал). Возвращаясь к нашему примеру с расстояниями между городами, если получена двумерная карта, намного проще представить себе, расположение городов и планировать передвижение между ними, чем, если бы имелась только матрица попарных расстояний.
Причины плохого качества отображения. Обсудим, почему уменьшение числа факторов (или вспомогательных шкал) может приводить к ухудшению представления исходной матрицы. Обозначим буквами A, B, C и D, E, F две тройки городов. Соответствующие им точки и попарные расстояния между ними показаны в двух табличках (матрицах).
А В С | A | B | C | D E F | D | E | F |
Первой матрице соответствует случай когда города удалены друг от друга в точности на 90 километров, а второй - когда города D и F удаляются на 180 километров. Можно ли три точки, соответствующие городам (объектам) расположить в одномерном пространстве (на прямой)? Действительно, три точки, соответствующие городам D, E и F могут быть расположены на прямой линии:
D---90 км---E---90 км---F
D удален на 90 км от города E, и E - на 90 км от F, а город D удален на 90+90=180 км от F. Если попытаться проделать тоже самое с городами A, B и C, то видно, что соответствующие им точки уже нельзя разместить на прямой с сохранением исходной структуры расстояний. Однако эти точки можно расположить на плоскости, например, в виде треугольника: A
90 км 90 км
B 90 км C
Располагая эти три точки так, можно в точности воспроизвести все расстояния между ними. Без лишних деталей, этот пример показывает, как конкретная матрица расстояний (сходств) связана с числом искомых латентных переменных (размерностью результирующего пространства). Конечно, "реальные" данные никогда не являются такими "точными", и содержат случайный шум, т.е. случайную изменчивость, влияющую на различие между воспроизведенной и исходной матрицей.
Критерий "каменистой осыпи". Обычно, для выбора размерности пространства, в котором будет воспроизводится наблюдаемая матрица, используют график зависимости стресса от размерности (график каменистой осыпи). Этот критерий впервые был предложен Кэттелом (Cattell (1966)) в контексте решения задачи снижения размерности в факторном анализе (см. Факторный анализ); Краскал и Виш (Kruskal and Wish (1978; стр. 53-60)) обсуждали применение этого графика в методе МНШ.
Кэттел предложил найти такую абсциссу на графике (в методе ФА, по оси абсцисс идут собственные значения), в которой график стресса начинает визуально сглаживаться в направлении правой, пологой его части, и, таким образом, уменьшение стресса максимально замедляется. Образно говоря, линия на рисунке напоминает скалистый обрыв, а черные точки на графике напоминают камни, которые ранее упали вниз. Таким образом, внизу наблюдается как бы каменистая осыпь из таких точек. Справа от выбранной точки на оси абсцисс, лежит только "факторная осыпь". Согласно этому критерию, на приведенном рисунке, скорее всего, следует выбрать для воспроизведения двумерное пространство.
Интерпретируемость конфигурации. Вторым критерием для решения вопроса о размерности с целью интерпретации является "ясность" полученной конфигурации точек. Иногда, как в нашем примере с городами, результирующие координаты легко интерпретируются. В других случаях, точки на графике могут образовывать ту или иную разновидность "случайного облака", и не существует непосредственного способа для интерпретации латентных переменных. В последнем случае следует постараться немного увеличить число координатных осей и рассмотреть получаемые в результате конфигурации. Чаще всего, получаемые решения проще удается проинтерпретировать. Однако если точки на графике не следуют какому-либо образцу, а также если график стресса не показывает какого-либо явного "изгиба" (и не похож на "край обрыва"), то данные, скорее всего, являются случайным "шумом". В начало
Интерпретация осей координат. Интерпретация осей обычно представляет собой заключительный этап анализа по методу многомерного шкалирования. Как уже упоминалось ранее, в принципе, ориентация осей в методе МНШ может быть произвольной, и систему координат можно повернуть в любом направлении. Поэтому на первом шаге получают диаграмму рассеяния точек, соответствующих объектам, на различных плоскостях.
Трехмерные решения также можно проинтерпретировать графически.
Однако эта интерпретация является несколько более сложной.
Заметим, что в дополнение к существенным осям координат, также следует искать кластеры точек, а также те или иные конфигурации точек (окружности, многообразия и др.). Более подробное обсуждение интерпретации полученных конфигураций, см. в работах Borg and Lingoes (1987), Borg and Shye (в печати) или Gutman, (1968).
Использование методов множественной регрессии. Аналитическим способом интерпретации осей координат (описанным в работе Kruskal и Wish, 1978) является применение методов множественной регрессии для регрессирования некоторых имеющих смысл переменных на оси координат. Это легко сделать с помощью модуля Множественная регрессия.
Приложения. "Красота" метода МНШ в том, что вы можете анализировать произвольный тип матрицы расстояний или сходства. Эти сходства могут представлять собой оценки экспертов относительно сходства данных объектов, результаты измерения расстояний в некоторой метрике, процент согласия между судьями по поводу принимаемого решения, количество раз, когда субъект затрудняется различить стимулы и мн.др. Например, методы МНШ весьма популярны в психологическом исследовании восприятия личности. В этом исследовании анализируются сходства между определенными чертами характера с целью выявления основополагающими личностных качеств (см., например, Rosenberg, 1977). Также они популярны в маркетинговых исследованиях, где их используют для выявления числа и сущности латентных переменных (факторов), например, с целью изучения отношения людей к товарам известных торговых марок (подробнее см. Green и Carmone, 1970).
В общем случае, методы МНШ позволяют исследователю задать клиентам в анкете относительно ненавязчивые вопросы ("насколько похож товар фирмы A на товар фирмы B") и найти латентные переменные для этих анкет незаметно для респондентов.
Многомерное шкалирование и факторный анализ. Даже, несмотря на то, что имеется много сходства в характере исследуемых вопросов, методы МНШ и факторного анализа имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Методы МНШ не накладывают таких ограничений. Методы МНШ могут быть применимы, пока сохраняет смысл порядок следования рангов сходств. В терминах различий получаемых результатов, факторный анализ стремится извлечь больше факторов (координатных осей или латентных переменных) по сравнению с МНШ; в результате чего МНШ часто приводит к проще интерпретируемым решениям. Однако более существенно то, что методы МНШ можно применять к любым типам расстояний или сходств, тогда как методы ФА требуют, чтобы первоначально была вычислена матрица корреляций. Методы МНШ могут быть основаны на прямом оценивании сходств между стимулами субъектов, тогда как ФА требует, чтобы субъекты были оценены через их стимулы по некоторому списку атрибутов.
Суммируя вышесказанное, можно сказать, что методы МНШ потенциально применимы к более широкому классу исследовательских задач.
Совместный анализ. Совместный анализ — один из лучших методов определения оптимальных характеристик продукта и его цены на основе моделирования поведения потребителей. В то же время следует отметить, что совместный анализ является достаточно сложным методом и обладает рядом недостатков. Непонимание этих недостатков и различных тонкостей применения совместного анализа не позволяет исследователю устранить или минимизировать их влияние на этапе разработки инструментария и анализа данных, что, в свою очередь, может привести к существенным проблемам с достоверностью полученных результатов.
Введение. Суть метода заключена в его названии: conjoint – consider jointly, т. е. “рассматривать совместно”. В отличие от композиционных методов, где каждая характеристика оценивается по отдельности, в совместном анализе респондент оценивает все характеристики
Набор профилей продуктов
Марка: Nokia
Вес: 90г.
Цвет: красный
Цена: $350
Батарея: 5 часов
Марка: Siemens
Вес: 190 г.
Цвет: Черный
Цена: $150
Батарея: 4,5 часа
Марка: Benefon
Вес: 140 г.
Цвет: синий
Цена: $250
Батарея: 4 часа
продукта в комплексе, т. е. совместно. Варианты продуктов, которые оценивают респонденты, называются профилями. Они представляют собой описание продукта, состоящее из набора уровней различных атрибутов. Атрибутами являются характеристики продукта — например, цвет мобильного телефона, — а уровни представляют собой их значения: красный, черный, синий и т. п. Собрав суждения респондентов о различных профилях продуктов, можно вычислить важность каждого атрибута и полезность каждого его уровня. Используя эти данные, можно оценить привлекательность любого продукта, в том числе еще не существующего, и определить его потенциальную долю рынка.
Совместный анализ — один из лучших методов, позволяющих определять оптимальные характеристики продукта и его цену на основе моделирования поведения потребителей. В то же время следует отметить, что совместный анализ является достаточно сложным методом и обладает рядом недостатков. Непонимание этих недостатков и различных тонкостей применения совместного анализа не позволяет исследователю устранить или минимизировать их влияние на этапе разработки инструментария и анализа данных, что, в свою очередь, может привести к существенным проблемам с достоверностью полученных результатов. Приведем поэтапную процедуру применения совместного анализа с описанием тех проблем, которые могут возникнуть на каждом ее этапе.
Этап 1: Формирование списка характеристик. Разработка дизайна проекта совместного анализа начинается с определения атрибутов, из которых будут сформированы профили продуктов. Для того чтобы не упустить важные для потребителей характеристики продукта, необходимо, прежде всего, составить их список, из которого затем будут выбраны атрибуты. Среди характеристик, включаемых в профили продуктов, можно отметить две универсальные характеристики: торговая марка и цена. Эти характеристики используются в большинстве проектов, в то время как остальные зависят от изучаемого рынка и продукта. В список необходимо включать характеристики всех продуктов, представленных на рынке, в том числе продуктов конкурентов, даже если они отсутствуют в продукте компании. Очень важно также рассматривать не только позитивные, но и негативные характеристики продукта, так как концентрация респондентов только на положительных аспектах может внести существенные искажения в оценки. Более того, если какая-либо характеристика, присущая реальным продуктам, отсутствует в дизайне проекта, респонденты могут искусственно присвоить ее продуктам, описанным в представленных им профилях. Так, например, исследователь, разрабатывая дизайн проекта, мог не учитывать наличие или отсутствие русифицированного меню в телефоне, предполагая, что все компании предлагают эту функцию. Однако респонденты могли знать, что одна из компаний никогда не предлагала меню на русском языке, а потому предположить, что и в представленных на профилях телефонах этой марки не будет возможности использовать русский язык.
Для того чтобы выявить как можно большее количество характеристик, необходимо провести ряд предварительных исследований. Прежде всего, нужно провести интервью с менеджерами и сотрудниками компании. Хорошие результаты в данном случае может дать метод “мозгового штурма”. Затем можно провести несколько глубинных интервью с представителями компаний-посредников, осуществляющих реализацию продукта конечному потребителю. Мы также настоятельно рекомендуем провести несколько групповых дискуссий непосредственно с потребителями продукции. Безусловно, проведение подобных исследований требует дополнительных затрат, однако только так исследователь может быть уверен в том, что он выявил все необходимые характеристики.
Этап 2. Выбор атрибутов. Одним из недостатков совместного анализа является ограничение, накладываемое этим методом на количество атрибутов. Это связано с тем, что при оценке профилей респонденту приходится одновременно рассматривать все представленные в нем атрибуты, в то время как мозг человека может одновременно обрабатывать не более 7 элементов информации. Если в профилях продуктов будет содержаться более 5—7 атрибутов, это может привести к информационной перегрузке респондентов и снижению точности их оценок. Поэтому на втором этапе необходимо принять решение о том, какие характеристики продукта из общего списка будут включаться в дизайн проекта в виде атрибутов.
Атрибуты, включаемые в дизайн проекта, должны удовлетворять ряду условий. Прежде всего, они должны быть важными для потребителей. Атрибуты, не представляющие существенной ценности, не рассматриваются потребителями при покупке продукта и, следовательно, не влияют на их выбор. Необходимо также удостовериться в том, что эти атрибуты не только важны, но и определяют как можно более сильные отличия продуктов друг от друга и, следовательно, реально оказывают влияние на решения, принимаемые потребителями. Так, например, возможность вызова последнего набранного номера нажатием одной кнопки может быть очень важной для потребителей, однако этот фактор не оказывает влияния на выбор телефона, так как эта функция предусмотрена во всех моделях. В идеальном варианте для определения важности атрибутов должен быть проведен предварительный количественный опрос. Учитывая, что нам необходимо лишь приблизительно оценить важность характеристик, можно ограничиться выборкой в 200—300 респондентов. Данные о важности характеристик могут быть также получены из отчетов по предыдущим исследованиям, если они проводились. Следует отметить, что в любом случае необходимо вставлять дополнительный блок вопросов о важности характеристик в расширенном составе хотя бы в основную анкету. По крайней мере, это позволит своевременно обнаружить проблему с характеристиками, ошибочно исключенными из рассмотрения в совместном анализе.