Результаты классификации для случав, не отобранных для анализа

  Фактическая группа Число случаев Предсказанная группа - / Принадлежность к группе 2
Группа 2
      66,7% 33,3%
Группа
      0% 100%

Процент правильно классифицированных по группам случаев 83,33%

Некоторые результаты можно получить, изучив групповые средние и стандартные отклор ния. Маркетологи обнаружили, что в деление совокупности на две группы самый больш вклад внесла переменная "доход". Кроме того, оказалось, что переменная "значение, при; ваемое семейному отдыху", важнее для различения групп, чем переменная "отношение к г тешествию". По возрасту главы семьи две группы различаются мало, а стандартное отклонен этой переменной большое.

Объединенная внутригрупповая корреляционная матрица указывает на низкие коэфф циенты корреляции между предикторами. Маловероятно, что возникнет проблема мульт коллинеарности. Значимость одномерных /^-статистик (отношений внутри групповых cyj квадратов к общей сумме квадратов) указывает, что когда предикторы рассматриваются отдельности, то только доход; значение, придаваемое семейному отдыху; и размер сем значимо различаются между семьями, которые посетили курорт, и между теми, кто не отд хал на курорте.

Поскольку имеется две группы, то оценивается только одна дискриминантная функщ Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая Koppej] ция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)2 0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняв этой моделью. Следующая стадия дискриминантного анализа включает определение значим сти дискриминантной функции.

Определение значимости дискриминантной функции

Бессмысленно интерпретировать результаты анализа, если определенные дискрим нантные функции не являются статистически значимыми. Поэтому следует выполни статистическую проверку нулевой гипотезы о равенстве средних всех дискриминанта функций во всех группах генеральной совокупности. В программе SPSS эта проверка б зируется на коэффициенте лямбда (А) Уилкса. Если одновременно проверяют несколь функций, как в случае множественного дискриминантного анализа, то коэффициент является суммой одномерных X для каждой функции. Уровень значимости оценивай исходя из преобразования Л-статистики в статистику хи-квадрат (исходя из распредел ния хи-квадрат, которому подчиняется Л-статистика). При проверке значимости в прим ре с посещением курорта (табл. 18.4) можно отметить, что А, равная 0,3589, преобразует в хи-квадрат статитстику, равную 26,13 с пятью степенями свободы. Она значима п] уровне, превышающем 0,05. В программе SAS вычисляют приближенную /^-статистик основанную на апроксимации к распределению отношения правдоподобия. В программ BMDP проверка нулевой гипотезы базируется на преобразовании Х- статистики Уилксг /'-статистику. В Minitab нельзя выполнить проверку значимости. Если нулевую гипоте отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпр тировать результаты [6].

Интерпретация результатов

Интерпретация дискриминантных весов аналогична интерпретации во множественном регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от дру­гих предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны, но они указывают, какие значения переменной приводят к большим и маленьким значениям функции и связывают их с конкретными группами.

При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группа­ми [7]. Помня об этом предостережении, можно получить некоторое представление об относи­тельной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормиро­ванными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты.

Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими или дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор де­лит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреля­ции следует использовать осторожно.

Полезно исследовать нормированные коэффициенты дискриминантной функции в при­мере с отпуском на курорте. С данными низкими коэффициентами корреляциями между пре­дикторами можно использовать значения нормированных коэффициентов, чтобы предполо­жить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним следуют размер семьи и значение, придаваемое семейному отдыху. Аналогичное наблюдение получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции между предикторами и дискриминантной функцией перечислены в порядке их убывания.

Также даны и ненормированные коэффициенты дискриминантной функции. Для класси­фикации данных их можно применить к необработанным значениям переменных в провероч­ной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминант­ной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное. Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем выше доход семьи; ее размер; значение, придаваемое семейному отдыху; отношение к путеше­ствию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, раз­мер семьи и значение, придаваемое семейному отдыху. Значения этих трех переменных для двух групп приведены в табл. 18.4.

Относительную важность предикторов иллюстрирует следующий пример.

Наши рекомендации