Определение значимости дискриминантной функции
Чтобы проверить нулевую гипотезу о равенстве центроидов групп, рассмотрим обе функции • новременно. Можно успешно проверить средние функций, выполнив первую проверку всех средь одновременно. Затем, на следующих этапах, каждый раз исключают одну из функций и проверь средние оставшихся функций. Если в табл. 18.5 в колонке "После удаления функции" стоит О значит не была удалена ни одна функция. Значение коэффициента X Уилкса равно 0,1644. Коэф<3 циент А Уилкса преобразуется в статистику хи-квадрат, равную 44,831 с 10-тью степенями свобод которая является значимой выше 0,05 уровня. Таким образом, две функции вместе значимо диск] минируют (различают) три группы. Однако после исключения первой функции коэффициен Уилкса, соответствующий второй функции, равен 0,8020, и является не значимой при уровне О, Поэтому вторая функция не вносит значимый вклад в групповые различия.
Интерпретация результатов
Рис. 18.2. Диаграмма рассеяния всех групп
"путешествие", "отдых" и "возраст". К аналогичному заключению можно прийти, изучив структурную матрицу (см. табл. 18.5). Для удобства интерпретации переменные с большими коэффициентами для конкретной функции группируют вместе. Эти группировки отмечены звездочкой. Так "доход" и "размер семьи" помечены звездочкой для функции 1, поскольку эти переменные имеют коэффициенты, значения которых для функции 1 выше, чем для функции 2. Эти переменные связаны главным образом с функцией 2, что и показывают звездочки.
На рис. 18.2 приведена диаграмма рассеяния всех групп для функций 1 и 2.
Видно, что группа 3 имеет наивысшее значение по функции 1, а группа 1 — самое низкое. Поскольку функция 1 в первую очередь связана с переменными "доход" и "размер семьи", можно ожидать, что три группы будут ранжированы по этим двум переменным. Большие семьи, имеющие более высокие доходы, вероятно, будут тратить большую сумму на отдых. И наоборот, небольшие семьи с низкими доходами, вероятно, будут тратить небольшие суммы денег на отдых. Эти результаты подтверждаются проверкой групповых средних по переменным: доход и размер семьи.
-8,0 -6,0 -4,0 -2,0 0,0 2,0 'Отмечает групповой центр |
Рис. 18.3. Территориальная карта
большее значение семейному отдыху, по сравнению с семьями из группы 2, то почему они тр тят на это меньше денег? Возможно, они и хотели бы потратить большую сумму на отдых, i они не могут сделать этого из-за низких доходов.
Аналогичные выводы получены с помощью территориальной карты, (territorial map), пок занной на рис. 18.3.
Территориальная карта (territorial map)
Инструмент для оценки результатов дискриминантного анализа на основе построения диаграммы групповой принадлежности каждого случая.
На территориальной карте каждый групповой центроид указан звездочкой. Границы rpyi пы показаны числами в соответствии с номерами групп. Таким образом, центроид группы ограничен цифрами 1; центроид группы 2 — цифрами 2; центроид группы 3 — цифрами 3.
Оценка достоверности дискриминантного анализа
Результаты классификации, полученные на основе анализируемой выборки показываю что (9 + 9 +8)/30 = 86,67% случаев классифицировано верно. Если классификационный ан; лиз выполняют на основе проверочной независимой выборки табл. 18.3, то процент попадаш немного меньше — 83,3%. Задав три группы равного размера, и исходя только из случайност] можно ожидать, что коэффициент результативности (процент попаданий) равен 1/3 = 0,3 • или 33,3%. Превышение полученного результата над случайным составляет 50%, и это свид тельствует об удовлетворительной достоверности модели [14].
Следующий пример иллюстрирует применение множественного дискриминантного ан; лиза для нескольких групп.
ПРИМЕР. Дом — там, где нравится пациенту
Для определения отношения людей к четырем системам предоставления медицинских услуг (медицинское обслуживание на дому, больницы, дома престарелых и амбулаторные клиники) проведен их опрос по 10 характеристикам обслуживания. Полученные 102 ответа проанализированы с помощью множественного дискриминантного анализа (табл. 1).
Таблица 1. Нормированные коэффициенты дискриминантной функции
Дискриминантная функция
2 -0,04 0,08 0,10 -0,28 0,27 -0,14 0,67 0,08 0,32 -0,03 29,4Ь 289,2 |
3 0,15 0,07 0,16 0,52 -0,19 -0,70 -0,10 0,49 -0,15 0,18 7,6Ь 70,1 |
Переменная 1
Безопасность - 0,20
Удобство (близость) 0,08
Вероятность медицинских осложнений3 - 0,27
Дороговизна (услуги)3 0,30
Комфортабельность (комфорт) 0,53
Санитария - о,27
Наилучшее медицинское обслуживание - 0,25
Уединенность (приватность) 0,40
Более быстрое выздоровление 0,30
Комплектация лучшим медицинским персоналом -0,17
Процент объясняемой дисперсии 63,0Ь
Статистика хи-квадрат 663,3
аВ вопроснике эти два пункта заданы наоборот. Для анализа данных их закодировали в обратном порядке. ьр < 0,01
Определены три дискриминантные функции. Проверка статистик хи-квадрат показала, что все три дискриминантные функции значимы при уровне 0,01. Вклад первой функции в общую дискриминирующую способность составил 63%, а вклад оставшихся двух функций __ 29,4% и 7,6% соответственно.
В табл. 1 представлены нормированные коэффициенты дискриминантной функции 10 переменных в дискриминантных уравнениях. Значения коэффициентов варьирует в пределах от —1 до + 1. При определении способности каждой характеристики классифицировать (делить на группы) систему предоставления медицинских услуг использованы абсолютные значения. В первой дискриминантной функции двумя переменными с самыми большими коэффициентами оказались переменные "комфорт' (0,53) и "приватность" (0,40). Поскольку обе переменные связаны с персональным обслуживанием и медицинским уходом, то первая характеристика обозначена как "индивидуальный уход". Во второй функции двумя переменными с самыми большими коэффициентами стали переменные "качество медицинского обслуживания" (0,67) и "вероятность более быстрого выздоровления" (0,32). Поэтому эта характеристика названа "качество медицинского обслуживания". В третьей дискриминантной функции наиболее значимыми характеристиками оказались "санитария" (— 0,70) и "дороговизна (услуг)" (0,52). Поскольку эти две характеристики представляют стоимость и цену, третья дискриминантная функция получила название "стоимость".
Значения четырех групповых центроидов показаны в табл. 2.
Таблица 2. Центроиды систем медицинского обслуживания в дискриминантном пространстве
Дискриминантная функция Система 123
Больница (стационар) - 1,66
Медицинское обслуживание на дому - 0,60
Амбулаторная клиника 0,54
Медицинский уход в домах престарелых 1,77
0,97 -1,36 -0,13 0,50
-0,08 -0,27 0,77 -0,39
Данные таблицы показывают, что медицинское обслуживание на дому оценивается как наиболее приемлемое обслуживание по характеристике "индивидуальный уход", а пребывание в больнице — как наихудший вариант. Что касается характеристики "качество медицинского обслуживания", то здесь наблюдалось существенное различие между медицинским обслуживанием на дому и другими тремя системами. По этой характеристике "качество медицинского обслуживания", "обслуживание на дому" также получило наивысшие оценки по сравнению с амбулаторными клиниками. Но, с другой стороны, амбулаторные клиники оценены как наилучшие с точки зрения предлагаемой цены.
Классификационный анализ 102-х респондентов, представленный в табл. 3, показывает верное отнесение к группам, начиная с 86% для больниц и 68% — для амбулаторных клиник.
Таблица 3. Классификационная таблица
Отнесение к класу (в %)
Больница Медицинское обслуживание на дому
Амбулаторная Медицинский уход клиника в домах престарелых
Система
Больница 86 6
Медицинское обслуживание на дому 9 78
Амбулаторная клиника 9 13
Медицинский уход в домах престарелых 5 4
Неверная классификация для больниц составила по 6% для домов престарелых и амбулаторных клиник и 2% — для медицинского обслуживания на дому (вместо отнесения к больницам 6% было отнесено к домам престарелых и амбулаторным клиникам и 2% — к медицинскому обслуживанию на дому). Неверная классификация для домов престарелых была такой:
6 10 68 13
2 3
10 78
9% отнесли к больницам, 10% — к амбулаторным клиникам и 3% — к медицинскому обслуживанию на дому. Неверная классификация для амбулаторных клиник была такой: 9% неверно отнесли к больницам, 13% — к домам престарелых и 10% — к медицинскому обслуживанию на дому. Для медицинского обслуживания на дому неверная классификация оказалас! такой: 5% отнесли к больницам, 4% — к домам престарелых и 13% — к амбулаторным клиникам. Результаты показали, что дискриминантные (классифицирующие) функции оказание! достаточно точными при предсказании групповой принадлежности [15].