Проверочная выборка (validation sample)
Часть общей выборки, которую используют для проверки результатов расчета на основании анализируемой выборки.
Часто распределение количества случаев в анализируемой и проверочной выборки явствует распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нел яльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая соде жать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 2* лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выбор таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).
И наконец, проверку достоверности дискриминантной функции предлагают выполнять i однократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Выч^ ляют дискриминантную функцию и выполняют анализ достверности модели. Таким образе оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы [i
Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся примеру. Предположим, что мы хотим определить главные характеристики семей, которые с дыхали на курорте в последние два года. Данные получены на основании выборки, включа щей 42 семьи. Из них 30 включены (как показано в табл. 18.2) в анализируемую выборку, а с тавшиеся 12 (как показано в табл. 18.3) стали частью проверочной выборки.
Таблица 18.2. Информация об отдыхе на курорте: анализируемая выборка
Номер Посещение Ежегодный Отношение Значение, Размер Возраст Сумма,
курорта доход семьи к путешествию придаваемое семьи главы семьи потраченная (в тысячах семейному семьей на отд
долларов) отдыху
50,2 | С (2) | ||||||
70,3 | Б(3) | ||||||
62,9 | Б(3) | ||||||
48,5 | М(1) | ||||||
52,7 | Б(3) | ||||||
75,0 | Б(3) | ||||||
46,2 | С (2) | ||||||
57,0 | С (2) | ||||||
64,1 | Б(3) | ||||||
68,1 | Б(3) | ||||||
73,4 | Б(3) | ||||||
71,9 | Б(3) | ||||||
56,2 | С (2) | ||||||
49,3 | Б(3) | ||||||
62,0 | Б(3) | ||||||
32,1 | М(1) | ||||||
36,2 | М(1) | ||||||
43,2 | С (2) | ||||||
50,4 | С (2) | ||||||
44,1 | С (2) |
Окончание табл. 18.2
Номер | Посещение курорта | Ежегодный доход семьи (в тысячах долларов) | Отношение к путешествию | Значение, придаваемое семейному отдыху | Размер семьи | Возраст главы семьи | Сумма, потраченная семьей на отдых |
38,3 | М(1) | ||||||
55,0 | С (2) | ||||||
46,1 | М(1) | ||||||
35,0 | М(1) | ||||||
37,3 | М(1) | ||||||
41,8 | С (2) | ||||||
57,0 | С (2) | ||||||
33,4 | М(1) | ||||||
37,5 | М(1) | ||||||
41,3 | М(1) | ||||||
Таблица 18.3. | Информация | об отдыхе на | курорте: проверочная | выборка | |||
Номер | Посещение курорта | Ежегодный доход семьи (в тысячах долларов) | Отношение к путешествию | Значение, придаваемое семейному отдыху | Размер семьи | Возраст главы семьи | Сумма, потраченная семьей на отдых |
50,8 | 7 | С (2) | |||||
63,6 | Б(3) | ||||||
54,0 | С (2) | ||||||
45,0 | С (2) | ||||||
68,0 | Б(3) | ||||||
62,1 | Б(3) | ||||||
35,0 | М(1) | ||||||
49,6 | М(1) | ||||||
39,4 | Б(3) | ||||||
37,0 | М(1) | ||||||
54,5 | С (2) | ||||||
38,2 | МО) |
Семьям, которые отдыхали на курорте в последние два года, присвоен код 1; тем же, которые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как анализируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 семей каждой категории. Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие, оценивали по девятибалльной шкале), значении, придаваемом семейному отдыху (отдых, оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст).
Определение коэффициентов дискриминантной функции
После определения анализируемой выборки (табл. 18.2) мы можем вычислить коэффициенты дискриминантной функции, используя два метода. Прямой метод (direct method) — вычисление дискриминантной функции при одновременном введении всех предикторов.
Часть III. Сбор, подготовка и анализ данных