Перекрестная проверка (cross-validation)

Проверка достоверности модели, с помощью которой изучают, применима ли регрессной ная модель для анализа сопоставимых данных, не использовавшихся при построении ис ходной модели.

Типичная процедура перекрестной проверки, используемая в маркетинговых исследован ях, состоит из следующих стадий.

1. Маркетологи рассчитывают регрессионную модель, используя полный набор данных.

2. Имеющиеся данные делят на две части: расчетную выборку и контрольную выборку. Расче ная выборка обычно содержит от 50 до 90% данных общей выборки.

3. Регрессионную модель рассчитывают, используя только данные из расчетной выборки. 3 модель сравнивают с моделью, рассчитанную по данным полной выборки, чтобы onpez лить их соответствие с точки зрения знаков и величин частных коэффициентов регрессии

4. Рассчитанную модель применяют к данным из контрольной выборки чтобы определи значения зависимой переменной Yt для наблюдений в контрольной выборке.

5. Наблюдаемые значения Yf и расчетные теоретические значения Y, в контрольной выбор

сопоставляют, чтобы определить линейный коэффициент детерминации г2. Его сравнива] с коэффициентом R2 для полной выборки и с R2 — для расчетной выборки, чтобы оцени степень сжатия.

Специальную форму проверки называют двойной перекрестной проверкой. При двойн перекрестной проверке(double cross-validation) выборку делят на две равные половины.

Двойная перекрестная проверка (double cross-validation)

Специальная форма проверки, в которой выборку делят на две равные части. Одна поло­вина служит расчетной выборкой, а вторая - контрольной. Затем роли выборок меняются, \/ перекрестную проверку повторяют.

При выполнении перекрестной проверки одна половина служит расчетной выборкой, вто­рая — контрольной. Затем места расчетной и контрольной выборок меняются и перекрестную проверку повторяют [31].

РЕГРЕССИЯ С ИСПОЛЬЗОВАНИЕМ ФИКТИВНЫХ ПЕРЕМЕННЫХ

Перекрестная проверка представляет собой общую процедуру, которую можно применять для некоторых специальных приложений регрессии, таких как регрессия с использованием фиктивных переменных. В качестве предикторов можно использовать номинальные (категориальные) переменные, закодировав их как фиктивные. Понятие фиктивных перемен­ных введено в главе 14. В той главе мы объяснили, как категориальную переменную с четырьмя уровнями (люди, которые много, средне, слабо потребляют товар и не используют) можно вы­разить тремя фиктивными переменными: Д, /)2, D3, как показано ниже.

Код фиктивной переменной

Категория потребителя товара Код исходной переменной От
Не использующие
Слабо
Средне
Много

Предположим, что исследователя интересует регрессионный анализ зависимости отноше­ния к торговой марке от степени потребления товара. Фиктивные переменные Д, D2 и D3 мож­но использовать как предикторы. Регрессия с фиктивными переменными описывается таким уравнением:

Y, ^a+b1Dj+b2D2-irb3D3

В этом случае категория "много потребляющие" выбрана в качестве контрольной и поэтому не включена непосредственно в уравнение регрессии. Обратите внимание, что для этой катего­рии значения фиктивных переменных Dl9 D2n D3 определено равным нулю, и уравнение рег­рессии принимает вид

^ -в

Для не пользователей Dl = 1 и D2 = D3 — О и уравнение регрессии запишем

Yi=a+b1

Таким образом, коэффициент Ь{ представляет собой разницу в вычисленном значении для не пользователей по сравнению с пользователями, потребляющими много продукта. Коэффи­циенты Ь2 и Ь3 интерпретируют аналогично. Хотя в этом примере уровень "много потребляю­щие пользователи" выбран как контрольный, в принципе для этой цели подходит любой из. трех уровней [32].

Наши рекомендации