Перекрестная проверка (cross-validation)
Проверка достоверности модели, с помощью которой изучают, применима ли регрессной ная модель для анализа сопоставимых данных, не использовавшихся при построении ис ходной модели.
Типичная процедура перекрестной проверки, используемая в маркетинговых исследован ях, состоит из следующих стадий.
1. Маркетологи рассчитывают регрессионную модель, используя полный набор данных.
2. Имеющиеся данные делят на две части: расчетную выборку и контрольную выборку. Расче ная выборка обычно содержит от 50 до 90% данных общей выборки.
3. Регрессионную модель рассчитывают, используя только данные из расчетной выборки. 3 модель сравнивают с моделью, рассчитанную по данным полной выборки, чтобы onpez лить их соответствие с точки зрения знаков и величин частных коэффициентов регрессии
4. Рассчитанную модель применяют к данным из контрольной выборки чтобы определи значения зависимой переменной Yt для наблюдений в контрольной выборке.
5. Наблюдаемые значения Yf и расчетные теоретические значения Y, в контрольной выбор
сопоставляют, чтобы определить линейный коэффициент детерминации г2. Его сравнива] с коэффициентом R2 для полной выборки и с R2 — для расчетной выборки, чтобы оцени степень сжатия.
Специальную форму проверки называют двойной перекрестной проверкой. При двойн перекрестной проверке(double cross-validation) выборку делят на две равные половины.
Двойная перекрестная проверка (double cross-validation)
Специальная форма проверки, в которой выборку делят на две равные части. Одна половина служит расчетной выборкой, а вторая - контрольной. Затем роли выборок меняются, \/ перекрестную проверку повторяют.
При выполнении перекрестной проверки одна половина служит расчетной выборкой, вторая — контрольной. Затем места расчетной и контрольной выборок меняются и перекрестную проверку повторяют [31].
РЕГРЕССИЯ С ИСПОЛЬЗОВАНИЕМ ФИКТИВНЫХ ПЕРЕМЕННЫХ
Перекрестная проверка представляет собой общую процедуру, которую можно применять для некоторых специальных приложений регрессии, таких как регрессия с использованием фиктивных переменных. В качестве предикторов можно использовать номинальные (категориальные) переменные, закодировав их как фиктивные. Понятие фиктивных переменных введено в главе 14. В той главе мы объяснили, как категориальную переменную с четырьмя уровнями (люди, которые много, средне, слабо потребляют товар и не используют) можно выразить тремя фиктивными переменными: Д, /)2, D3, как показано ниже.
Код фиктивной переменной
Категория потребителя товара | Код исходной переменной | От |
Не использующие | ||
Слабо | ||
Средне | ||
Много |
Предположим, что исследователя интересует регрессионный анализ зависимости отношения к торговой марке от степени потребления товара. Фиктивные переменные Д, D2 и D3 можно использовать как предикторы. Регрессия с фиктивными переменными описывается таким уравнением:
Y, ^a+b1Dj+b2D2-irb3D3
В этом случае категория "много потребляющие" выбрана в качестве контрольной и поэтому не включена непосредственно в уравнение регрессии. Обратите внимание, что для этой категории значения фиктивных переменных Dl9 D2n D3 определено равным нулю, и уравнение регрессии принимает вид
^ -в
Для не пользователей Dl = 1 и D2 = D3 — О и уравнение регрессии запишем
Yi=a+b1
Таким образом, коэффициент Ь{ представляет собой разницу в вычисленном значении для не пользователей по сравнению с пользователями, потребляющими много продукта. Коэффициенты Ь2 и Ь3 интерпретируют аналогично. Хотя в этом примере уровень "много потребляющие пользователи" выбран как контрольный, в принципе для этой цели подходит любой из. трех уровней [32].