Лабораторная работа № 9 Фиктивные переменные и категории
Цель: научиться использовать в модели фиктивные переменные сдвига и наклона, а также различные категории.
Основные формулы и понятия:
Фиктивная переменная необходима для описания качественного изменения и может принимать два значения 0 и 1.
— модель с фиктивной переменной сдвига;
— модель с фиктивной переменной наклона;
— модель с фиктивной переменной наклона и сдвига.
Категория — событие, про которое для каждого наблюдения можно определенно сказать, произошло оно в этом наблюдении или нет.
Набор категорий — конечный набор взаимоисключающих событий, полностью исчерпывающий все возможности.
Для описания категорий необходимо ввести совокупность фиктивных переменных.
Электронная таблица Excel
До сих пор нами рассматривался только случай количественных регрессоров, поскольку значение цен и спроса являются числами. Однако может возникнуть ситуация, когда необходимо учесть некоторую специфическую информацию. Рассматривая модель спроса, можно предположить, что продаются два одинаковых продукта по одной цене, но имеющие некоторые различия. Например, наряду с уже давно продающимся чистящим порошком, поступает в продажу такой же порошок, но с новым ароматом. И имеется задача исследовать, насколько большим или меньшим спросом пользуется новая продукция. Конечно, можно построить две различные модели, и посмотреть разницу между ними, однако нас будет интересовать общая модель. В этом случае в модель необходимо вносить качественный регрессор, для чего нужно использовать фиктивную переменную. Данная переменная может принимать только два значение 0 или 1, в зависимости от отсутствия или наличия нового качества. В этом случае можно строить модель с фиктивной переменной наклона и сдвига. Работа с фиктивными переменными ни чем не отличается от построения регрессионной модели.
Поэтому рассмотрим задачу. Значение цены x и спроса y на два различных товара, которые мы условно назовем «обычный» и «новый», представлены в таблице 17.
Таблица 17 Исходные данные
Номер наблюдения | Вид | Цена x1(т.) | Спрос y (тыс. шт.) |
новый | 15,09т. | 125,1779 | |
новый | 15,21т. | 123,8094 | |
старый | 15,28т. | 121,175 | |
старый | 15,49т. | 116,9143 | |
старый | 15,54т. | 119,8643 | |
старый | 15,62т. | 118,0681 | |
новый | 15,70т. | 123,5887 | |
новый | 15,91т. | 117,0877 | |
старый | 15,92т. | 116,1699 | |
новый | 15,95т. | 118,3436 | |
новый | 16,31т. | 116,2008 | |
старый | 16,33т. | 111,4565 | |
новый | 16,60т. | 115,1026 | |
старый | 16,69т. | 110,1056 | |
старый | 16,76т. | 110,0231 |
В электронной таблице Excel имеются возможности для быстрого задания значений фиктивной переменой. Для этого необходимо вставить столбец между колонками с названиями Вид и Цена. Озаглавим этот столбец как Фиктивная переменная, и для определения значений будем использовать логическую функцию ЕСЛИ. Данная функция имеет три аргумента. Первый — это логическое выражение, которое может принимать истинное или ложное значение. Вторым аргументом идет то значение, которое появляется в ячейке при истинности условия, а соответственно в третьем аргументе — значение, которое появляется в противном случае.
Выполнив данные действия, получим первые две строки таблицы 18.
Таблица 18 Расчетная таблица
Номер наблюдения | Вид | Фиктивная переменная | Цена x1 (т.) | Спрос y (тыс. шт.) |
новый | =ЕСЛИ(B2="новый";1;0) | 15,09т. | 125,1779 |
В столбце фиктивной переменной появится значение 1, если в предыдущем столбце находилось слово «новый», и 0 в противоположном случае. После этого необходимо значение функции, находящейся в столбце C, скопировать во все нижние ячейки, а поскольку адресация относительная, то адрес будет меняться. Необходимо отметить, что логическая функция может иметь и другой вид:
ЕСЛИ(B2 = "обычный";0;1).
Теперь наша задача заключается в определении степени влияния фиктивной переменной. А именно, влияет ли это значение на свободный член (в этом случае при изменении качества можно говорить о том, что спрос изменится на какое-то количество) или на наклон линии регрессии (спрос изменится во сколько-то), или на оба эти значения сразу.
Вначале оценим регрессию, при условии, что фиктивная переменная влияет только на значение свободного члена. В этом случае итоговая таблица после выполнения надстройки Регрессии, при условии, что Входной интервал Y задан в виде E1:E16, а Входной интервал X в виде С1:D16, имеет вид, изображенный в таблице 19.
Таблица 19 Вывод итогов
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,963696 | ||||||
R-квадрат | 0,928711 | ||||||
Нормированный R-квадрат | 0,916830 | ||||||
Стандартная Ошибка | 1,363084 | ||||||
Наблюдения | |||||||
Дисперсионный анализ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 290,4628387 | 145,231419 | 78,16547142 | 1,31E–07 | |||
Остаток | 22,29599593 | 1,85799966 | |||||
Итого | 312,7588347 | ||||||
Коэффи- циенты | Стандартная ошибка | t- статистика | P- значение | Нижние 95 % | Верхние 95 % | ||
Y-пересечение | 232,0028 | 10,78827 | 21,5051052 | 5,9691E-11 | 208,49 | 255,508 | |
Фиктивная переменная | 3,474500 | 0,7109700 | 4,8869856 | 0,00037407 | 1,9254 | 5,02357 | |
Цена x(т.) | -7,30442 | 0,675558 | –10,8124125 | 1,5303E–07 | –8,77634 | –5,83251 | |
Регрессионная модель имеет вид: y = 232 + 3,47D – 7,304x
Поскольку значение фиктивной переменной D равно 1 для «нового» вида и 0 для «обычного», то данную модель можно отдельно расписать для каждого случая.
y = 232 – 7,304x — обычный вид,
y = 235,47 – 7,304x — новый вид.
Следовательно, спрос на новый вид продукции приблизительно на 3,47 тыс. ед. больше. Коэффициент детерминации равен 0,928, что намного больше, чем данное значение для парного случая.
Рассмотрим теперь возможность построения модели с фиктивной переменной наклона, для чего в качестве регрессоров значения необходимо использовать переменные x и Dx. Следовательно, необходимо добавить дополнительный столбец между фиктивной переменной и значениями x, в который надо записать их произведения.
Опустим таблицу, которая генерируется надстройкой Регрессия. Однако, самостоятельно выполнив данные операции, можно получить следующую модель: y = 233,52 + 0,21Dx – 7,403x.
Аналогичным образом интерпретируя значение фиктивной переменной, можно расписать два случая:
y = 233,52 – 7,4x — для обычного вида продукции;
y = 233,52 – 7,19x — для нового вида продукции.
Выводы из полученных моделей совершенно очевидны, поскольку видна разница во влиянии цены на спрос для каждого вида продукции. Коэффициент детерминации в этом случае равен 0,929, что не намного больше соответствующего значения для фиктивной переменной сдвига, а следовательно, они обе пригодны для прогнозирования. Однако результаты использования моделей будут во многом различными. В первом случае спрос на «новый» вид продукции на 3,47 тыс. ед. больше, чем на «старый», во втором случае цена сильнее влияет на «старый» вид продукции.
При необходимости можно построить модель, в которой фиктивная переменная влияет как на наклон, так и на сдвиг.
До сих пор нами рассматривался случай, когда имеются всего два значения качества, то есть два вида продукции. Однако нередки случаи, когда необходимо проанализировать спрос для различных продуктов. Тогда необходимо вводить набор категорий — как конечный набор взаимоисключающих событий, полностью описывающий все возможности. Предположим, что исследуется влияние цены на спрос при наличии «старой», «обычной», «новой» и «самой новой» продукции.
В этом случае для описания этих категорий необходимо вводить набор фиктивных переменных по следующему правилу.
1. Число фиктивных переменных должно быть на единицу меньше, чем число категорий. В данном случае имеется четыре категории, а следовательно, необходимо ввести три фиктивные переменные, которые мы обозначим D1, D2, D3.
2. Выбрать произвольную категорию в качестве эталонной. Именно с этой категорий в последствии будут сравниваться все остальные. Для эталонной категории необходимо, чтобы значения всех фиктивных переменных равнялись нулю.
3. Для всех остальных категорий необходимо, чтобы одна из фиктивных переменных равнялась 1, в то время как значение всех остальных равно 0.
Достаточно легко можно расставить значения фиктивных переменных, используя ту же условную функцию ЕСЛИ. При наличии четырёх различных видов продукции необходимо вставить три дополнительных столбца, в которых будут находиться фиктивные переменных. Задать логические функции можно так, как показано в таблице 18.
Таблица 18 Логические функции
Номер наблюдения | Вид | Фиктивная переменная D1 | Фиктивная переменная D2 | Фиктивная переменная D3 | Цена x1 (т.) | Спрос y (тыс.шт.) |
=ЕСЛИ(B2= «обычный»;1;0) | =ЕСЛИ(B2= «новой»;1;0) | =ЕСЛИ(B2= «самой новый»;1;0) | 15,09т. | 125,1779 |
После копирования данных функций вниз для значения старой все фиктивные переменные будут равны нулю, для обычной — только значение первой фиктивной переменной будет равно 1 и т. д.
После этого можно вызвать надстройку Регрессия, у которой в качестве входного интервала X, необходимо указать значения всех фиктивных переменных D и нефиктивной переменной X, то есть задать Входной интервал X в виде С1:F16.
Полученные результаты поддаются достаточно простой интерпретации. Значение, находящееся напротив фиктивной переменной D1, показывает, насколько изменился спрос при переходе от эталонной к первой категории, то есть насколько различен спрос между «обычной» и «новой» продукцией. Аналогично интерпретируются значения, стоящие напротив других фиктивных переменных.