Тема 3. Линейные регрессионные модели с переменной структурой
При изучении социально-экономических процессов и явлений может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровня, например, образование, пол, фактор сезонности. Качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании регрессионных моделей с переменной структурой или построении регрессионных моделей по неоднородным данным.
Оценить влияние значений количественных переменных и уровней качественных признаков с помощью одного уровня регрессии можно путем введения фиктивных переменных.
В качестве фиктивных переменных обычно используются дихотомические (бинарные) переменные, которые принимают всего два значения: «0» и «1». Например, при исследовании зависимости заработной платы от уровня образования Z можно рассмотреть k=3 уровня: начальное образование, среднее и высшее. Обычно вводят (k-1) бинарную переменную. В нашем случае потребуется ввести две фиктивные переменные:
х1, …, хт – экономические (количественные) переменные.
Наличие у работника начального образования будет отражено парой значений z1=0, z2=0.
Параметры при фиктивных переменных z1 и z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы (в нашем примере это работники с начальным образованием).
При построении регрессионных моделей по неоднородным данным необходимо выяснить, действительно ли две выборки однородны в регрессионном смысле, можно ли объединить их в одну и рассматривать единую модель регрессии?
Для ответа на этот вопрос можно воспользоваться тестом Г.Чоу.
По каждой выборке строятся две линейные регрессионные модели:
Проверяемая нулевая гипотеза имеет вид – Н0 : b' = b''; D(ε') = D(ε'') = σ2.
Если нулевая гипотеза верна, то две регрессионные модели можно объединить в одну объема п = п1 + п2.
Согласно критерию Г.Чоу нулевая гипотеза Н0 отвергается на уровне значимости α, если статистика
> Fα;m+1;n-2m-2,
где - остаточные суммы квадратов соответственно для объединенной, первой и второй выборок, п = п1 + п2.
Для проверки гипотезы о структурной стабильности тенденции изучаемого временного рядя можно также использовать тест Д.Гуйарати.
Пример 4. Рассмотрим полученную в примере 1 модель зависимости балансовой прибыли предприятия торговли Y (тыс. руб.) от следующих переменных:
Х2 – фонд оплаты труда, тыс. руб.; Х4 – объем продаж по безналичному расчету, тыс. руб.
Известно, что первая выборка значений переменных объемом п1 = 12 получена при одних условиях, а другая, объемом п2 = 12, - при несколько измененных условиях.
Задание: Проверить, адекватно ли предположение об однородности исходных данных в регрессионном смысле. Можно ли объединить две выборки в одну и рассматривать единую модель регрессии Y по Х ?
Решение.
Для проверки предположения об однородности исходных данных в регрессионном смысле применим тест Чоу.
В соответствии со схемой теста построим уравнения регрессии по первым наблюдениям п1 = 12 наблюдениям. Результаты представлены в таблице 8.
Таблица 8
Дисперсионный анализ
df | SS | MS | F | Значимость F | |
Регрессия | 1,02Е+09 | 5,1Е+08 | 11,9033 | 0,002967 | |
Остаток | ЕSS1 = = 3,85Е+08 | 4,3Е+07 | |||
Итого | 1,40Е+09 |
Результаты дисперсионного анализа модели, построенной по оставшимся п1 = 12 наблюдениям, приведены в таблице 9.
Таблица 9.
Дисперсионный анализ
df | SS | MS | F | Значимость F | |
Регрессия | 1,87Е+09 | 9,33Е+08 | 57,1758 | 7,6549Е-06 | |
Остаток | ЕSS2 = = 1,47Е+08 | 1,63Е+07 | |||
Итого | 2,01Е+09 |
Результаты регрессионного и дисперсионного анализа модели, построенной по всем п = п1 + п2 = 24 наблюдениям, представленным в таблице 3 (ЕSS = 6,39Е+08):
Рассчитаем статистику F по формуле:
Находим табличное значение Fрасч = FРАСПОБР(0,05;1;18) = 3,15.
Так как, Fрасч< Fтабл, то справедлива гипотеза Н0, т.е. надо использовать единую модель по всем наблюдениям.