Методы подбора переменных в модели множественной регрессии
Множественная регрессия имеет вид
Е[Y/ x1, x2….. xm]=f (x1,x2….xm)
Уравнение множественной регрессии:
Y=f(β, X)+ ε
Где (x1,x2….xm)- вектор объясняющих переменных,
β -вектор параметров ( подлежащих определению),
ε – вектор случайных ошибок(отклонений)
Y – зависимая переменная
С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами:
• иметь высокую вариабельность;
• быть сильно коррелированными с объясняемой переменной;
• быть слабо коррелированными между собой;
• быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих.
Объясняющие переменные подбираются с помощью статистических методов. Процедура подбора переменных состоит из следующих этапов:
1. На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать
2. Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных в виде
3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности.
4. Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными.
5. Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры.
Речь идет о том, чтобы объясняющие переменные хорошо представляли те переменные, которые не были включены в модель.
Идея метода показателей информационной емкости сводится к выбору таких объясняющих переменных, которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор и матрица R.
Рассматриваются все комбинации потенциальных объясняющих переменных, общее количество которых составляет I = 2W-1. Для каждой комбинации потенциальных объясняющих переменных рассчитываются индивидуальные и интегральные показатели информационной емкости.
Индивидуальные показатели информационной емкости в рамках конкретной комбинации рассчитываются по формуле
; (l=1,2,…,L; j=1,2,… ), где l – номер переменной, – количество переменных в рассматриваемой комбинации.
Интегральныерассчитываются по формуле
, (l=1,2,…,L). В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателя и формационной емкости.