Мультиколлениарность, выявление и устранение
Лабораторная работа 4 - Выявление и устранение мультиколлениарности и гетероскедостичности
Цели и задачи лабораторной работы
В данной лабораторной работе рассмотрим основные алгоритмы выявления и устранения нарушений условий Гаусса-Маркова, при этом будут решаться следующие задачи:
1) Построение регрессионной модели на основе выборочной совокупности;
2) Тестирование наличия мультиколлениарности и построение статистически значимой модели;
3) Тестирование наличия гетероскедостичности и построение статистически значимой модели.
Понятие мультиколлениарности и гетероскедостичности, методы выявления и устранения
Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса-Маркова.
1) Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю.
2) Дисперсия случайного члена должна быть постоянна для всех наблюдений.
3) Отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях.
4) Случайный член должен быть распределен независимо от объясняющих переменных.
5) Зависимая переменная yi (или εi) есть нормально распределенная величина.
Мультиколлениарность, выявление и устранение
Мультиколлениарность – это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии.
Выделим некоторые наиболее характерные признаки мультиколлинеарности.
1) В первую очередь анализируют матрицу R парных коэффициентов корреляции, точнее, ту ее часть, которая относится к объясняющим переменным. Считается, что наличие значений коэффициентов корреляции, по абсолютной величине превосходящих 0,75-0,80, свидетельствует о присутствии мультиколлинеарности.
2) Анализ корреляционной матрицы R позволяет лишь в первом приближении судить о наличии или отсутствии мультиколлинеарности в исходных данных. Более внимательное изучение этого вопроса достигается с помощью расчета значений коэффициентов детерминации R2 каждой из объясняющих переменных хi по всем остальным предикторам X = (х1 ,..., хn)
3) Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели.
4) Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответствующей F-статистики Фишера).
5) Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.
Существует несколько способов борьбы с мультиколлениарностью:
1) Отбор наиболее существенных объясняющих переменных заключается в возможности перехода от исходного числа k анализируемых показателей x1, x2, …, xk к существенно меньшему числу k’ наиболее информативных переменных.
Существует несколько подходов к решению задачи отбора наиболее существенных регрессоров в модель. Остановимся на одном из распространенных, на процедуре последовательного наращивания числа объясняющих переменных, реализуемой в двух версиях: версия «всех возможных регрессий» и версия «пошагового отбора переменных».
а) метод всех возможных регрессий – это самая громоздкая процедура. Она вообще не реализуема без соответствующих пакетов программ. Данный метод требует построения каждого из всех возможных регрессионных уравнений, которые содержат x0 (фиктивная переменная x0=0) и некоторое число переменных x1,…, xk . Поскольку для каждой переменной xi есть всего две возможности: либо входить, либо не входить в уравнение, и это относится ко всем xi то всего будет 2k (для k=10 получаем 210=1024) уравнений. Каждое регрессионное уравнение оценивается с помощью ряда критериев.
б) метод пошагового отбора переменных более экономичен, чем метод всех возможных регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных. Основные шаги этого метода сводятся к следующему:
1) Рассчитывается регрессионное уравнение, включающее все переменные.
2) Вычисляется величина F-критерия для каждой объясняющей переменной в предположении как будто бы она была последней переменной, введенной в регрессионное уравнение.
3) Наименьшая величина частного F-критерия, обозначаемая, как – сравнивается с заранее выбранным критерием значимости F0.
Если FL < F0 то переменная xL которая обеспечила достижение только уровня FL, исключается из рассмотрения и производится перерасчет уравнения регрессии с учетом оставшихся переменных, затем переходят к следующему шагу.
Если FL > F0 то регрессионное уравнение оставляют таким, как оно было рассчитано.
2) Переход к смещенным методам оценивания.