Опишите методы выявления влиятельных наблюдений в задаче множественной регрессии
Мера Кука (Cook’s distance): каждому наблюдению присваивается мера Кука, объекты с большой мерой Кука (> ) – влиятельные, и нам нужно их выкинуть из регрессионной модели.
72. Почему возникает автокорреляция и чем она плоха в случае использования МНК-регрессии?
Из-за естественной взаимосвязи изучаемых явлений, временной и пространственной (сосуществования объектов в едином пространственно-временном континууме).
Из учебника Айвазяна, Мхитаряна: в ситуациях, когда исходные наблюдения регистрируются во времени, регрессионные остатки оказываются коррелированными, а значит, и их ковариационная матрица не может быть диагональной.
Последствия автокорреляции:
1) Неверно рассчитываются стандартные ошибки, а именно они обычно занижаются, т.к. автокорреляция может быть с «+» или с «-». Мы чаще всего отвергаем Н0.
«-»: большему остатку в t соответствует меньший в t+1 (примеры задач из сферы массового обслуживания: приемный день в ЗАГСе)
«+»: приводит к занижению стандартных ошибок (чаще всего в политологических задачах)
2) МНК-оценки сохраняют несмещенность и состоятельность, но утрачивают эффективность (т.к. есть другие несмещенные оценки с меньшей дисперсией). Кроме того, временная автокорреляция (temporal) приводит к нарушению условий Гаусса-Маркова.
73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?
1) Построение box plot, оценить, как «гуляет» медиана.
2) Временной критерий Дарбина-Уотсона, выявляет автокорреляцию первого порядка. d-статистика, d принимает значения [0, 4] если меньше 2, то есть автокорреляция. d= 2(1-R)
3) Статистическая автокорреляционная функция.
74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для МНК-регрессии?
Если в регрессионной модели У=Хb+е регрессоры Х коррелируют с ошибкой е, то они называются эндогенными
Проблема
• Обычные оценки МНК в этом случае
– смещены и
– несостоятельны
• Содержательная интерпретация ошибочна
• Рекомендации, выработанные на основе модели неверны
Причины эндогенности
1. Пропуск существенных переменных
2. Ошибки измерения регрессоров
3. Самоотбор
4. Одновременность
5. Автокорреляция ошибок при наличии в уравнении лага зависимой переменной в роли регрессора
Инструменты
Некие переменные Z, удовлетворяющие требованиям:
• сильной коррелированности с
инструментируемыми эндогенными Х
• некоррелированности с ошибкой
Проблема выбора инструментов
• Инструменты должны браться вне модели
• Требования к инструментам противоречивы:
-Если Z должны сильно коррелировать с Х, а Х должны сильно коррелировать с У, то Z будут сильно коррелировать с У, а, следовательно, коррелировать с ошибкой
Следствия противоречивости требований к инструментам
• Либо инструменты экзогенные (нет корреляции с ошибкой), но слабые (слабо коррелируют с Х)
• Либо инструменты сильные, но эндогенные (сильно коррелируют с ошибкой)
75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для МНК-оценок коэффициентов регрессии?
Гетероскедастичность – это, когда дисперсия ошибок не является постоянной (не выполняется условие) D(e|X)=сигма2.
Это приводит к тому, что:
1) оценки регрессионных коэффициентов являются несмещенными и состоятельными, но не являются наиболее эффективными среди всех МНК-оценок
2) не получается правильно оценить значимость регрессионных коэффициентов, потому что мы неверно оцениваем дисперсию b^. В итоге мы не можем проверять гипотезы на основе такой регрессионной модели, т.к., возможно, будем признавать значимыми незначимые коэффициенты.
Причины гетероскедастичности:
1) есть неучтенный фактор (omitted variable)
2) зависимость между y и предикторами нелинейная (называется неверная функциональная форма регрессии)
3) используются данные, полученные по разной методике
4) среди наблюдений есть «выбросы»