Тема № 10 Множественная линейная регрессия
Экономические показатели обычно зависят не от одного, а от нескольких факторов. Модель множественной линейной регрессии является обобщением линейной регрессии:
,
где у – зависимая переменная, х1, х2, ….хк - объясняющие переменные, α, β1, … βк –коэффициенты регрессии, ε – случайная компонента.
Это уравнение можно записать в компактной форме в виде матрицы:
Y =Xβ +ε.
В модели множественной линейной регрессии метод наименьших квадратов представляет собой обобщение МНК для парной линейной регрессии.
Оцененное уравнение множественной линейной регрессии для всех наблюдений:
ŷ =α+β1хi1 + β2xi2+….+ βkxik, i= 1,2,…,n
Оцененное уравнение в матричной форме: Ŷ =Xβ.
МНК заключается в определении коэффициентов оцененного уравнения из условия минимума суммы квадратов отклонений:
При практическом построении модели линейной регрессии существенен вопрос о значимости ее коэффициентов, вычисленных по конкретной выборке. Обычно формулируются гипотеза о равенстве коэффициентов нулю или о неравенстве. Если абсолютное наблюдаемое значение меньше или равно t-критического, то гипотеза принимается, т.е при определенном уровне значимости коэффициенты значимы.
Критерием качества уравнения регрессии выступает разброс случайной величины у в выборке, на основе которого определяется коэффициент детерминации. Он представляет собой долю вариации зависимой переменной у, объясненную с помощью оцененного уравнения регрессии.
Для оценки значимости коэффициента детерминации используется F-статистика Фишера.
Выдвигается гипотеза о равенстве всех коэффициентов регрессии нулю, при этом альтернативная гипотеза, хотя бы один из коэффициентов отличен от нуля.
Наблюдаемое значение, имеющее распределение Фишера, для множественной регрессии: . Оно сравнивается с критическим значением (таблица Фишера), если наблюдаемое значение больше критического, то коэффициент детерминации считается значимым при выбранном уровне значимости.
Мультиколлинеарность – это значит коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. Следствием мультиколлинеарности является незначимость коэффициентов регрессии. Для определения сильно коррелированных переменных используется матрица частных коэффициентов корреляции. Способы устранения мультиколлинеарности: исключение из уравнения одной или нескольких объясняющих переменных, преобразование переменных.
Кроме проверки значимости коэффициентов и качества уравнения регрессии, необходима проверка выполнения условий Гаусса-Маркова, обеспечивающих несмещенность и эффективность оценок параметров регрессии.
Третье условие Гаусса-Маркова – независимость случайных членов в разных наблюдениях. Если нарушается это условие, т.е. существует связь между случайными переменными, то возникает явление автокорреляции.
В случае положительной автокорреляции, реализация случайного члена εІ для ряда последовательных наблюдений смещают значения зависимой переменной в одном направлении, затем для последовательных наблюдений – в противоположном направлении, потом снова в первоначальном направлении и т.д. При отрицательной автокорреляции каждая реализация случайного члена εІ, как правило, сменяется реализацией случайного члена εІ+1 противоположного знака.
Для обнаружения автокорреляции используется статистика Дарбина - Уотсона: DW = 2 (1-r1).
При положительной автокорреляции DW ≈ 0, при отрицательной DW ≈ 4, при отсутствии DW ≈ 2. Указывают нижнюю и верхнюю границы для критических значений статистики Дарбина - Уотсона. Автокорреляция первого порядка отсутствует, если статистика DW попадает в интервал (du, 4-du). Критерий Дарбина –Уотсона неприменим для моделей, включающих в состав объясняющих переменных лаги зависимой переменной.
Автокорреляцию первого порядка можно устранить простой манипуляцией с моделью.
Выполнение второго условия Гаусса-Маркова - постоянство дисперсии случайного члена εІ – это случай гомоскедастичности.
Если дисперсия случайного члена меняется от наблюдения к наблюдению, то мы имеем дело с гетероскедастичностью. При гетероскедастичности оценки коэффициентов регрессии несмещенные, но неэффективные, следовательно, коэффициенты регрессии не будут значимыми. Для обнаружения гетероскедастичности используются тест Голдфелда – Квандта, а также взвешенные и логарифмические регрессии.
Если дисперсия случайного члена меняется от наблюдения к наблюдению , то мы имеем дело с гетероскедастичностью.
Основная литература: [4, С.90-175], [10], [14]
Дополнительная литература: [20],[22],[23],[25], [32]