Теорема Гаусса-Маркова
Пусть
1. Модель имеет вид ,
2. xi – детерминированная величина,
3. .
Тогда оценки и , полученные по методу наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Доказательство см. Магнус Я.Р. Эконометрика. Начальный курс (с. 41-43).
Выполнение условий теоремы (предпосылок МНК) делает оправданным использование МНК для получения оценок коэффициентов регрессии. Как правило, добавляют еще одну предпосылку: .
Вопрос 4 - Объясненная и остаточная дисперсия. Оценка дисперсии ошибок.
Имеет место разложение общей суммы квадратов отклонений:
= | + | |||
Общая сумма квадратов отклонений | Сумма квадратов отклонений, объясненная регрессией | Остаточная сумма квадратов отклонений |
Все указанные суммы рассчитываются по фактическим и теоретическим значениям признака y.
Зная остаточную сумму квадратов отклонений = , можно найти несмещенную оценку дисперсии ошибок :
.
Квадратный корень из , т.е.
называется стандартной ошибкой регрессии.
Вопрос 5 - Разложение дисперсии. Коэффициент детерминации и его свойства.
Имеет место разложение общей суммы квадратов отклонений:
= | + | |||
Общая сумма квадратов отклонений TSS | Сумма квадратов отклонений, объясненная регрессией RSS | Остаточная сумма квадратов отклонений ESS |
Все указанные суммы рассчитываются по фактическим и теоретическим значениям признака y.
Для оценки качества регрессии используют коэффициент детерминации:
.
Очевидно, что . Чем выше этот коэффициент, тем лучше регрессионное уравнение описывает изучаемую зависимость.
Зачастую используют исправленный (скорректированный) коэффициент детерминации:
,
где k – число регрессоров (без константы!).
Скорректированный коэффициент детерминации позволяет сравнивать уравнения с разными наборами факторов.
Корень из коэффициента детерминации называется индексом корреляции.
Вопрос 6 - Оценка адекватности уравнения линейной регрессии.
Оценка адекватности заключается в расчете коэффициента детерминации (см. вопрос 5). В случае, если его величина признана исследователем достаточно высокой, говорят о том, что модель адекватна.
Вопрос 7 - Тест Фишера для проверки качества регрессии в целом.
Модель множественной регрессии:
Нулевая гипотеза ; Альтернативная .
Как известно, имеет место разложение общей суммы квадратов отклонений:
= | + | |||
Общая сумма квадратов отклонений TSS | Сумма квадратов отклонений, объясненная регрессией RSS | Остаточная сумма квадратов отклонений ESS |
На основе этих данных рассчитываются общая, факторная и остаточная дисперсии: , ; .
Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения, т.е. критерий F:
или
F-статистика используется для проверки нулевой гипотезы H0: Dфакт = Dост. Рассчитанное значение F сравнивается с табличным значением Если рассчитанное значение F превышает табличное значение , то нулевая гипотеза отклоняется и делается вывод о существенности связи, т.е. о значимости уравнения регрессии.
Вопрос 8 - Анализ точности эконометрических моделей на основе парной линейной регрессии.
Дисперсии коэффициентов b0 и b1 парной регрессии рассчитываются как
и .
Квадратные корни из этих коэффициентов называются стандартными ошибками коэффициентов регрессии.
Стандартная ошибка параметра b0:
,
Стандартная ошибка коэффициента регрессии b1:
.
Доверительный интервал, накрывающий истинное значение коэффициента с вероятностью :
.
Подобным образом можно построить интервальный прогноз в точке xk. Для этого определяется стандартная ошибка величины :
.
Интервальный прогноз в точке x: .
Видим, что стандартная ошибка минимальна для и возрастает по мере удаления от . По этой причине экстраполяция линии регрессии, т.е. ее использование вне пределов обследованного диапазона значений объясняющей переменной может привести к значительным погрешностям.
Вопрос 9 - Тест Стьюдента. Интерпретация коэффициентов.
С помощью теста Стьюдента возможно оценить значимость отдельного коэффициента.
Нулевая гипотеза ; Альтернативная
Оценка значимости коэффициентов регрессии может быть проведена с помощью критерия Стьюдента:
,
где bi – коэффициент регрессии при факторе xi, - средняя квадратическая ошибка коэффициента регрессии:
,
где - с.к.о. зависимой переменной y, - коэффициент детерминации для уравнения регрессии, - с.к.о. фактора xi, - коэффициент детерминации для зависимости фактора xi со всеми прочими факторами уравнения регрессии.
Если рассчитанное значение превышает табличное значение , то уравнение регрессии значимо.
Возможна и проверка односторонних гипотез.
Правосторонняя гипотеза: .
Рассчитывается значение: .
Нулевая гипотеза принимается, если рассчитанное значение не превышает табличное значение : < .
Левосторонняя гипотеза: .
Рассчитывается значение: .
Нулевая гипотеза принимается, если > - .
Вопрос 10 - Модели сезонных явлений и применение фиктивных переменных при моделировании сезонности.
Различают аддитивную и мультипликативную модели временного ряда. Пусть Т – трендовая, S – сезонная, E – случайная составляющие.
Аддитивная модель: Y = T + S + E.
Мультипликативная модель: Y = T*S*E.
Аддитивной моделью пользуются, когда амплитуда сезонных колебаний примерно постоянна. Если же амплитуда возрастает или уменьшается, пользуются мультипликативной моделью.
Процесс построения моделей сводится к расчету значений T, S, E для каждого уровня ряда. Процесс построения включает в себя:
1) Выравнивание исходного ряда методом скользящей средней.
2) Расчет значений S сезонной компоненты.
3) Устранение сезонной компоненты, получение выравненных данных (T+E) или T*E.
4) Аналитическое выравнивание уровней (T+E) или T*E и расчет значений Т с использованием полученного уравнения тренда.
5) Расчет значений T+S или T*S.
6) Расчет ошибок.
Сезонные колебания можно моделировать с помощью фиктивных переменных. Для этого должна быть известна периодичность k циклических колебаний. Тогда вводится k-1 фиктивных переменных вида:
;
Тогда модель регрессии с фиктивными переменными:
.
Вопрос 11 - Множественная регрессия: основные понятия и формулы.
Модель множественной линейной регрессии – это модель вида:
.
В каждом конкретном случае величина y складывается из двух слагаемых:
,
где (ошибка) – случайная переменная, характеризующая отклонение от функции регрессии.
Как и в случае парной регрессии, имеет место разложение общей суммы квадратов отклонений:
= | + | |||
Общая сумма квадратов отклонений (Sобщ) | Сумма квадратов отклонений, объясненная регрессией (факторная сумма Sфакт) | Остаточная сумма квадратов отклонений (Sост) |
Качество построенной модели в целом оценивает коэффициент множественной детерминации:
.
Можно сделать поправку на число степеней свободы и рассчитать исправленный коэффициент множественной детерминации:
,
где n – число наблюдений, p – число факторов модели линейной регрессии.
Корень из коэффициента множественной детерминации называется индексом множественной корреляции.
Проверка значимости регрессии в целом и значимости отдельных коэффициентов – см. вопросы 7, 9.
Информационный критерий — применяемая в эконометрике (статистике) мера относительного качества эконометрических (статистических) моделей, учитывающая степень «подгонки» модели под данные с корректировкой (штрафом) на используемое количество оцениваемых параметров.
Информационные критерии используются исключительно для сравнения моделей между собой, без содержательной интерпретации значений этих критериев (при этом сравниваемые модели строятся по одному и тому же набору исходных данных). Они не позволяют тестировать модели в смысле проверки статистических гипотез. Обычно чем меньше значения критериев, тем выше относительное качество модели.
Критерий Акаике:
.
Чем меньше значение критерия, тем лучше модель. Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.
Критерий Шварца (Байесовский информационный критерий):
.
Схема применения – та же, что и для критерия Акаике.
Вопрос 12 - Простейшие случаи криволинейной корреляции. Линеаризация.
Модель нелинейной регрессии:
,
где f – некоторая нелинейная функция.
Построение нелинейной регрессионной модели начинается с выбора спецификации, то есть выбора вида функции f. Выбор производится на основании наблюдения расположения точек корреляционного поля.
Нелинейные регрессии можно разделить на два основных класса:
1) Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам. К этому классу относятся, например, полиномиальные модели вида . Такие нелинейные модели простым преобразованием (заменой) переменных сводятся к множественной линейной регрессионной модели. Например, в случае полиномиальной фунции полагаем: и получаем уравнение . Его параметры можно оценить с помощью метода наименьших квадратов.
2) Регрессии, нелинейные по оцениваемым параметрам. В свою очередь этот класс делится на:
- внутренне линейные, когда с помощью преобразований возможно привести модель к линейному виду;
- внутренне нелинейные (на семинаре не рассматриваются).
Рассмотрим некоторые примеры внутренне линейных моделей.
- Степенная . Для оценки параметров модели линеаризуем модель путем логарифмирования: .
- Экспоненциальная . Для линеаризации логарифмируем: .
- Обратная функция . Для линеаризации необходимо обратить обе части равенства: .
В моделях, нелинейных по оцениваемому параметру, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям, а, значит, критерий МНК также применяется к преобразованным величинам, т.е. к и т.п. Следствием этого является смещенность оценок параметров таких моделей.
Интерпретация коэффициентов нелинейной регрессии затруднительна, поэтому используют коэффициенты эластичности. Коэффициент эластичности показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1%. Формула для его расчета:
,
где - первая производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи.
Ниже приведены коэффициенты эластичности для ряда функций.
Функция y | Коэффициент эластичности Э |
Линейная | |
Парабола второго порядка | |
Гипербола | |
Показательная | |
Степенная | |
Полулогарифмическая | |
Обратная |
Уравнение нелинейной регрессии дополняется коэффициентом (индексом) детерминации:
.
Корень из индекса детерминации называется индексом корреляции R.
На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все методы проверки гипотез, используемые для классических линейных моделей регрессии.
Вопрос 13 - Скорректированный коэффициент детерминации.
См. вопрос 5.
Вопрос 14 - Обнаружение и корректировка ошибок спецификации. Тест Лагранжа
Выбор вида эконометрической модели определяет и качество анализа, и правильность результатов прогнозирования. Естественно, что заранее неизвестно, какая модель окажется верной и, тем более, наилучшей.
Основные типы ошибок спецификации:
1.Отбрасывание значимой переменной. Приводит к смещенности оценок коэффициентов регрессии. К тому же приводит к существенному уменьшению R2.
2. Добавление незначимой переменной. Приводит к неэффективности оценок коэффициентов (уменьшится их точность, т.к. увеличатся стандартные ошибки).
3. Выбор неправильной функциональной формы. Приводит к смещенности оценок либо к ухудшению статистических свойств оценок коэффициентов.
Если в уравнении имеется одна несущественная переменная, то она обнаружит себя по низкой t-статистике. В дальнейшем эту переменную следует исключить из модели.
Если в уравнении несколько статистически незначимых объясняющих переменных, то следует построить другое, не содержащее этих переменных (либо наоборот ввести новые при низком значении первоначального коэффициента детерминации).
Предположим, что по n наблюдениям построено уравнение с m факторами:
Коэффициент детерминации для этой модели равен . Исключим из рассмотрения k объясняющих переменных (не нарушая общности, положим, что это будут k последних переменных) и по тем же п наблюдениям построим другое уравнение регрессии для оставшихся факторов:
для которого коэффициент детерминации равен . Очевидно, < .
Для ответа на вопрос, существенно ли ухудшилось качество модели, проверяют гипотезу . Для этого рассчитывают значение критерия Фишера:
Если F > , то нулевая гипотеза отклоняется, исключение k факторов из модели некорректно. В противном случае факторы можно исключить из модели.
Этот же метод используется, когда стоит вопрос о включении в модель k факторов. В этом случае исходным будет второе уравнение, а новым – первое.
Однако этот метод довольно грубый. К более тонким методам обнаружения ошибок спецификации относятся метод Лагранжа и метод RESET Рамсея.
Рассмотрим подробно первый из них.
Метод множителей Лагранжа основан на изучении поведения остатков модели: e = f(y). По виду этой зависимости делается предположение о необходимых направлениях уточнения модели. Например, вводятся k нелинейных регрессоров. Для вновь построенной модели определяют R2. Доказано, что при большом объеме выборки п произведение имеет -распределение с числом степеней свободы k, равным числу добавленных регрессоров модели. На этом основании построенная статистика сравнивается с соответствующей критической точкой . Если > ,то первоначально выбранная модель должна быть отклонена в пользу вновь построенной.
Вопрос 15- Понятие временного ряда. Тренд. Циклическая и случайная компоненты.
Последовательность наблюдений одного показателя (признака), упорядоченных в зависимости от последовательно возрастающих или убывающих значений другого показателя (признака), называют динамическим рядом, или рядом динамики. Если в качестве признака, по которому проводят упорядочение, берется время, то такой динамический ряд называется временным рядом.
При изучении последовательных наблюдений экономических показателей все три приведенных выше термина используются как равнозначные. Составными элементами рядов динамики являются, таким образом, цифровые значения показателя, называемые уровнями этих рядов, и моменты или интервалы времени, к которым относятся эти уровни.
Временные ряды, образованные показателями, характеризующими экономическое явление на определенные моменты времени, называются моментными.
Если уровни временного ряда образуются путем агрегирования за определенный промежуток (интервал) времени, то такие ряды называются интервальными временными рядами.
Временные ряды могут быть образованы как из абсолютных значений экономических показателей, так и из средних или относительных величин — это производные ряды.
Под длиной временного ряда понимают время, прошедшее от начального момента наблюдения до конечного. Часто длиной ряда называют количество уровней, входящих во временной ряд.
В отличие от анализа случайных выборок в эконометрике, анализ временных рядов основывается на предположении, что данные наблюдаются через равные промежутки времени (тогда как ранее нам не была важна последовательность наблюдений ко времени).
Анализ временных рядов преследует две основные цели: определение природы ряда и прогнозирование (т.е. предсказание будущих значений временного ряда по настоящим и прошлым значениям). Эти цели достижимы, если модель ряда идентифицирована с определенной адекватностью и точностью. Если модель определена, то с ее помощью интерпретировать имеющиеся и экстраполировать ряд, т.е. предсказать его будущие значения.
в общем случае динамический (временной) ряд при построении регрессионной модели представляется следующими составляющими:
- тренд;
- циклическая (чаще всего сезонная) компонента;
- случайная компонента.
Различают аддитивную и мультипликативную модели временного ряда. Пусть Т – трендовая, S – сезонная, E – случайная составляющие.
Аддитивная модель: Y = T + S + E.
Мультипликативная модель: Y = T*S*E.
Аддитивной моделью пользуются, когда амплитуда сезонных колебаний примерно постоянна. Если же амплитуда возрастает или уменьшается, пользуются мультипликативной моделью.
Основная цель регрессионного анализа временных рядов – выявить систематические компоненты и оценить характер нерегулярности в названной случайной составляющей.
Вопрос 16 -Тест на незначимость группы коэффициентов.
Рассматривается множественная линейная регрессия:
.
Неоходимо проверить нулевую гипотезу (q последних коэффициентов равны нулю) против альтернативной Н1: хотя бы один из них не равен 0.
В этой ситуации исходная регрессия называется регрессией без ограничений, а регрессия с q исключенными регрессорами - регрессией с ограничениями. Обозначим соответствующие им суммы квадратов остатков через ESSUR (без ограничений) и ESSR (с ограничениями). Если верна нулевая гипотеза, то статистика
имеет распределение Фишера с q и n-p степенями свободы. Если , то на уровне значимости нулевая гипотеза отвергается, т.е. хотя бы один коэффициент из группы отличен от нуля.
Вопрос 17 -Косвенный МНК
Дана система взаимозависимых уравнений:
В матричной форме система будет иметь вид:
или BY = AX + U.
Форма записи системы, когда ее уравнения содержат эндогенные переменные в качестве аргументов, называется структурной.
Каждое уравнение системы одновременных уравнений не может рассматриваться самостоятельно, и для нахождения его параметров традиционный метод наименьших квадратов неприменим:
1. Существует причинно-следственная зависимость между объясняющими переменными в уравнениях. Так, в первом уравнении системы y1 есть функция от y2, а во втором уравнении – уже y2 есть функция от y1;
2. Факторы в такой системе мультиколлинеарны. Как следует из 2-го уравнения системы, y2 зависит от x. Но в других уравнениях системы признаки x и y2 фигурируют как факторные (объясняющие переменные);
3. Случайные составляющие оказываются коррелированными с объясняющими переменными.
Совокупное действие перечисленных причин приводит к тому, что нарушается предпосылка о нестохастичности (неслучайности) объясняющих переменных. В результате оценки параметров получаются смещенными и несостоятельными.
Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных:
или Y = DX + E.
По виду она не отличается от системы независимых переменных, так что ее параметры можно оценить с помощью МНК. После этого можно приступать к оценке значений эндогенных переменных y, подставляя в приведенную модель значения факторов x.
Коэффициенты d матрицы коэффициентов D приведенной модели можно выразить через коэффициенты структурной модели. Для этого следует умножить обе части матричного уравнения BY = AX + U на B-1 слева (заметим, что все требования к числам строк и столбцов умножаемых матриц при этом соблюдены), т.е.
Т.о. D=B-1A.
К сожалению, приведенная форма модели не так наглядно отражает взаимозависимость эндогенных переменных между собой. Поэтому от приведенной модели переходят обратно к структурной. В общем случае, параметры a, b структурной модели определяются из матричного уравнения:
BD – A = 0 или BD = A.
Для его решения элементы матрицы BD приравниваем соответствующим элементам матрицы А. Получаем k*n уравнений из которых определяем параметры a и b структурной модели. Однозначно сделать это возможно, только если система строго идентифицируема.
В случае строго идентифицируемой системы описанная процедура нахождения коэффициентов a и b по коэффициентам приведенной модели называется косвенным методом наименьших квадратов.
Вопрос 18 - Двухшаговый МНК.
О системах эконометрических уравнений см. вопрос 17.
В том случае, если система сверхидентифицируема, то КМНК не используется. Однако в определенных случаях от сверхидентифицируемого уравнения требуется переход к его точной идентификации, хотя бы в определенных условиях. Разрешить проблему можно при помощи двухшагового метода наименьших квадратов.
Двухшаговый метод наименьших квадратов заключается в следующем:
- Составляют приведенную форму модели и определяют параметры каждого ее уравнения обычным МНК;
- Выявляют эндогенные переменные, находящиеся в правой части структурного уравнения, и находят расчетные значения по соответствующим уравнениям приведенной формы модели;
- Обычным МНК определяют параметры структурного уравнения, используя в качестве исходных данных фактические значения экзогенных переменных и расчетные значения эндогенных переменных, стоящих в правой части структурного уравнения.
Вопрос 19 -Проверка нарушения предпосылок метода наименьших квадратов. Гетероскедастичность дисперсии.
При оценке параметров уравнения регрессии применяется метод наименьших квадратов. При этом делаются определенные предпосылки относительно случайной составляющей ε. В модели линейной регрессии
случайная составляющая представляет собой ненаблюдаемую величину. После того как проведена оценка параметров модели, рассчитав разности фактических и теоретических значений признака y, можно определить оценки случайной составляющей . Их можно считать некоторой выборочной реализацией неизвестного остатка, т.е. .
При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование остатков.
Исследование остатков предполагает проверку следующих пяти предпосылок метода наименьших квадратов:
1) Случайный характер остатков;
2) Нулевая средняя величина остатков, не зависящая от ;
3) Дисперсия каждого отклонения одинакова для всех значений x (гомоскедастичность);
4) Значения остатков распределены независимо друг от друга (отсутствие автокорреляции);
5) Остатки подчиняются нормальному распределению.
В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют постоянную дисперсию. Если это условие МНК не соблюдается, то имеет место гетероскедастичность.
Наличие гетероскедастичности в отдельных случаях может привести к смещенности оценок коэффициентов регрессии (хотя смещенность зависит в основном от выполнения 2-й предпосылки). Гетероскедастичность будет сказываться на уменьшении эффективности оценок .
Для выявления гетероскедастичности можно использовать тест Уайта.
Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратическую функцию от значений факторов, т.е. при наличии p факторов:
.
Модель включает в себя не только квадраты, но и попарные произведения. Возможна и спецификация модели без попарных произведений.
О наличии или отсутствии гетероскедастичности судят по величине F-критерия Фишера для квадратичной функции регрессии остатков. Если фактическое значение F-критерия выше табличного (или p-значение меньше уровня значимости α), то квадратическая регрессия значима и, значит, имеет место гетероскедастичность остатков. В противном случае делается вывод об отсутствии гетероскедастичности.
Вопрос 20 -Проблема идентифицируемости в системах одновременных уравнений.
Идентификация – это единственность соответствия между приведенной и структурной формами. Под проблемой идентификации понимается возможность численной оценки параметров структурных уравнений по оценкам коэффициентов приведенных уравнений.
Исходную систему уравнений называют идентифицируемой (точно определенной), если по коэффициентам приведенных уравнений можно однозначно определить значения коэффициентов структурных уравнений. Это возможно, если число параметров структурной модели равно числу параметров приведенной модели, как в приведенном выше примере.
Исходную систему уравнений называют неидентифицируемой (недоопределенной), если по коэффициентам приведенных уравнений можно получить несколько вариантов значений коэффициентов структурных уравнений. Так случается, когда число приведенных коэффициентов меньше числа структурных коэффициентов. В этом случае можно, задавшись значениями отдельных коэффициентов структурной модели (например, положив их равными нулю), оценить остальные коэффициенты.
Исходную систему уравнений называют сверхидентифицируемой (переопределенной), если по коэффициентам приведенных уравнений невозможно определить значения коэффициентов структурных уравнений. В этом случае система, связывающая коэффициенты структурных уравнений с коэффициентами приведенных уравнений, является несовместной. Число приведенных коэффициентов больше числа структурных коэффициентов.
Структурная модель всегда представляет собой систему уравнений, каждое из которых необходимо проверять на идентификацию. Модель идентифицируема, если каждое уравнение идентифицируемо. Если хотя бы одно уравнение неидентифицируемо (сверхидентифицируемо), то и вся модель неидентифицируема (сверхидентифицируема).
Необходимое условие идентифицируемости.
Пусть Hj – число эндогенных переменных в j-м уравнении, Dj – число экзогенных переменных, отсутствующих в данном уравнении (но присутствующих в системе). Тогда:
D + 1 = H – j-е уравнение идентифицируемо;
D + 1 < H – j-е уравнение неидентифицируемо;
D + 1 > H – j-е уравнение сверхидентифицируемо.
С помощью этого признака легко проверить, что оба уравнения модели из примера идентифицируемы.
Достаточное условие идентифицируемости.
Уравнение идентифицируемо, если по отсутствующим в нем переменным (экзогенным и эндогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, ранг которой не меньше, чем число k – 1, где k – число эндогенных переменных в системе.
В том случае, если модель идентифицируема, можно применить косвенный МНК: оценить параметры приведенной модели с помощью обычного МНК, а затем перейти от приведенной формы к структурной. Если система сверхидентифицируема, используют двухшаговый МНК.
Вопрос 21- Проверка на гетероскедастичность. Тест ранговой корреляции Спирмена.