Проблема идентификации. Неидентифицируемость и сверхидентифицированность

При переходе от приведенной формы модели к структурной исследователь сталкивается с проблемой идентификации. Идентификация - это единственность соответствия между приведенной и структурной формами модели.
С позиции идентифицируемости структурные модели можно подразделить на три вида: идентифицируемые; неидентифицируемые; сверхидентифицируемые.
Модель идентифицируема, если все структурные ее коэффициенты опре-деляются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели. В этом случае структурные коэффициенты модели оцениваются через параметры приведенной формы модели и модель идентифицируема.
Модель неидентифицируема, если число приведенных коэффициентов меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели.

Модель сверхидентифицируема, если число приведенных коэффициентов больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно получить два или более зна-чений одного структурного коэффициента. В этой модели число структурных коэффициентов меньше числа коэффициентов приведенной формы.
Сверхидентифицируемая модель, в отличие от неидентифицируемой, модели практически решаема, но требует для этого специальных методов исчисления параметров.
Структурная модель всегда представляет собой систему совместных уравнений, каждое из которых требуется проверять на идентификацию. Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение.

Выполнение условия идентифицируемости модели проверяется для каждого уравнения системы. Чтобы уравнение было идентифицируемо, необходимо, чтобы число предопределенных переменных, отсутствующих в данном уравне-нии, но присутствующих в системе, было равно числу эндогенных переменных в данном уравнении без одного.
Обозначим через H - число эндогенных переменных в уравнении, а через D - число предопределенных переменных, отсутствующих в уравнении, но присутствующих в системе. Тогда необходимое условие идентификации отдельного уравнения принимает вид:
уравнение идентифицируемо, если D + 1 = H;
уравнение неидентифицируемо, если D + 1 < H;
уравнение сверхидентифицируемо, если D + 1 > Н.
Если необходимое условие выполнено, то далее проверяется достаточное условие идентификации

31. Пошаговая регрессия

Шаговая регрессия (stepwise regression)

Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии F-тестов, t-тестов или других подходах.

Основные подходы

Прямое включение (прямая пошаговая регрессия)

Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.

Исключение переменной (обратная пошаговая регрессия)

Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.

Пошаговый подход

На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.

Алгоритмы

Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение регрессии и после проверяется их значимость. Факторы поочередно вводятся в уравнение так называемым "прямым методом". При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции. Одновременно используется и обратный метод, т.е. исключение факторов, ставших незначимыми на основе t-критерия Стьюдента. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициент регрессии не изменяется (или меняется несущественно), то данный признак существен и его включение в уравнение регрессии необходимо.

Недостатки

§ Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru для данного количества предикатов. Из-за корреляций между предикатами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикатов.

§ Часто для выбора добавляемой или удаляемой переменной используется последовательность F-тестов Фишера, который проводятся на одних и тех же данных, что приводит к проблеме проблеме множественных сравнений. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.

§ P-Value зависит от результата предшествующих тестов, что усложняет их интерпретацию.

§ Тесты являются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)

----------

Цель пошаговой регрессии (stepwise regression) состоит в отборе из большого количества предикторов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной.

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

В этой процедуре предикторы вводят или выводят из уравнения регрессии по очереди. Существует несколько подходов к выполнению пошаговой регрессии,

Прямое включение (прямая пошаговая регрессия). Вначале уравнение регрессии не содер жит предикторов. Они вводятся по одному, если они удовлетворяют определенному F- критерию. В основе порядка введения включаемых переменных лежит вклад перемен ной в объясняемую вариацию.

Обратная пошаговая регрессия — исключение переменной. Вначале все предикторы входят в уравнение регрессии. Затем по очереди выводятся из уравнения, исходя из их соответствия F- критерию.

Пошаговый подход. На каждой стадии прямое включение осуществляют одновременно с выводом предикторов, которые больше не удовлетворяют конкретному критерию.

Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации Я: для данного числа предикторов. Из-за корреляций между предикторами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикторов, как это показано на следующем примере.

32. Тест Чоу

Тест Чоу (англ. Chow test) — применяемая в эконометрике процедура проверки стабильности параметров регрессионной модели, наличия структурных сдвигов в выборке. Фактически тест проверяет неоднородность выборки в контексте регрессионной модели.

Истинные значения параметров модели могут теоретически различаться для разных выборок, так как выборки могут быть неоднородны. В частности, при анализе временных рядов может иметь место так называемый структурный сдвиг, когда со временем изменились фундаментальные характеристики изучаемой системы. Это означает, что модель до этого сдвига и модель после сдвига вообще говоря разные. Например, экономика в 1998—1999 году и в 2008—2009 годах претерпевала структурные изменения в связи с кризисными явлениями, поэтому параметры макроэкономических моделей могут быть разными, до и после этих моментов.

Проверку наличия (или отсутствия) в выборочных данных структурных изменений можно выполнить также при помощи теста Чоу.

Нередки случаи, когда имеются две выборки пар значений зависимой и объясняющих переменных Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru . Например, одна выборка пар значений переменных объемом Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru получена при одних условиях, а другая, объемом Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru , — при несколько измененных условиях. Необходимо выяснить, действительно ли две выборки однородны в регрессионном смысле? Другими словами, можно ли объединить две выборки в одну и рассматривать единую модель регрессии Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru по Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru ? Это можно выяснить с помощью теста Чоу.

Алгоритм теста Чоу:

1) Оцениваем первоначальную модель. Рассчитываем сумму квадратов отклонений (ESS0)

2) Разбиваем выборку на две части: до изменения и после изменения. Оцениваем каждую выборку и вычисляем для каждой сумму квадратов отклонений (ESS1 и ESS2) .

3) Вычисляем статистику Чоу: Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

4) Вычисляем критическое значение F статистики при помощи Excel (функция Fраспобр с параметрами Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

5)Проверяем неравенство Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru Fкр. Если неравенство выполняется структурные изменения незначительно влияют.

Исходные данные, которые не обладают определенностью, т.е. имеется излом тенденции, можно моделировать с помощью следующих способов:

1. Разделить имеющиеся данные на однородные участки и рассмотреть каждый участок в отдельности, Применяется, когда излом тенденции значительный, а выборка позволяет разбить ее на 2 подвыборки (выборка должна быть большая).

2. Построить единую модель по всем данным. Используется, если излом тенденции несущественен и объем выборки не позволяет разбить ее на 2 части.

3. Ввести в модель фиктивные переменные, т.е. получить кусочно-линейные регрессионные модели, которые позволяют, с одной стороны, не разбивать исходную выборку, с другой – улучшить качество подгонки уравнений.

33. Оценивание системы одновременных уравнений.

Методы оценки систем одновременных уравнений

Непосредственное применение обычного метода наименьших квадратов для оценки уравнений системы (в структурной форме) нецелесообразно, так как в системах одновременных уравнений нарушается важнейшее условие регрессионного анализа — экзогенность факторов. Это приводит к тому, что оценки параметров будут смещёнными и несостоятельными.

Косвенный метод наименьших квадратов[править | править вики-текст]

Обычный метод наименьших квадратов можно применить для приведённой формы системы, так как в этой форме все факторы предполагаются экзогенными. Сущность косвенного метода наименьших квадратов (КМНК, ILS) заключается в том, чтобы оценить структурные коэффициенты, подставив в аналитическое выражение их зависимости от приведённых оценок последних, полученных обычным методом наименьших квадратов. Полученные оценки будут состоятельными.

Применение косвенного метода наименьших квадратов возможно только при точной идентифицируемости системы. Однако, часто уравнения системы оказываются сверхидентифицированными. В этом случае существуют несколько асимптотически эквивалентных, но разных оценок параметров структурной формы и в общем случае нет критерия выбора между ними.

Двухшаговый метод наименьших квадратов[править | править вики-текст]

Суть двухшагового метода наименьших квадратов (ДМНК, TSLS, 2SLS) заключается в следующем:

Шаг 1. Обычным методом наименьших квадратов оценивается зависимость эндогенных переменных от всех экзогенных (фактически оценивается неограниченная приведённая форма).

Шаг 2. Обычным методом наименьших квадратов оценивается структурная форма модели, где вместо эндогенных переменных используются их оценки, полученные на первом шаге

При точной идентифицируемости системы ДМНК-оценки совпадают с КМНК-оценками.

Можно показать, что ДМНК-оценки параметров каждого уравнения фактически равны:

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

где Z - матрица всех переменных правой части данного уравнения, X - матрица всех экзогенных переменных системы.

Трехшаговый МНК[править | править вики-текст]

В двухшаговом методе наименьших квадратов по сути каждое уравнение структурной формы оценивается независимо от других уравнений, то есть не учитывается возможная взаимосвязь случайных ошибок уравнений структурной формы между собой. В трёхшаговом методе наименьших квадратов (ТМНК, 3SLS) первые два шага совпадают с ДМНК и добавляется:

Шаг 3. На основе ДМНК-оценок остатков структурных уравнений получают оценку ковариационной матрицы вектора случайных ошибок системы и с её помощью получают новую оценку коэффициентов с помощью обобщенного метода наименьших квадратов.

При наличии корреляций между уравнениями ТМНК-оценки теоретически должны быть лучше ДМНК-оценок.

34. Фиктивные переменные

Фиктивная переменная (англ. dummy variable) — качественная переменная, принимающая значения 0 и 1, включаемая в эконометрическую модель для учёта влияния качественных признаков и событий на объясняемую переменную. При этом фиктивные переменные позволяют учесть влияние не только качественных признаков, принимающих два значения, но и несколько возможных. В этом случае добавляются несколько фиктивных переменных. Фиктивная переменная может быть также индикатором принадлежности наблюдения к некоторой подвыборке. Последнее можно использовать для обнаружения структурных изменений.

Фиктивные переменные При исследовании влияния качественных признаков в модель можно вводить фиктивные переменные принимающие как правило два значения единицу если данный признак присутствует в наблюдении и ноль при его отсутствие

--------

Фиктивной переменной (dummy variable) называется атрибутивный или качественный фактор, представленный посредством определённого цифрового кода.

Наиболее наглядным примером применения фиктивных переменных является модель регрессии, отражающая проблему разрыва в заработной плате у мужчин и женщин.

Предположим, что на основе собранных данных была построена модель регрессии, отражающая зависимость заработной платы рабочих y от их возраста х:

yt=?0+?1xt.

Однако данная модель регрессии не может в полной мере охарактеризовать вариацию результативной переменной. Поэтому в модель необходимо ввести дополнительный фактор, например пол, на основании предположения о том, что у мужчин в среднем заработная плата выше, чем у женщин. В связи с тем, что переменная пола является качественной, её необходимо представить в виде фиктивной переменной следующим образом:

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

С учётом новой фиктивной переменной модель регрессии примет вид:

y=?0+?1x+?2D,

где ?2 – это коэффициент, который характеризует в среднем разницу в заработной плате у мужчин и женщин.

35. Модели с распределенными лагами и модели авторегрессии

Моделью с распределённым лагом называется динамическая эконометрическая модель, в которую включены не только текущие, но и лаговые значения факторных переменных.

С помощью модели с распределённым лагом можно охарактеризовать влияние изменения факторной переменной х на дальнейшее изменение результативной переменной у, т. е. изменение х в момент времени t будет оказывать влияние на значение переменной у в течение L следующих моментов времени.

Пример модели с распределённым лагом:

yt=?0+?1xt+?2xt–1+…+?Lxt–L+?t.

Краткосрочным мультипликатором называется коэффициент ?1 модели с распределённым лагом

Краткосрочный мультипликатор характеризует среднее абсолютное изменение переменнойyt при изменении переменной xt на единицу своего измерения в конкретный момент времени t при элиминировании влияния лаговых значений переменной х.

Коэффициент ?2 модели с распределённым лагом характеризует среднее абсолютное изменение переменной yt в результате изменения переменной х на единицу своего измерения в момент времени t–1.

Промежуточным мультипликатором называется сумма коэффициентов ?1и ?2 модели с распределённым лагом.

Промежуточный мультипликатор характеризует совокупное влияние факторной переменнойх на переменную у в момент времени (t+1). Таким образом, изменение переменной х на единицу в момент времени t вызывает изменение переменной у на ?1 единиц в момент времени t и изменение переменной у на ?2 в момент времени (t+1).

Средним лагом называется средний период времени, в течение которого будет происходить изменение результативной переменной у под влиянием изменения факторной переменной хв момент t:

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

Если величина среднего лага небольшая, то переменная у достаточно быстро реагирует на изменение факторной переменной х.

Если величина среднего лага большая, то факторная переменная х медленно воздействует на результативную переменную у.

Медианным лагом называется период времени, в течение которого с момента начала изменения факторной переменной х будет реализована половина её общего воздействия на результативную переменную у.

Оценки неизвестных коэффициентов модели с распределённым лагом традиционным методом наименьших квадратов рассчитать нельзя по трём причинами:

1) нарушение первого условия нормальной линейной модели регрессии, т. е. наличие корреляции между текущими и лаговыми значениями факторной переменной;

2) при большой величине лага L уменьшается количество наблюдений, по которым строится модель регрессии и увеличивается число факторных переменных (xt,xt–1,xt–2,…), что в конечном результате ведёт к потере числа степеней свободы в модели;

3) наличие проблема автокорреляции остатков.

Данные причины в итоге ведут к нестабильности оценок коэффициентов регрессии, вычисленных с помощью метода наименьших квадратов.

Оценки неизвестных коэффициентов моделей с распределённым лагом рассчитывают с помощью специальных методов, чаще всего с использованием метода Алмон и метода Койка.

-------------------

В эконометрике к числу динамических относятся не все модели, построенные по временным рядам данных. Термин «динамический» в данном случае характеризует каждый момент времени t в отдельности, а не весь период, для которого строится модель. Эконометрическая модель является динамической, если в данный момент времени она учитывает значения входящих в нее переменных, относящиеся как к текущему, так и к: предыдущим моментам времени, т. е. если эта модель отражает динамику исследуемых переменных в каждый момент времени.

Можно выделить два основных типа динамических эконометрических моделей. К моделям первого типа относятся модели aвторегрессии и модели с распределенным лагом, в которых значения переменной за прошлые периоды времени (лаговые переменные) непосредственно включены в модель. Модели второго типа учитывают динамическую информацию в неявном виде. В эти модели включены переменные, характеризующие ожидаемый или желаемый уровень результата, или одного из факторов в момент времени t. Этот уровень считается неизвестным и определяется экономическими единицами с учетом информации, которой они располагают в момент Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru .

В зависимости от способа определения ожидаемых значений показателей различают модели неполной корректировки, адаптивных ожиданий и рациональных ожиданий. Оценка параметров этих моделей сводится к оценке параметров моделей авторегрессии.

При исследовании экономических процессов нередко приходится моделировать ситуации, когда значение результативного признака в текущий момент времени t формируется под воздействием ряда факторов, действовавших в прошлые моменты времени Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru , Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru , ..., Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru . Например, на выручку от реализации или прибыль компании текущего периода могут оказывать влияние расходы на рекламу или поведение маркетинговых исследований сделанные компанией в предшествующие моменты времени. Величину l, характеризующую запаздывание в воздействии фактора на результат, называют в эконометрике лагом, а временные ряды самих факторных переменных, сдвинутые на один или более моментов времени, – лаговыми переменными.

Разработка экономической политики как на макро-, так и на микроуровне требует решения обратного типа задач, т. е. задач, определяющих, какое воздействие окажут значения управляемых переменных текущего периода на будущие значения экономических показателей. Например, как повлияют инвестиции в промышленность на валовую добавленную стоимость этой отрасли экономики будущих периодов или как может измениться объем ВВП, произведенного в периоде (t + 1), под воздействием увеличения денежной массы в периоде t?

Эконометрическое моделирование охарактеризованных выше процессов осуществляется с применением моделей, содержащих не только текущие, но и лаговые значения факторных переменных. Эти модели называются моделями с распределенным лагом. Модель вида

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

является примером модели с распределенным лагом.

Наряду с лаговыми значениями независимых, или факторных, переменных на величину зависимой переменной текущего периода могут оказывать влияние ее значения в прошлые моменты или периоды времени. Например, потребление в момент времени t формируется под воздействием дохода текущего и предыдущего периодов, а также объема потребления прошлых периодов, например, потребления в период Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru . Эти процессы обычно описывают с помощью моделей регрессии, содержащих в качестве факторов лаговые значения зависимой переменной, которые называются моделями авторегрессии. Модель вида

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru

Относится к моделям авторегрессий.

Построение моделей с распределенным лагом и моделей авторегрессии имеет свою специфику. Во-первых, оценка параметров моделей авторегрессии, а в большинстве случаев и моделей с распределенным лагом не может быть произведена с помощью обычного МНК ввиду нарушения его предпосылок и требует специальных статистических методов. Во-вторых, исследователям приходится решать проблемы выбора оптимальной величины лага и определения его структуры. Наконец, в-третьих, между моделями с распределенным лагом и моделями авторегрессии существует определенная взаимосвязь, и в некоторых случаях необходимо осуществлять переход от одного типа моделей к другому.

Проблема идентификации. Неидентифицируемость и сверхидентифицированность - student2.ru
----------------------------------

36. Мультиколлинеарность и ее влияние на оценки параметров уравнения регрессии

Коллинеарность -это Два вектора называются коллинеа́рными, если они лежат на параллельных прямых или на одной прямой. Наличие мультиколлинеарности факторов может озна­чать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полно­стью независимой, и нельзя оценить воздействие каждого факто­ра в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК). Включение в модель мультиколлинеарных факторов нежела­тельно в силу следующих последствий:1.затрудняется интерпретация параметров множественной ре­грессии как характеристик действия факторов в «чистом» ви­де, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;2оценки параметров ненадежны, обнаруживают большие стан­дартные ошибки и меняются с изменением объема наблюде­ний.

Мультиколлинеарность (multicollinearity) — в эконометрике (регрессионный анализ) — наличие линейной зависимости между независимыми переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок. Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качество модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица ATA будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

Наши рекомендации