Суть регрессионного анализа
Парная линейная регрессия
Поведение и значение любого экономического показателя зависят практически от бесконечного количества факторов, и все их учесть нереально. Однако обычно лишь ограниченное количество факторов действительно существенно воздействует на исследуемый экономический показатель. Доля влияния остальных факторов столь незначительна, что их игнорирование не может привести к существенным отклонениям в поведении исследуемого объекта. В естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой. Однако в подавляющем большинстве случаев между экономическими переменными таких зависимостей нет. Поэтому в экономике говорят не о функциональных, а о корреляционных либо статистических зависимостях.
Если переменные обозначить Х и Y, то зависимость вида:
(1.1)
называется функцией регрессии Y на X. При этом X называется независимой (объясняющей) переменной (прегрессором), Y – зависимой (объясняемой) переменной. При рассмотрении двух случайных величин говорят о парной регрессии.
Зависимость нескольких переменных, выражаемую функцией
, (1.2)
называют множественной регрессией.
Под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной, которая строится с целью предсказания (прогнозирования) этого среднего значения при фиксированных значениях первых.
Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условными математическими ожиданиями и могут быть различными при одном и том же значении объясняющей переменной (наборе объясняющих переменных), фактическая зависимость должна быть дополнена некоторым слагаемым , которое, по существу, является случайной величиной и указывает на стохастическую суть зависимости. Из этого следует, что связи между зависимой и объясняющей (ими) переменными выражаются соотношениями
(1.3)
, (1.4)
называемыми регрессионными моделями (уравнениями).
Среди причин обязательного присутствия в регрессионных моделях случайного фактора (отклонения) можно выделить следующие:
1. Невключение в модель всех объясняющих переменных. Любая регрессионная (в частности, эконометрическая) модель является упрощением реальной ситуации. Последняя всегда представляет собой сложнейшее переплетение различных факторов, многие из которых в модели не учитываются, что порождает отклонение реальных значений зависимой переменной от ее модельных значений. Например, спрос (Q) на товар определяется его ценой (Р), ценой (Ps) на товары-заменители, ценой (Pс) на дополняющие товары, доходом (Г) потребителей, их количеством (N), вкусами (Т), ожиданиями (W) и т. д. Безусловно, перечислить все объясняющие переменные здесь практически невозможно. Например, мы не учли такие факторы, как традиции, национальные или религиозные особенности, географическое положение региона, погода и многие другие, влияние которых приведет к некоторым отклонениям реальных наблюдений от модельных, которые можно выразить через случайный член е: Q = f(P, Ps, Pc, I, N, Т, W, ). Проблема еще и в том, что никогда заранее не известно, какие факторы при создавшихся условиях действительно являются определяющими, а какими можно пренебречь. Например, в ряде случаев учесть непосредственно какой-то фактор нельзя в силу невозможности получения по нему статистических данных.
2. Неправильный выбор функциональной формы модели. Из-за слабой изученности исследуемого процесса либо из-за его переменчивости может быть неверно подобрана функция, его моделирующая. Это, безусловно, скажется на отклонении модели от реальности, что отразится на величине случайного члена. Кроме того, неверным может быть подбор объясняющих переменных.
3. Агрегирование переменных. Во многих моделях рассматриваются зависимости между факторами, которые сами представляют сложную комбинацию других, более простых переменных. Например, при рассмотрении в качестве зависимой переменной совокупного спроса проводится анализ зависимости, в которой объясняемая переменная является сложной композицией индивидуальных спросов, оказывающих на нее определенное влияние помимо факторов, учитываемых в модели. Это может оказаться причиной отклонения реальных значений от модельных.
4. Ошибки измерений. Какой бы качественной ни была модель, ошибки измерений переменных отразятся на несоответствии модельных значений эмпирическим данным, что также отразится на величине случайного члена.
5. Ограниченность статистических данных. Зачастую строятся модели, выражаемые непрерывными функциями. Но для этого используется набор данных, имеющих дискретную структуру. Это несоответствие находит свое выражение в случайном отклонении.
6. Непредсказуемость человеческого фактора. Эта причина может «испортить» самую качественную модель. Действительно, при правильном выборе формы модели, скрупулезном подборе объясняющих переменных все равно невозможно спрогнозировать поведение каждого индивидуума.
Решение задачи построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:
1) выбор формулы уравнения регрессии;
2) определение параметров выбранного уравнения;
3) анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
Выбор формулы связи переменных называется спецификацией уравнения регрессии. В случае парной регрессии выбор формулы обычно осуществляется по графическому изображению реальных статистических данных в виде точек в декартовой системе координат, которое называется корреляционным полем (диаграммой рассеивания) (рис. 1.1).
Рис. 1.1
Если на первых двух графиках относительно четко определяется форма связи (для первого – линейная, для второго – квадратичная), то для третьего явная взаимосвязь между переменными отсутствует. В случае множественной регрессии определение подходящего вида регрессии является наиболее сложной задачей.