Спецификация модели. Основные положения построения моделей регрессии
В зависимости от количества факторов, включенных в уравнение регрессии, различают парную (простую) и множественную регрессии.
Парная регрессия – регрессия между двумя переменными - и , т. е. модель вида , где - независимая, объясняющая переменная (признак-фактор); - зависимая переменная (результативный признак); - теоретическое значение функции.
Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т.е. модель вида .
Любое эконометрическое исследование начинается со спецификации модели, т.е. формулировки вида модели, исходя из соответствующей теории связи между переменными. Прежде всего из всех факторов, влияющих на результативный признак, выделяют наиболее существенно влияющие факторы.
Парная регрессия является достаточной, если присутствует один доминирующий фактор, который используется в качестве объясняющей переменной. Однако в таких случаях необходимо определиться, какие переменные остаются неизменными, так как в дальнейшем может возникнуть необходимость учета этих переменных в модели и, как следствие, переход от парной к множественной регрессии. При составлении уравнения регрессии корреляционная связь представляет собой функциональную связь, выраженную в виде математической функции.
Практически в каждом случае величина результативного признака складывается из составляющих: , где - фактическое значение результативного признака;
- теоретическое значение результативного признака, найденное из уравнения регрессии; - случайная величина, характеризующая отклонение реального значения результативного признака от теоретического значения, определенного по уравнению регрессии (возмущение).
Случайная величина характеризует влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения. Присутствие в модели случайной величины обусловлено тремя причинами: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных
К ошибкам спецификации относят неправильный выбор вида математической функции для , недоучет в уравнении регрессии какого-либо существенного фактора.
Наряду с ошибками спецификации могут иметь место и ошибки выборки, так как исследователь чаще всего имеет дело с выборочными данными при установлении зависимостей между признаками. Ошибки выборки имеют место и в силу неоднородности данных, так как временной ряд представляет собой выборку, то, изменив промежутки времени можно получить другие данные и как следствие, другие результаты регрессионного моделирования. Однако наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения, особенно при исследовании на макроуровне.
При моделировании экономических процессов используются два основных типа данных:
1) пространственные данные – набор сведений по разным объектам, взятый за один и тот же момент или период времени;
2) временные данные – набор сведений, характеризующий один и тот же объект за разные периоды или моменты времени.
Исследователь чаще всего имеет дело с комбинированием этих данных.
В парной регрессии выбор вида математической функции может быть осуществлен тремя способами: графическим, аналитическим, экспериментальным.
Графический метод подбора вида математической функции основан на визуальном анализе поля корреляции, которое представляет собой эмпирические данные, отмеченные в виде точек в прямоугольной системе координат. Основные типы кривых, используемые при количественной оценке связей, представлены на рис.1.
y y y
0 x 0 x 0 x
y y y
0 x 0 x 0 x
рис. 1.
Класс математических функций для описания связи двух переменных достаточно широк. Кроме уже указанных используют и другие типы кривых:
Если точки поля корреляции группируются относительно некоторой кривой (в частности, относительно прямой), то можно выдвинуть гипотезу о наличии определенной зависимости между признак–фактором и результативным фактором .
Аналитический метод основан на изучении материальной природы связи исследуемых признаков.
Экспериментальный метод чаще всего используется при обработке информации на ПК. Он основан на сравнении остаточной дисперсии, рассчитанной при разных моделях.
Если уравнение регрессии проходит через все точки поля корреляции, то фактические значения результативного признака совпадают с теоретическими значениями, т.е. значения результативного признака полностью обусловлены влиянием фактора . В этом случае остаточная дисперсия: . Однако в практических исследованиях имеет место отклонение фактических значений от теоретических и, как следствие этого, ненулевое значение остаточной дисперсии.
При обработке статистических данных на ПК в автоматическом режиме идет переработка различных математических функций и нахождение остаточной дисперсии для каждой из них. Далее выбирается та математическая функция, которой соответствует наименьшая остаточная дисперсия. Если остаточная дисперсия остается примерно одинаковой для нескольких видов функции, то предпочтение отдается более простым математическим функциям, так как они требуют меньшего объема наблюдений и проще интерпретируются. Практика показала, что число наблюдений должно быть в 6-7 раз больше, чем число оцениваемых параметров при переменной .
Уравнение линейной регрессии имеет вид: или .
Уравнение позволяет по заданному значению фактора найти теоретическое значение результативного признака. Следовательно, построение уравнения линейной регрессии сводится к оценке двух параметров: и .
у
| |||||||
0 х
Выберем на поле корреляции две точки и проведем прямую линию, тогда параметр - точка пересечения прямой с осью , а параметр - угол наклона линии регрессии , где - приращение результата y, - приращение фактора х.
Классический подход к оцениванию параметров регрессии основан на методе наименьших квадратов (МНК). Для того чтобы регрессионный анализ, основанный на МНК, давал наилучшие из возможных результатов, должны выполняться следующие условия (условия Гаусса – Маркова):
1) математическое ожидание случайного отклонения равно нулю М( )=0 для всех наблюдений;
2) дисперсия случайных отклонений постоянна D( )=D( )= для любых наблюдений i и j;
3) случайные отклонения и должны быть статистически независимы, некоррелированы между собой;
4) объясняющая величина должна быть не случайной величиной.
Однако на ряду со всеми этими условиями выдвигается и условие нормального распределения случайной величины . При выполнении всех этих условий модель называется классической нормальной линейной регрессионной моделью.
При выполнении всех предпосылок МНК можно получать оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) значений будет наименьшей:
(1)
Иными словами, из всего множества линий линия регрессии выбирается так, чтобы сумма квадратов расстояний по вертикали между точками поля корреляции и этой линией была бы наименьшей. Известно, что случайная составляющая , поэтому можно записать . Чтобы найти минимум функции (1), необходимо вычислить частные производные по каждому из параметров и b и приравнять их к нулю. Обозначим , тогда
(2),
в результате чего получим системы нормальных уравнений для определения параметров регрессии и b:
(3)
Если каждое из этих уравнений разделить на количество наблюдений и выполнить математические преобразования, то можно получить готовые формулы для оценки параметров линейной парной регрессии: , (4), где , , , .
Параметр b называется коэффициентом регрессии. Его величина показывает, на сколько единиц своего измерения в среднем изменится результативный признак y при изменении фактора на одну единицу своего измерения.
Формально (параметр регрессии) можно определить как значение результативного признака y при =0, однако параметр может не иметь экономической интерпретации. Интерпретировать можно лишь знак при параметре . Если , то относительное изменение результата происходит медленнее, чем изменение фактора.
Если переменные и выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат: , где . Оценка коэффициента регрессии при этом не изменится.
Альтернативную оценку параметра b можно найти, сопоставляя изменение результата с изменением фактора , то есть . Последнее соотношение основано на минимаксных значениях.
Иногда уравнение линейной парной регрессии представляют в виде: , где - параметр регрессии, - коэффициент регрессии, - случайная составляющая.
В матричной форме уравнение регрессии можно представить в виде: , где - случайный вектор – столбец размерности наблюдаемых значений результативного признака; - матрица размерности ( ) наблюдаемых значений фактора (первый дополнительный столбец матрицы обусловлен наличием свободного члена ); - вектор – столбец размерности неизвестных, подлежащих оценке параметров модели (параметров регрессии);
- случайный вектор – столбец размерности ошибок наблюдений.
Решением данного матричного уравнения является вектор: , где
- транспонированная матрица , - матрица, обратная матрице .
x | |||||
y |
Пример.
Используя следующие данные где - величина личного дохода одного члена семьи, - величина расходов на питание, построить уравнение линейной парной регрессии .
№ | x | y | xy | x2 |
å | ||||
ср. знач | 164.8 |
Решение:
Получаем следующие значения параметров регрессии: , и уравнение линейной парной регрессии примет вид или . Исходя из уравнения, можно сделать вывод, что при увеличении личного дохода на одну единицу расходы на питание увеличиваются на 0,775 единицы.
При использовании линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции, числовое значение которого может быть определено с помощью формулы: , где
- среднее квадратическое отклонение признак – фактора ;
- среднее квадратическое отклонение результативного признака .
Величина коэффициента корреляции находится в границах: . Если коэффициент корреляции принимает положительное значение, то в этом случае речь идет о положительной или возрастающей корреляции, если , то отрицательная или убывающая корреляция. Если коэффициент регрессии b>0, то , при b<0 .
В зависимости от числовых значений коэффициента корреляции можно сделать вывод о тесноте связи между факторами. Так, например, если , то речь идет о достаточно слабой тесноте связи, т.е. меньшая часть изменения результативного признака будет обусловлена изменением включенного фактора . Если , то говорят что связь умеренная. Если <1, то говорят о наличии тесной связи между факторами.
Для оценки качества подбора линейной функции рассматривается величина, равная квадрату линейного коэффициента корреляции ( ), которая называется коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака , объясненную регрессией, в общей дисперсии результативного признака: .
Величина характеризует долю дисперсии результативного признака , вызванную влиянием случайных величин, не учтенных в модели факторов.
Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели, т.е. чем больше доля объясненной вариации, тем меньше роль неучтенных факторов и тем лучше модель аппроксимирует исходные данные. В результате чего такую модель можно использовать для выполнения прогноза результативного признака.