Оценка параметров линейной регрессии.
Линейная регрессия сводится к нахождению уравнения вида
(или ) | (3) |
Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x. На графике теоретические значения лежат на прямой, которая представляют собой линию регрессии.
Построение линейной регрессии сводится к оценке ее параметров- а и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).
МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений от теоретических минимальна:
или | (4) |
Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров - а и b - и приравнять их к нулю.
(5)
Преобразуем, получаем систему нормальных уравнений:
(6)
В этой системе n- объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительно а и b, получаем:
(7)
. (8)
Выражение (7) можно записать в другом виде:
(9)
где ковариация признаков, дисперсия фактора x.
Параметр b называется коэффициентом регрессии.Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.
Формально a- значение y при x=0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a< 0. Интерпретировать можно лишь знак при параметре a. Если a> 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:
< при > 0, > 0
Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:
, (10)
где , . При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами . При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена.
Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, функцию издержек
Табл. 1.
Выпуск продукции тыс.ед.( ) | Затраты на производство, млн.руб.( ) | ||||
31,1 | |||||
67,9 | |||||
141,6 | |||||
104,7 | |||||
178,4 | |||||
104,7 | |||||
141,6 | |||||
Итого: 22 | 770,0 |
Система нормальных уравнений будет иметь вид:
Решая её, получаем a= -5,79, b=36,84.
Уравнение регрессии имеет вид:
Подставив в уравнение значения х, найдем теоретические значения y (последняя колонка таблицы).
Величина a не имеет экономического смысла. Если переменные x и y выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится:
, где , .
В качестве другого примера рассмотрим функцию потребления в виде:
,
где С- потребление, y –доход, K,L-параметры. Данное уравнение линейной регрессии обычно используется в увязке с балансовым равенством:
,
где I– размер инвестиций, r - сбережения.
Для простоты предположим, что доход расходуется на потребление и инвестиции. Таким образом, рассматривается система уравнений:
Наличие балансового равенства накладывает ограничения на величину коэффициента регрессии, которая не может быть больше единицы, т.е. .
Предположим, что функция потребления составила:
.
Коэффициент регрессии характеризует склонность к потреблению. Он показывает, что из каждой тысячи рублей дохода на потребление расходуется в среднем 650 руб., а 350 руб. инвестируется. Если рассчитать регрессию размера инвестиций от дохода, т.е. , то уравнение регрессии составит . Это уравнение можно и не определять, поскольку оно выводится из функции потребления. Коэффициенты регрессии этих двух уравнений связаны равенством:
0,65+0,35=1.
Если коэффициент регрессии оказывается больше единицы, то , и на потребление расходуются не только доходы, но и сбережения.
Коэффициент регрессии в функции потребления используется для расчета мультипликатора:
.
Здесь m≈2,86, поэтому дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,86 тыс. руб.
При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r:
Его значения находятся в границах: . Если b > 0, то при b< 0 . По данным примера , что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции.
Для оценки качества подбора линейной функции рассчитывается коэффициент детерминациикак квадрат линейного коэффициента корреляции r2. Он характеризует долю дисперсии результативного признака y, объясняемую регрессией, в общей дисперсии результативного признака:
Величина характеризует долю дисперсии y, вызванную влиянием остальных, не учтенных в модели факторов.
В примере . Уравнением регрессии объясняется 98,2 % дисперсии , а на прочие факторы приходится 1,8 %, это остаточная дисперсия.
Предпосылки МНК (условия Гаусса-Маркова)
Как было сказано выше, связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса – Маркова):
10. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: .
20. Дисперсия случайных отклонений постоянна: .
Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсии отклонений)
30. Случайные отклонения εi и εj являются независимыми друг от друга для :
Выполнимость этого условия называется отсутствием автокорреляции.
40. Случайное отклонение должно быть независимо от объясняющих переменных.
Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.
При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова: оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Таким образом, при выполнении условий Гаусса-Маркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т.е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин yi.
Именно понимание важности условий Гаусса-Маркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.