Нормальная линейная модель множественной регрессии
Естественным обобщением линейной регрессии с двумя переменными является многомерная регрессионная модель (multiple regression model) или модель множественной регрессии:
(27)
где уi – значение признака-результата (зависимой переменной) для i-го наблюдения; хji – значение j-го фактора (независимей или объясняющей переменной) (j = 1;т)для i-го наблюдения; ei – случайная составляющая результативного признака для i-го наблюдения; b0– свободный член, который формально показывает среднее значение у при х1= х2 = ... =
= хт = 0; bj – коэффициент «чистой» регрессии при j-мфакторе (j=1,m).
Коэффициент регрессии характеризует среднее изменение признака-результата у с изменением соответствующего фактора хj. на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях.
Обычно для многомерной регрессионной модели делаются следующие предпосылки.
1. – детерминированные (нестохастические) переменные.
2. , (i = 1, n) – математическое ожидание случайной составляющей равно 0 в любом наблюдении.
3. , (i = 1, n) – теоретическая дисперсия случайной составляющей; постоянна для всех наблюдений.
4. – отсутствие систематической связи между значениями случайной составляющей в любых двух наблюдениях.
5. Часто добавляется условие: , т. е. ei – нормально распределенная случайная величина.
Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется нормальной линейной регрессионной (Classical Normal Regression model).
В матричной форме нормальная (классическая) регрессионная, модель имеет вид:
, (28)
где Y – случайный вектор-столбец размерности (n´1) наблюдаемых значений результативного признака; X – матрица размерности (n´(m+1)) наблюдаемых значений факторных признаков. Добавление 1 к общему числу факторов т учитывает свободный член b0 в уравнении регрессии. Значения фактора х0 для свободного члена принято считать равным единице; b – вектор-столбец размерности ((т+1)´1) неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); e– случайный вектор-столбец размерности (n´1) ошибок наблюдений.
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.
1. Они должны быть количественно измеримы. Если не обходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).
2. Каждый фактор должен быть достаточно тесно связан с результатом (т. е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля).
3. Факторы не должны сильно коррелировать друг с другом, тем более находиться в строгой функциональной связи (т. е. они не должны быть интеркоррелированны).
2.2. Традиционный метод наименьших квадратов
для многомерной регрессии (OLS)
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии модели или вектора b.
Оценка параметров многомерной модели, как и в случае парной регрессии, осуществляется обычно традиционным методом наименьших квадратов (МНК). Согласно данному методу, в качестве оценки вектора b1 принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений yi от рассчитанных по модели .
В матричной форме функционал S будет записан так:
(29)
МНК-оценки в матричной форме находят по формулам:
, где . (30)
Оценим с помощью МНК параметры линейной двухфакторной модели: , i=1; n. Для этого минимизируем функционал:
(31)
Функционал S является функцией трех переменных b0, b1, b2. Чтобы найти экстремум функции нескольких переменных, нужно взять ее частные производные по этим переменным и приравнять их нулю:
, , .
Получим следующую систему нормальных линейных уравнений:
(32)
Параметры этой системы могут быть найдены, например, методом К. Гаусса, либо методом итераций.
Для сравнения влияния на зависимую переменную различных объясняющих переменных используют стандартизированные коэффициенты регрессии и коэффициенты эластичности Ej (j = 1, 2, …, n):
; . (33)
Стандартизированный коэффициент регрессии показывает, на сколько величин Sy изменится в среднем зависимая переменная у при увеличении только j-й объясняющей переменной на Sxj. Коэффициент эластичности Ej показывает, на сколько процентов (от средней) изменится в среднем у при увеличении только хj на 1%.