Лабораторная работа №5. Множественная регрессия
Цель работы. Освоение построения по выборочным данным модели множественной линейной и нелинейной регрессии, оценки точности и надежности параметров и всей модели, построения прогнозов значений зависимой переменной в MS Excel 2010. Интерпретация модели.
Краткие сведения. Модель множественной регрессии описывает зависимость условного среднего зависимой случайной величины в виде функции значений нескольких объясняющих переменных (факторов) :
,
где b – вектор параметров модели, который оценивается по выборочным данным . Здесь – значение j-го фактора в i-ом измерении. Чаще всего при построении множественной регрессии рассматриваются следующие уравнения:
· линейное по факторам и параметрам ;
· уравнение линейное по параметрам и нелинейное по факторам ;
· степенное уравнение ;
· экспоненциальное уравнение ;
· гиперболическое уравнение .
Случайная величина , называемая ошибкой регрессии, отражает влияние пропущенных объясняющих переменных, неправильной структуры и функциональной спецификации модели, агрегирования переменных, ошибки измерений.
Нелинейные многофакторные уравнения линеаризуются такими же преобразованиями, что и соответствующие нелинейные однофакторные уравнения, см. работу №4.
В данной работе рассмотрим только линейную по параметрам и факторам модель множественной регрессии
, (8)
в которой значения зависимой переменной описываются в виде суммы детерминированной и случайной составляющих. Случайная величина , называемая ошибкой регрессии, отражает влияние пропущенных объясняющих переменных, неправильной структуры и функциональной спецификации модели, агрегирования переменных, ошибки измерений.
Оценки параметров модели (8) находятся методом наименьших квадратов, из условия минимизации суммы квадратов остатков регрессии , где – вычисляемые по уравнению регрессии (прогнозные) значения зависимой переменной . Введем следующие векторы и матрицу:
– векторы наблюдаемых значений факторов; – вектор наблюдаемых значений зависимой переменной; – вектор ошибок регрессии; – вектор параметров уравнения регрессии; – матрица значений факторов.
Используя вектора и матрицу , линейные зависимости (8) выборочных значений зависимой переменной от значений факторов можно представить в виде
.(9)
Вектор и соответствующий ему первый столбец из «1» в матрице учитывает наличие в уравнении регрессии (8) свободного члена .
Основные предпосылки линейной множественной регрессии.
1. Связь значений зависимой величины от значений факторов задается соотношением (8) или в матричной форме (9). (Эта зависимость называется спецификацией модели).
2. – детерминированные величины, векторы линейно независимы, т.е. матрица детерминированная и ее ранг равен p.
3. Ошибки регрессии – случайные величины с для всех , т.е. ошибки регрессии не имеют систематической составляющей и имеют одинаковую дисперсию.
4. Ошибки регрессии и (или переменные и ) не коррелированы в разных наблюдениях, т.е. .
5. Ошибки регрессии распределены по нормальному закону с нулевой средней и дисперсией , т.е. .
При выполнении этих предпосылок модель (8) называется классической нормальной регрессией. Эта модель множественной линейной регрессии содержит p неизвестных параметров регрессии и неизвестную дисперсию ошибок регрессии . Оценки коэффициентов регрессии находятся из условия минимизации по суммы квадратов остатков
где – вектор остатков регрессии. Эти оценки называются оценками метода наименьших квадратов и определяются соотношением
(10)
Теорема Гаусса-Маркова. При выполнении предпосылок 1-4 оценка (10) метода наименьших квадратов обладают наименьшей дисперсией в классе линейных по Y несмещенных оценок.
Несмещенной оценкой дисперсии ошибок регрессии является величина , где – остатки регрессии.
При выполнении предпосылок 1-5 оценки параметров уравнения множественной линейной регрессии имеют нормальное распределение со средним и дисперсией , где – i-й элемент главной диагонали матрицы , i=1,2, …,p. Оценки дисперсий оценок параметров уравнения множественной линейной регрессии определяются как
. (11)
Стандартные отклонения коэффициентов уравнения регрессии определяются соотношениями , i=1,2, …,p .
Доверительные интервалы надежности для значений параметров уравнения (8) имеют вид
(12)
где – квантиль уровня распределения Стьюдента с числом степеней свободы . Доверительный интервал надежности для дисперсии ошибок регрессии определяется неравенством
где и – квантили соответственно уровней и распределения с числом степеней свободы .
Проверка значимости влияния факторов на зависимую величину , при выполнении предпосылок 1-5, осуществляется также как и для парной линейной регрессии проверкой гипотез , с , с помощью t-статистики . Если вычисленное (при ) значение t-статистики по модулю больше критического значения , то нулевая гипотеза отклоняется при уровне значимости , т.е. влияние фактора статистически значимо. При нулевая гипотеза принимается и влияние фактора на зависимую величину статистически незначимо. Следует отметить, гипотеза принимается на уровне значимости , если соответствующий доверительный интервал (12) покрывает значение . Так, если доверительный интервал (12) покрывает нуль, то влияние фактора на зависимую величину статистически незначимо.
Качество модели множественной линейной регрессии (8), как и в случае парной линейной регрессии, проводится с помощью дисперсионного анализа и коэффициента детерминации.
Дисперсионный анализ во множественной регрессии. При наличии в модели свободного члена, в уравнении (8) присутствует свободный член , общая сумма квадратов отклонений от их общего среднего , , разлагается на сумму квадратов отклонений объясняемых регрессией, , и остаточную сумму квадратов отклонений . Гипотеза об отсутствии линейной зависимости от факторов имеет вид
.
При справедливости нулевой гипотезы средние квадраты и являются независимыми несмещенными оценками одной и той же генеральной дисперсии зависимой переменной и их различие статистически незначимо. Проверка нулевой гипотезы , при уровне значимости , сводится к проверке существенности различия несмещенных выборочных оценок и дисперсии с помощью F- критерия , который имеет F-распределение Фишера-Снедекора с и степенями свободы, где число коэффициентов в уравнении регрессии (8). Если вычисленное значение статистики меньше критического , то гипотеза об отсутствии влияния факторов на исследуемый признак принимается, т.е. оцененное линейное регрессионное уравнение незначимо. Если , то гипотеза отвергается, т.е. факторы оказывает влияние на исследуемый признак и оцененное уравнение регрессии значимо. Здесь – квантиль уровня -распределения Фишера-Снедекора с и степенями свободы.
Качество построенной регрессионной модели характеризуется коэффициентом детерминации , который показывает, какая доля вариации зависимой переменной объясняется вариацией факторов . . F- критерий и коэффициент детерминации связаны равенством . Если , то построенная регрессия не улучшает качество предсказания по сравнению с тривиальным предсказанием . При имеет место точная подгонка, все выборочные данные лежат на плоскости регрессии .
Качество подгонки уравнения регрессии к выборочным данным и его прогностическое свойство характеризуется также средней ошибкой аппроксимации
.
Коэффициент детерминации в общем случае возрастает с увеличением числа факторов. При числе факторов p равном числу выборочных данных n выполняется равенство . Но при этом полученное уравнение регрессии не будет иметь содержательной экономической интерпретации. Рекомендуется, чтобы объем выборки превышал число параметров модели не менее чем в пять раз. Для устранения эффекта роста коэффициента детерминации с ростом числа факторов в модели вводится скорректированный коэффициент детерминации
.
Скорректированный коэффициент детерминации связан с коэффициентом детерминации соотношением и удовлетворяет неравенству С ростом числа факторов уменьшается относительно .
Интерпретация коэффициентов уравнения множественной линейной регрессии. Множественный регрессионный анализ позволяет приближенно оценить влияние каждого фактора на зависимую переменную, допуская при этом коррелированность факторов. Оценка коэффициента регрессии при i-м факторе показывает, на сколько единиц приближенно изменится среднее зависимой переменной при изменении этого фактора на одну единицу при неизменных значениях других факторов. Относительное изменение зависимой переменной вызванное изменением фактора характеризуется частным коэффициентом эластичности, который для линейной модели определяется как
,
где – выборочное среднее значений фактора , – общее среднее зависимой переменной. Частный коэффициент эластичности приближенно показывает, на сколько процентов относительно среднего измениться зависимая переменная при изменении
значения фактора на 1% относительно его среднего .
Точечный и интервальный прогноз по модели множественной регрессии. Точечный прогноз среднего зависимой величины Y для заданных значений факторов вычисляется непосредственно по оцененному уравнению регрессии
.
При выполнении предпосылок 1-5 эта оценка имеет наименьшую дисперсию в классе линейных по Y несмещенных оценок. Оценка дисперсии для заданного вектора значений факторов определяется как
.
Доверительный интервал надежности для среднего зависимой величины при заданном векторе значений факторов определяется неравенством
где – квантиль уровня распределения Стьюдента с числом степеней свободы .
Содержание лабораторной работы.
1. Ввести выборочные данные.
2. Построить корреляционную матрицу.
3. Оценить параметры уравнения множественной линейной регрессии.
4. Проверить значимость коэффициентов уравнения регрессии и самого уравнения регрессии при уровне значимости .
5. Оценить качество построенной модели.
6. Построить точечный и интервальный, надежности , прогнозы среднего зависимой переменной для значений факторов равных их выборочным средним, т.е. для .
7. Дать общее заключение об оцененной модели и ее интерпретацию.