Среднеквадратические ошибки и t-статистики коэффициентов модели
Занятие 4,5 Тема: Построение и базовый анализ классической линейной модели множественной регрессии
Методические указания
Модель множественной линейной регрессии можно представить в виде:
(1)
где i = 1, 2, … , n число наблюдений.
εi – регрессионные ошибки случайного характера,
yi – i-е наблюдение зависимой переменной,
xi1, xi2,… xik. – i-е наблюдение объясняющих переменных,
β0,β1 …βk – неизвестные параметры модели.
Пусть:
Y обозначает матрицу (вектор-столбец) (y1,…, yn)Т (Т вверху означает транспонирование),
β = (β0, β1, …, βк)Т – вектор-столбец коэффициентов (неизвестных значений параметров модели),
ε = (ε1, ε2, …, εn)Т – вектор-столбец ошибок,
- матрицу объясняющих переменных, которая соответствует набору векторов-столбцов объясняющих переменных, а также вектору-столбцу из единиц, отвечающему за константу в уравнении модели. Матрица должна быть матрицей полного ранга.
- единичная матрица размерности ;
- ковариационная матрица размерности вектора ошибки.
Гипотезы, лежащие в основе множественной регрессии в матричной формевыглядят следующим образом:
1. Y=Xβ+ε – спецификация модели;
2. X – детерминированная матрица, имеет максимальный ранг k+1;
3. a,b. E(ε)=0; V(ε)=E(εεT)=σ2In;
дополнительное условие:
3. с. ε~N(0,σ2In), т.е. ε – нормально распределенный случайный вектор со средним 0 и матрицей ковариаций σ2In(нормальная линейная регрессионная модель).
Оценкой этой модели по выборке является уравнение:
Y=X +e,
Где – вектор-столбец оценок неизвестных параметров модели;
e = (e1, e2, …, en)Т – вектор –столбец регрессионных остатков.
Оценка неизвестных параметров модели методом наименьших квадратов:
(2)
Пусть истинное значение j-го коэффициента регрессии. Тогда статистика
(3)
распределена по закону Стьюдента (t-распределения) с n-k-1 степенями свободы.
Из (3) получаем, что интервал
является 100(1-α)%-ным доверительным интервалом для истинного значения коэффициента , где -ная точка распределения Стьюдента с n-k-1 степенями свободы.
При проверке гипотезы Ho: βj=0 t-статистика выглядит
Значение позволяет сделать вывод об отличии от нуля (на уровне значимости α) заданного коэффициента регрессии и, следовательно, о наличии влияния (связи) Xj на Y.
Общей характеристикой модели может служить коэффициент детерминации R2 и F-статистика модели:
В предположении справедливости гипотезы о том, что все коэффициенты модели, кроме константы, равны нулю, т.е. β1= β2= … =βк=0 в условиях нормальной линейной модели множественной регрессии, F-статистика должна подчиняться распределению Фишера со степенями свободы (k, n-k-1). Следовательно справедливость этой гипотезы можно проверить следующим образом. По заданному критерию значимости α из таблиц определяют 100α%-ую точку F(k, n-k-1)-распределения fα(k, n-k-1). Если окажется, что
то гипотеза об отсутствии линейной связи между переменной Y и объясняющими переменными отвергается (с вероятностью ошибки, равной α), и принимается – в противном случае.
Задание 1. Построить для следующих данных из таблицы 1 линейную модель множественной регрессии и провести её базовый анализ в предположении, что построенная модель является нормальной моделью множественной регрессии.
Таблица 1. Исходные данные для модели множественной регрессии
N п/п | Y | X1 | X2 |
Построение модели:
1. Матрица объясняющих переменных, вектор зависимой переменной:
2. Вычисление коэффициентов модели :
3. Регрессионное уравнение модели:
Базовый анализ нормальной линейной модели множественной регрессии:
1. Несмещенная оценка дисперсии ошибок σ2:
s2=
Вектор остатков регрессии:
s2=
Среднеквадратические ошибки и t-статистики коэффициентов модели.
В качестве оценки дисперсии возьмем
тогда среднеквадратическая ошибка коэффициентов модели ,
где несмещенная оценка дисперсии ошибок,
j-й диагональный элемент матрицы
Среднеквадратическая ошибка константы
Среднеквадратическая ошибка коэффициента при переменной X1
Среднеквадратическая ошибка коэффициента при переменной X2
Для коэффициентов модели t-статистики рассчитываются по формуле:
t-статистика коэффициента
Для константы t-статистика
Для переменной X1 t-статистика
Для переменной X2 t-статистика
Критическое значение для t-статистик коэффициентов в этой модели для 95% уровня значимости tкр = (10-2-1) = 2,36
Вывод о значимости коэффициентов модели: