Применение матричной алгебры при нахождении параметров уравнения. Выбор степени уравнения, аппроксимирующего связь
Рассмотрим линейную модель множественной регрессии:
.
По выборке объёма n оценивается уравнение регрессии
,
где неизвестные коэффициенты оцениваются МНК, при котором минимизируется сумма квадратов остатков, позволяя получить систему нормальных уравнений:
Решение системы может быть получено, например, по формулам Крамера:
, при этом
.
Оценим коэффициенты регрессии МНК в матричной форме. Обозначим
, , , ,
Значения признака Матрица объясняющих Вектор Вектор Вектор
переменных, столбцами регрессора j случайных коэффициентов
которой являются Xj ошибок регрессии
17. Допущения применения метода наименьших квадратов. Условия Гаусса-Маркова.
1) Математическая форма зависимости эндогенных переменных от экзогенных переменных модели носит линейный характер (другие типы уравнений, отражающих зависимость значения одной переменной от других, должны быть приведены к линейному виду, прежде чем возможно будет использовать метод наименьших квадратов), и независимые переменные модели являются единственными значимыми факторами, определяющими поведение зависимой переменной;
2) Значение ошибки ε нормально распределено со средней, равной 0, и постоянной дисперсией , . То есть, хотя значение переменной Y значимо определяется только учтенными в модели факторными признаками, существует также ряд второстепенных факторов, некоторые из которых будут положительно влиять на величину Y, некоторые – отрицательно. В случае множества как положительных, так и отрицательных влияний значение ошибки ε будет нормально распределено. Нормальное распределение полностью определяется двумя параметрами: средней и средним квадратическим отклонением (дисперсией σ2). Чем больше случайных величин действует вместе, тем точнее проявляется закон нормального распределения. Допущение о постоянной дисперсии говорит о постоянности разброса значений ε, вне зависимости от величины значения факторов. Тогда значение ошибки обладает свойством гомоскедастичности. Если разброс значений ошибки ε непостоянен, то имеет место явление гетероскедастичности.
3) Последующие значения ошибок независимы друг от друга, то есть ковариация в парах значений ε равна нулю (covεiεj= 0). Это означает, что второстепенные факторы или факторы-причины ошибки для одной из величин Y, не приводят автоматически к ошибкам для всех наблюдений Y. Когда значения ε независимы, то данные неавтокоррелированы. Если же значения ε не являются независимыми, то данные демонстрируют наличие автокорреляции.
4) Независимые переменные являются нестохастическими, то есть их значения для модели детерминированы, заданы изначально.
2) Условие Гаусса-Маркова.Для сущ-ия классической модели регрессии необходимо выполнение усл-ий Гаусса-Маркова. Традиционно называют четыре усл-ия, пятая явл-ся дополнением:
1. Матем ожидание СВ U = 0, то есть M(ui) = 0. Это означает, что колебания неопр-сти будут взаимопогашаться.
2. CВ U имеет постоянную дисперсию. В частности в простейших случаях предполагается ее равенсто единице. .
3. Значения фактора неопр-сти, измеренные в различные моменты времени не коррелированы. .
4. Наблюдается обязательное влияние фактора неопр-сти на результат.
5. Предполагается нормальное распределение СВ U.
18. Проверка оценок параметров линейной регрессии. Определение оценок параметров регрессии с помощью функции ЛИНЕЙН.
Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки значимости каждого коэффициента регрессии. Значимость коэффициента регрессии осуществляется с помощью t-критерия Стьюдента (отношение коэффициента регрессии к его средней ошибке):
.
Коэффициент регрессии считается статистически значимым, если превышает tтабл - табличное (теоретическое) значение t-критерия Стьюдента.
Проверка адекватности всей модели осуществляется с помощью F-критерия и величины средней ошибки аппроксимации .
Значение средней ошибки аппроксимации, определяемой по формуле
не должно превышать 12 - 15 %.
Расчетное значение F-критерия определяется по формуле и сравнивается с табличным:
, где - коэффициент множественной детерминации.
Если Fрасч>Fтабл, связь признается существенной.