Оценка качества уравнения регрессии
Качество модели регрессии связано с ее адекватностью наблюдаемым (эмпирическим) данным. Проверка адекватности (соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков e i.
Остаток e i представляет собой отклонение фактического значения зависимой переменной от ее значения, полученного расчетным путем, т.е.
e = y i− ^y i i=1,n
При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения y может быть разложена на две составляющие: объясненную и необъясненную уравнением регрессии/
SST = SSR + SSE .
Качество регрессионного уравнения, полученного с помощью МНК, оценивается с помощью трех величин: коэффициента детерминации, коэффициента
множественной корреляции и средней относительной ошибки аппроксимации.
Коэффициент детерминации ( - R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.
Коэффициент множественной корреляции для линейной модели множественной регрессии с n факторными переменными рассчитывается через стандартизированные частные коэффициенты регрессии и парные коэффициенты корреляции по формуле:
где r (yxi) – парный (не частный) коэффициент корреляции между результативной переменной у и факторной переменной xi
Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации.
Поскольку может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению определяют среднюю ошибку аппроксимации: