Линии регрессии. Метод наименьших квадратов (МНК)
Линии регрессии - это линии, отражающие основную форму зависимости отклика Y от факторного признака X. Определение вида этих линий – основная задача регрессионного анализа.
МНК позволяет определить параметры линии регрессии
Ломаная линия, соединяющая фактические данные на корреляционном поле, называется эмпирической регрессией.
Основное требование МНК: Сумма квадратов отклонений эмпирических значений отклика от теоретических должна быть минимальной.
или
Отклонение
Рассмотрим простейший случай – линейную регрессию.
Определим с помощью МНК неизвестные параметры a и b:
Решаем эту систему нормальных уравнений методом Крамера:
(*)
Регрессия y на x задается следующей формулой :
Это две различные прямые, пересекающиеся в точке :
Одна из этих прямых y=ax+b получается в результате решения задачи минимизации суммы квадратов отклонений по вертикали, а другая (x=cy+d) - по горизонтали.
Для удобства определения параметров a и b можно использовать следующую таблицу:
i | ||||
… n | … | … | … | … |
Уравнение регрессии нужно в первую очередь для проведения прогноза (экстраполяции и интерполяции). При экстраполяции не рекомендуется выходить как в сторону больших, так и в сторону меньших значений по X за пределы, превышающие 1/3 размаха вариации по X.
Границы доверительного интервала определяются следующим образом:
- значение точечного прогноза,
-значение факторного признака, для которого выполняется прогноз,
m - число параметров в уравнении регрессии.
n-m - число степеней свободы,
a - уровень значимости, (в нашем случае a будет иметь смысл вероятности ошибки прогноза).
- остаточное среднеквадратическое отклонение, скорректированное по числу степеней свободы.
Нелинейная регрессия
1) Парабола 2-го порядка .
Для определения параметров a,b,c можно воспользоваться МНК.
2) Гипербола .
С помощью замены переменной преобразуем эту формулу к линейному виду.
Замена: X=1/x;
Для нахождения параметров a и b можно воспользоваться формулами:
a=Da/D, b=Db/D, заменив xi ->Xi.
i | |||||||
… n | … | … | 1/ 1/ … 1/ | ||||
- |
3) Показательная функция или экспонента (e=2,718281828459045…)
y=eax+b=(ea)xeb=AxB {A=ea, B=eb} => y=axb
ln y= ln (axb)= ln ax+ln b=x ln a+ ln b.
ln y= x ln a+ ln b
Замена: Y=ln y, A=ln a, B=ln b => a=eA, b=eB.
Y=Ax+B, A=DA/D, B=DB/D, yi -> Yi=ln yi.
Для нелинейных форм регрессии в качестве характеристики силы связи между факторным и результативным признаком следует использовать корреляционное отношение (а не коэффициент прямолинейной корреляции Пирсона!).
Общая дисперсия результирующего признака:
. Отражает общую вариацию результирующего признака у в зависимости от всех факторов.
Факторная дисперсия (аналог межгрупповой дисперсии):
. Характеризует влияние факторного признака х на вариацию у.
Остаточная дисперсия:
. Объясняет вариацию у от всех прочих (кроме х) факторов (аналог средней из внутригрупповых дисперсий).
На основании правила сложения дисперсий, получим: s2=sф2+se2.
Лучшей является регрессионная модель с наибольшим значением корреляционного отношения.