Общие принципы построения регрессионных уравнений
На рисунке 2 приведены примеры корреляционного поля и формы связи, образованные скоплениями точек. Точки группируются возле некоторой линии, если связь показателей линейна, или кривой, если связь нелинейна. Эти линии называются линиями регрессии, а описывающие их аналитические выражения ¾ уравнениями регрессии (рис. 2).
Рис. 2. Формы связи: а ¾ линейная связь; б ¾ параболическая связь; в ¾ гиперболическая связь; г ¾ нет связи (если две переменные практические не связаны между собой, то моделью будет являться горизонтальная прямая)
Зная уравнение регрессии, можно приближенно оценить значение зависимой переменной Y при определенном значении Х. Причем точность такой оценки будет тем выше, чем теснее группируются точки фактических наблюдений относительно линии регрессии, т. е. точность модели регрессии определяется тем, насколько тесной является взаимозависимость признаков Х и Y.
Регрессионный анализ ¾ это статистический метод исследования зависимости случайной величины Y от переменных Хj.
При построении парной регрессии (с одной факторной переменной) обычно используются следующие функции:
1) линейная
2) степенная
3) показательная
4) параболическая
5) гиперболическая
6) логарифмическая
где а0 ¾ свободный коэффициент уравнения регрессии;
а1¾ параметр уравнения регрессии.
Однако в действительности любой результативный показатель испытывает воздействие не одного, как в случае парной корреляции, а нескольких факторов, поэтому зачастую строят модели множественной регрессии, которые принимают вид:
1) линейная:
(наиболее часто встречающаяся модель);
2) степенная:
3) показательная:
4) параболическая:
5) гиперболическая:
где а0¾ свободный коэффициент регрессии;
аj (j = 1, 2, …, k) ¾ параметры регрессионного уравнения, называемые коэффициентами регрессии.
Для того чтобы правильно выбрать тип регрессионного уравнения, следует знать условный закон распределения зависимой переменной Y. На основе графика не всегда удается определить его однозначно, поэтому строят несколько регрессионных моделей, а затем по определенным критериям определяют лучшую модель. Если в проводимом исследовании можно ограничиться построением линейной модели, выбирают ее. Такая популярность и предпочтительность объясняется очень просто: математический аппарат линейных уравнений наиболее разработан, а сами модели легко интерпретируемы.
Критерием нахождения значений коэффициентов регрессии аj является следующее требование: сумма квадратов отклонений наблюдаемых «игреков» от «игреков», рассчитанных по уравнению регрессии, должна быть минимальной. Параметры регрессионной модели должны быть такими, чтобы на графике корреляционного поля линия регрессии оказалась там, где точки фактических наблюдений наибольшим образом сконцентрированы, т. е. проходила бы на минимальном удалении от них. В виде формулы это требование записывается следующим образом:
Метод нахождения значений коэффициентов регрессии по приведенному критерию называется методом наименьших квадратов(МНК).