Регрессионный анализ и уравнение регрессии
Регрессионный анализ (regression analysis) – это метод изучения статистической взаимосвязи между одной зависимой количественной зависимой переменной от одной или нескольких независимых количественных переменных. Зависимая переменная в регрессионном анализе называется результирующей, а переменные факторы – предикторами или объясняющими переменными. Основные понятия и формулы регрессионного анализа представлены в таблице 1.
Таблица 1. Основные понятия и формулы регрессионного анализа
Форма связи | ||||||
линейная положительная | линейная отрицательная | отсутствует | нелинейная | |||
Метод наименьших квадратов (МНК) | ||||||
Регрессионный анализ | ||||||
линейная регрессия | нелинейная регрессия | – факторы - коэффициенты множественная регрессия | ||||
Взаимосвязь между средним значением результирующей переменной и средними значениями предикторов выражается в виде уравнения регрессии.
Уравнение регрессии – математическая функция, которая подбирается на основе исходных статистических данных зависимой и объясняющих переменных. Чаще всего используется линейная функция. В этом случае говорят о линейном регрессионном анализе.
Регрессионный анализ очень тесно связан с корреляционным анализом. В корреляционном анализе исследуется направление и теснота связи между количественными переменными. В регрессионном анализе исследуется форма зависимости между количественными переменными. Т.е. фактически оба метода изучают одну и ту же взаимосвязь, но с разных сторон, и дополняют друг друга. На практике корреляционный анализ выполняется перед регрессионным анализом. После доказательства наличия взаимосвязи методом корреляционного анализа можно выразить форму этой связи с помощью регрессионного анализа.
Основная цель регрессионного анализа состоит в определении связи между некоторой характеристикой Y наблюдаемого явления или объекта и величинами х1, х2, …, хn, которые обусловливают, объясняют изменения Y. Переменная Y называется зависимой переменной (откликом), влияющие переменные х1, х2, …, хn называются факторами (регрессорами). Установление формы зависимости, подбор модели (уравнения) регрессии и оценка ее параметров являются задачами регрессионного анализа.
В регрессионном анализе изучаются модели вида Y = φ(X) + ε, где Y - результирующий признак (отклик, случайная зависимая переменная); X – фактор (неслучайная независимая переменная); ε – случайная переменная, характеризующая отклонение фактора Х от линии регрессии (остаточная переменная). Уравнение регрессии записывается в виде: yx = φ(x, b0, b1, …, bp), где х – значения величины Х; yx = Mх(Y); b0, b1, …, bp – параметры функции регрессии φ. Таким образом, задача регрессионного анализа состоит в определении функции и ее параметров и последующего статистического исследования уравнения.
В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию.
На первом этапе регрессионного анализа данные наблюдений или эксперимента представляют графически. Зависимость между переменными Х и Y изображают точками на координатной плоскости (х, y) и соединяют их ломаной линией. Этот ломаный график называется эмпирической линией регрессии Y по Х. По виду эмпирической линии регрессии делают предположение о виде (форме) зависимости переменной Y от Х.
Если вид функции φ в уравнении регрессии выбран, то для оценки неизвестных параметров b0, b1, …, bp используется метод наименьших квадратов (МНК). Согласно методу неизвестные параметры функции выбираются таким образом, чтобы сумма квадратов отклонений экспериментальных (эмпирических) значений yi от их расчетных (теоретических) значений была минимальной, т.е.
где – значение, вычисленное по уравнению регрессии; – отклонение (ошибка, остаток); n – количество пар исходных данных.