Линейное регрессионное уравнение
Регрессионный анализ является одним из основных методов современной математической статистики. Однофакторный регрессионный анализ позволяет найти зависимость между двумя переменными.
Пусть мы имеем n наблюдений (xi, yi, i = 1,2,…n), где xi - значения независимого (факторного) переменного (например, доходы населения), а yi - значения зависимого (результативного) переменного (например, расходы). Графически эти данные задаются n точками в двумерной системе координат YOX (рис. 6.1).
Рис.6.1. Наблюдения (xi, yi)
Нашей задачей является нахождение зависимости y от x по данным (xi, yi), т.е. «подгонка» этих точек какой-то функцией y = f(x).
Простейшая модель зависимости y = f(x) это линейная модель, когда y = a + bx, где a и b неизвестные параметры. Для этой модели задача регрессии решается до конца, а полученные результаты являются базовым для регрессии других, в частности, нелинейных моделей.
В этой модели переменная x детерминированная (без случайных ошибок) величина, а наблюдаемые yi, как правило, отличаются от y = a + bx. Они случайные величины, поэтому выражение для yi пишется в виде yi = a + bxi + ei, где ei - случайные ошибки (отклонения yi от y). Причины возникновения случайных ошибок ei различные: а) так называемый «человеческий фактор»; б) не учет всех факторов; в) неправильный выбор модели и т.д.
Это уравнение называется однофакторным линейным регрессионным уравнением.
Метод наименьших квадратов
Параметры a и b можно найти разными методами, но наилучшим методом является метод наименьших квадратов (МНК). Суть МНК заключается в том, что требуется, чтобы сумма квадратов случайных ошибок была минимальной, чтобы y = f(x) наиболее близко находилась бы к точкам (xi, yi):
.
Решения для a и b называются оценками и определяются через ковариацию x, y и дисперсию x:
, .
Поставляя оценки a и b в линейное уравнение, находим регрессию ŷ = a + bx.
Утверждение, что a и b являются наилучшими оценками, а регрессия наилучшей «подгонкой», доказывается теоремой Гаусса-Маркова.
Теорема Гаусса-Маркова. В предположениях модели yi = a + bxi + ei, xi - детерминированная величина, M(ei) = 0, D(ei) = s2, M(eiej) = 0, i¹j, оценки a и b, полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
@ Задача 1.По данным таблицы найти неизвестные параметры регрессионного уравнения y = a + bx:
x | ||||
y |
Решение: n = 4; Σx = 10; Σy = 26; Σxy = 80; Σ x2 = 30; = 2,5; = 6,5; = 7,5; = 20; D(x) = 7,5 – 6,25 = 1,25; b = (20 – 2,5·6,5)/(7,5 – 6,25) = 3; a =6,5 – 2,5·3 = – 1.
В итоге получаем: ŷ = – 1 + 3x.
Качество оценки: коэффициент детерминации
После построения уравнения регрессии возникает вопрос о качестве оценки.