Парная регрессия на основе метода наименьших квадратов (МНК)
Парная регрессия- это определения вида функциональной связи между двумя признаками, один из которых факторный, т.е. представляет собой СВ, второй – результативный, не являющийся СВ. Результативный признак-результат изменения факторного.
Регрессионный анализ – определение формы связи между признаками, а корреляционный – это измерение силы связи.
Задача – попытаться отыскать линию, к которой ближе всего находятся точки.
Идея регрессионного анализа состоит в подборе (некоторым образом) наилучшего уравнения, описывающего связь y= f(x)+e , где f(x) –конкретное значение функции, формулу которой мы должны получить, еi – вклад случайной составляющей,
- суммарный квадрат отклонений от .
Сущность метода МНК заключается в нахождении параметров модели (a,b), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:
.
Для прямой зависимости:
При минимизации функции неизвестными являются значения коэффициентов регрессии, значения зависимой и независимой переменных известны из наблюдений.
Рассматривая S в качестве функции параметров a и b и проводя математические преобразования (дифференцирование), получаем
=>
Откуда система нормальных уравнений для нахождения параметров линейной парной регрессии МНК имеет вид
где n – объем исследуемой совокупности (число единиц наблюдения).
Число уравнений в системе равно числу искомых параметров.
В уравнениях регрессии параметр b показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр a – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
Пример: Имеются следующие данные по 10-ти однородным предприятиям. Найти зависимость между электровооруженностью труда и продукцией на одного работникаю. Данная зависимость выражается уравнением прямой: , где ух -выпуск готовой продукции; а и b – параметры уравнения регрессии. Параметры уравнения регрессии можно определить по формулам:
. После определения параметров уравнения регрессии рассчитываем теоретическую линию регрессии yx путем подстановки значений х в уравнение связи: .
Проверка правильности расчета параметров уравнения связи производится подстановкой b и a в систему уравнений.
Используя уравнение связи , можно определить теоретическое значение ух для любой промежуточной точки.
В случае если в качестве функциональной зависимости выступают функции, не явл. линейными:
;
то коэффициенты ее оцениваются аналогичным образом, т.е. строится своя система нормальных уравнений (в этом случае нелинейная регрессия).
Т.к. коэффициенты уравнений регрессии оцениваются по выборке надо проверить качество полученной модели.
1) оценка значимости самого уравнения с помощью коэффициента детерминации.
2) проверка значимости коэффициентов уравнений регрессии, т.е. проверка Но о том, что коэффициенты равны 0. Если Но-, то мы должны для значимых коэффициентов построить доверительные интервалы.
В генеральной сов:
В выборке:
Рассм. как оценивается качество уравнений регрессии с помощью коэффициента детерменации.
yi –эмпіріческая точка
(1)- показывает часть отклонения обусловленную влиянием фактора х
(2)- часть отклонения, не обусловленная влиянием х.
(3)- вариация у относительно среднего.
Видим, что отклонении е (3) складывается из (1) и (2): (3)=(1)+(2)
Если мы рассмотрим по всем точкам
Если рассм. долю общей дисперсии каждой из составляющей, то получим
Если рассмотреть величину , то это индекс корреляции
Он показывает, на сколько близка выбранная кривая к фактическим данным.
- коэффициент детерминации (какую долю в вариации результативного признака занимает выбранная форма связи)
Выбор формы соответствующей зависимости осуществляется путём сопаставления остаточных дисперсий, т.е. по критерию минимальной остаточной дисперсии.
- сумма квадратов ошибок (остаточная дисперсия).
m – кол-во параметров, оцениваемых по выборке МНК.
В случае линейной зависимости m=2
Se – средняя квадратичная ошибка уравнения регрессии.
- доля остаточной дисперсии
Значимость коэф. можно проверить с помощью Fтеста.фую долю в вариации результативного признака занимает выбранная воф, полученных по выборке.
Расчётное значение статистики вычисляется
m=количество факторов.
В нашем случае m=1 (у завісіт только от 1го х)
В нашем случае:
F(1,n-1)
Это расчётное значение мы сопоставляем с критическим. Степени свободы (1,n-1).
Делаем вывод о значении всего уравнения.
R^2=0 это тоже самое, что а=0, б=0.
В случае парной линейной регрессии коэффициент детерминации и коэф. Пирсена равны.
Для тех, кто учил как в конспекте:
Например, имеем дело с ф-ей 2ух переменных экстремум которой мы хотим найти. Первая частная производная должна быть = 0.