Оценка параметров, оценка адекватности модели
Парная регрессия и корреляция
В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.
Рассмотрим линейную модель и представим ее в виде
= b0 + b1x. (1)
Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b0, b1) используя метод наименьших квадратов (МНК).
Согласно МНК неизвестные параметры b0 и b1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений yi от значений , найденных по уравнению регрессии (1), была минимальной:
. (2)
На основании необходимого условия экстремума функции двух переменных S = S(b0, b1) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы на n, получим систему нормальных уравнений в следующем виде:
(3)
где соответствующие средние определяются по формулам:
; (4) ; (6)
; (5) . (7)
Решая систему (3), найдем
, (8)
где - выборочная дисперсия переменной х:
, (9)
- выборочный корреляционный момент или выборочная ковариация:
. (10)
Коэффициент b1 называется выборочным коэффициентом регрессии Y по X.
Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.
Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.
Формулы для расчета коэффициента корреляции имеют следующий вид:
; (11)
. (12)
Выборочный коэффициент корреляции обладает следующими свойствами:
1.Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.
2.При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.
3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.
В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной у будут в большей или меньшей мере отклоняться от функции регрессии j(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:
у = j(х) + e,
где e - случайная переменная (случайный член), характеризующая отклонение от функции регрессии.
Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).
1. В модели yi = b0 + b1xi + ei возмущение ei есть величина случайная, а объясняющая переменная xi – величина неслучайная.
2. Математическое ожидание возмущения ei равно нулю:
M(ei) = 0. (13)
3. Дисперсия возмущения ei постоянна для любого i:
D(ei) = s2. (14)
4. Возмущения ei и ej не коррелированны:
M(ei ej) = 0 (i ¹ j). (15)
5. Возмущения ei есть нормально распределенная случайная величина.
Оценкой модели yi = b0 + b1xi + ei по выборке является уравнение регрессии = b0 + b1x. Параметры этого уравнения b0 и b1 определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии.
Теорема Гаусса-Маркова. Если регрессионная модель
yi = b0 + b1xi + ei удовлетворяет предпосылкам 1-5, то оценки b0, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров b0 и b1.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.
Нулевая гипотеза Н0 – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.
Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.
Коэффициент регрессии (b1) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н0) о равенстве нулю коэффициента регрессии (Н0:b1 = 0) против альтернативной гипотезы (Н1) о неравенстве нулю коэффициента регрессии (Н1:b1 ¹ 0). Для проверки гипотезы Н0 против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n - 2) степенями свободы (парная линейная регрессия).
Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н0), если tнабл > ta;n-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости. ta;n-2 - критическая точка, определяемая по математико-статистическим таблицам.
Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.
Согласно основной идее дисперсионного анализа
(16)
или
Q = QR + Qe, (17)
где Q – общая сумма квадратов отклонений зависимой переменной от средней, а QR и Qe – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.
Схема дисперсионного анализа имеет вид, представленный в табл. 1.
Средние квадраты и s2 (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.
При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют c2-распределение соответственно с т – 1 и п – т степенями свободы.
Таблица 1
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Средние квадраты |
Объясненная | m – 1 | ||
Остаточная | n – m | ||
Общая | n – 1 |
Поэтому уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики
, (18)
где - табличное значение F-критерия Фишера-Снедекора, определяемое на уровне значимости a при k1 = m – 1 и k2 = n – m степенях свободы.
Учитывая смысл величин и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.
Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне a (отвергается нулевая гипотеза), если
. (19)
Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b1, который имеет t-распределение Стьюдента с k = n – 2 степенями свободы.
Уравнение парной регрессии или коэффициент регрессии b1 значимы на уровне a (иначе – гипотеза Н0 о равенстве параметра b1 нулю, т.е.
Н0:b1 = 0, отвергается), если фактически наблюдаемое значение статистики
(20)
больше критического (по абсолютной величине), т.е. |t| > t1 - a; n - 2.
Коэффициент корреляции r значим на уровне a (Н0: r = 0), если
. (21)
Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:
. (22)
Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.
В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R2 = r2.