Интервальные оценки коэффициентов регрессии
По аналогии с парной регрессией после определения точечных оценок коэффициентов - (j =0,1,…,m) теоретического уравнения регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов. Для построения интервальной оценки коэффициента строится -статистика
(6.26)
имеющая распределение Стюдента с числом степеней свободы v= n — т — 1 (n— объем выборки, т - количество объясняющих переменных в модели)
Пусть необходимо построить 100(1 — )%-й доверительный интервал для коэффициента Тогда по таблице критических точек распределения Стьюдента по требуемому уровню значимости а и числу степеней свободы находят критическую точку Удовлетворяющую условию
Подставляя (6.26) в (6.27), получаем
или после преобразования
Напомним, что рассчитывается по формуле
Таким образом, доверительный интервал, накрывающий с надежностью (1 – ) неизвестное значение параметра , определяется неравенством
Отметим, что по аналогии с парной регрессией (может быть построена интервальная оценки для среднего значения предсказания:
В матричной форме это неравенство имеет вид:
17)Коэффициент детерминации R2. Отличие скорректированного коэффициента детерминации от обычного.
После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется
коэффициент детерминации R , который в общем случае рассчитывается по формуле
Как отмечалось, в общем случае . Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение У. Поэтому естественно желание построить регрессию с наибольшим R2.
Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2. Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении У.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится так называемый скорректированный (исправленный) коэффициент детерминации:
(6.35)
Можно заметить, что является несмещенной оценкой общей дисперсии — дисперсии отклонений значений переменной У от . При этом число ее степеней свободы равно (n — 1). Одна степень свободы теряется при вычислении .
В свою очередь является несмещенной оценкой остаточной дисперсии — дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно (n - m -1). Потеря (m + 1) степени свободы связана с необходимостью решения системы (m + 1) линейного уравнения при определении коэффициентов эмпирического уравнения регрессии. Попутно заметим, что несмещенная оценка объясненной дисперсии (дисперсии отклонений точек на линии регрессии от ) имеет число степеней свободы, равное разности степеней свободы общей дисперсии и остаточной дисперсии (n — 1) — (n- m -1) = m.
Соотношение (6.35) может быть представлено в следующем виде:
(6.36)
Из (6.36) очевидно, что < R2 для m > 1. С ростом значения m скорректированный коэффициент детерминации растет медленнее, чем (обычный) коэффициент детерминации R2. Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. Нетрудно заметить, что = R2 только при R2 = 1. может принимать отрицательные значения (например, при R2 = 0).
Доказано, что R увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Обычно приводятся данные как по R2, так и по , являющиеся суммарными мерами общего качества уравнения регрессии. Однако не следует абсолютизировать значимость коэффициентов детерминации. Существует достаточно примеров неправильно специфицированных моделей, имеющих высокие коэффициенты детерминации (обсудим данную ситуацию позже). Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, который нужно проанализировать, чтобы уточнить строящуюся модель.
18)Анализ статистической значимости коэффициента детерминации R2.
на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R2:
Для проверки данной гипотезы используется следующая F-статистика:
(6.38)
Величина F при выполнении предпосылок МНК и при справедливости Но имеет распределение Фишера, аналогичное распределению F-статистики (6.37). Действительно, разделив числитель и знаменатель дроби в (6.37) на общую сумму квадратов отклонений , мы получим формулу(6.38);
Из (6.38) очевидно, что показатели F и R2 равны или не равны нулю одновременно. Если F = 0, то R2 = 0, и линия регрессии Y = является наилучшей по МНК, и, следовательно, величина Y линейно не зависит от .Для проверки нулевой гипотезы при заданном уровне значимости по таблицам критических точек распределения Фишера находится критическое значение . Нулевая гипотеза отклоняется, если Fнабл > Fкр, Это равносильно тому, что R2 > 0, т.е. R статистически значим.
Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.
Пусть, например, при оценке регрессии с двумя объясняющими переменными по 30 наблюдениям R2 = 0,65. Тогда Fнабл= .
По таблицам критических точек распределения Фишера найдем . =3,36; = 5,49. = 25,07 > Fкр как при 5% -м, так и при 1%-м уровне значимости, то нулевая гипотеза в обоих случаях отклоняется.
Если в той же ситуации , то . Предположение о незначимости связи отвергается и здесь.
Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для t-статистики коэффициента корреляции.
В этом случае F-статистика равна квадрату t-статистики. Самостоятельную значимость коэффициент R2 приобретает в случае множественной линейной регрессии.