Интервальные оценка коэффициентов регрессии

ЛЕКЦИЯ 5

Анализ точности оценки коэффициентов регрессии. Стандартные ошибки регрессии и коэффициентов регрессии. Проверка гипотез относительно коэффициентов регрессии. Интервальные оценки коэффициентов регрессии. Показатели качества уравнения регрессии. Коэффициент детерминации. Критерий Фишера. Интервалы прогноза по уравнению регрессии.

§5.2. АНАЛИЗ ТОЧНОСТИ ОЦЕНОК КОЭФФИЦИЕНТОВ
РЕГРЕССИИ

5.2.1. Оценка дисперсии случайного отклонения s2

Проведем статистический анализ построенного уравнения регрессии, т.е. выясним насколько надёжны полученные оценки коэффициентов регрессии; как хорошо полученное уравнение регрессии описываем имеющиеся статистические данные, может быть следует изменить спецификацию модели; оценить точность прогноза, т.е. построить доверительный интервал для зависимой переменной. Для того чтобы провести такой статистический анализ модели, нужно, как мы видели в предыдущей лекции, знать закон распределения случайной величины e. При построении уравнения регрессии МНК такой информации не требовалось (в этом одно из преимуществ МНК), однако для проведения статистического анализа такая информация востребована. В дальнейшем мы будем работать в рамках нормальной классической регрессионной модели, т.е. выполняются все условия Гаусса-Маркова и, в частности, e подчиняется нормальному закону распределения. Вообще говоря, выполнимость этих условий ещё надо проверить, в данной лекции мы будем предполагать, что эти условия априори выполняются.

Сформулированные выше статистические свойства МНК-оценок коэффициентов регрессии справедливы и без предположения о нормальности случайного отклонения e. Однако, даже располагая информацией о состоятельности, несмещённости и оптимальности оценок, мы не можем решить задачи о построении доверительных интервалов для истинных значений рассматриваемых параметров, так же как и для неизвестных значений функции регрессии. Необходимой базой для решения этих задач является знание законов распределения вероятностей используемых оценок. Именно в рамках нормальной классической линейной регрессионной модели можно решить вопросы о значимости коэффициентов регрессии и построении для них доверительных интервалов, о качестве построенного уравнения регрессии в целом, о точности прогноза по этому уравнению.

В силу того, что случайные отклонения ei по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями Интервальные оценка коэффициентов регрессии - student2.ru значений yi переменной Y от оцененной линии регрессии. Не следует путать эмпирические отклонения ei с теоретическими отклонениями ei. И те и другие являются случайными величинами, однако разница состоит в том, что эмпирические отклонения, в отличие от теоретических, наблюдаемы.

Кажется вполне естественной гипотеза, что оценка s2 связана с суммой квадратов остатков регрессии Интервальные оценка коэффициентов регрессии - student2.ru . В самом деле,

Интервальные оценка коэффициентов регрессии - student2.ru ,

где Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru . Тогда

Интервальные оценка коэффициентов регрессии - student2.ru

Вычислим математическое ожидание Интервальные оценка коэффициентов регрессии - student2.ru .

Интервальные оценка коэффициентов регрессии - student2.ru .

Используя соотношение Интервальные оценка коэффициентов регрессии - student2.ru , получаем

Интервальные оценка коэффициентов регрессии - student2.ru ,

Интервальные оценка коэффициентов регрессии - student2.ru .

Таким образом,

Интервальные оценка коэффициентов регрессии - student2.ru .

Отсюда следует, что

Интервальные оценка коэффициентов регрессии - student2.ru . (5.34)

является несмещенной оценкой дисперсии случайного отклонения s2. Отметим, что S называется стандартной ошибкой регрессии,

Отметим, что в математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений n, на число степеней свободы n–m, равное разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их измерения, т.е. число m уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (5.34) стоит число степеней свободы n–2, т.к. две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений.

5.2.2.Проверка гипотез относительно коэффициентов
регрессии

Эмпирическое уравнение регрессии определяется на основе конечного числа статистических данных. Поэтому коэффициенты эмпирического уравнения регрессии являются случайными величинами, изменяющимися от выборки к выборке. Наиболее важной на начальном этапе статистического анализа построенной модели является задача установления значимости коэффициентов регрессии. Данный анализ осуществляется по схеме статистической проверки гипотез.

Можно показать, что в случае классической нормальной линейной регрессионной модели оценка дисперсии S2 случайных отклонений является независимой от b0 и b1 случайной величиной. Это позволяет построить статистики для проверки статистических гипотез.

В предыдущей лекции мы получили дисперсии оценок b0 и b1 коэффициентов регрессии в том случае, если s2 известно. На практике, как правило, дисперсия отклонений s2 неизвестна и оценивается по наблюдениям одновременно с коэффициентами регрессии b0 и b1. В этом случае вместо дисперсий оценок b0 и b1 мы можем получить лишь оценки дисперсий b0 и b1, заменив s2 на S2. Тогда

Интервальные оценка коэффициентов регрессии - student2.ru , (5.35)

Интервальные оценка коэффициентов регрессии - student2.ru , (5.36)

Интервальные оценка коэффициентов регрессии - student2.ru . (5.37)

Величины Интервальные оценка коэффициентов регрессии - student2.ru и Интервальные оценка коэффициентов регрессии - student2.ru называются стандартными ошибками коэффициентов регрессии коэффициентов b0 и b1, соответственно.

Для проверки гипотезы H0:b1=b1 при альтернативной гипотезе H1:b1¹b1 используется статистика

Интервальные оценка коэффициентов регрессии - student2.ru , (5.38)

которая при справедливости H0 имеет распределение Стьюдента с числом степеней свободы k=n–2. Следовательно, H0 отклоняется на основании данного критерия, если

Интервальные оценка коэффициентов регрессии - student2.ru , (5.39)

где a – требуемый уровень значимости. При невыполнении (5.39) считается, что нет оснований для отклонения H0.

Наиболее важной на начальном этапе статистического анализа построенной модели является проверка гипотезы H0:b1=0 при альтернативной гипотезе H1:b1¹0. Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. При этом, если гипотеза H0 принимается, то есть все основания считать, что величина Y не зависит от X. В этом случае говорят, что коэффициент b1 статистически незначим. При отклонении гипотезы H0 коэффициент b1 считается статистически значимым, что указывает на наличие линейной зависимости между Y и X. В данном случае рассматривается двусторонняя критическая область, т.к. важным является именно отличие от нуля коэффициента регрессии, а он может быть как положительным, так и отрицательным.

Поскольку полагается, b1=0, то формальная значимость оцененного коэффициента регрессии b1 проверяется при помощи критерия

Интервальные оценка коэффициентов регрессии - student2.ru , (5.40)

который называется t-статистикой (t-тестом).

По аналогичной схеме на основе t-статистики проверяется гипотеза о статистической значимости коэффициента b0:

Интервальные оценка коэффициентов регрессии - student2.ru . (5.41)

Отметим, что для парной регрессии более важным является анализ статистической значимости коэффициента b1, т.к. именно в нем скрыто влияние объясняющей переменной X на зависимую переменную Y.

Отметим также, что значения критериев (5.40) и (5.41) приводят всеми компьютерными пакетами в результатах регрессии. В учебниках и монографиях по эконометрике наблюдаемые значения t-критерия Стьюдента (или стандартные ошибки) указываются вместе с уравнением регрессии под соответствующим коэффициентом:

Интервальные оценка коэффициентов регрессии - student2.ru или Интервальные оценка коэффициентов регрессии - student2.ru .

Пример 5.3. Проверить значимость коэффициентов регрессии, полученных в
примере 5.1 (см. лекцию 4).

Решение. По данным таблицы 5.2 найдем оценку дисперсии случайного отклонения, т.е. квадрат стандартной ошибки регрессии:

Интервальные оценка коэффициентов регрессии - student2.ru .

Тогда

Интервальные оценка коэффициентов регрессии - student2.ru и Интервальные оценка коэффициентов регрессии - student2.ru .

Следовательно, наблюдаемое значение t-критерия Стьюдента коэффициента b1 равно

Интервальные оценка коэффициентов регрессии - student2.ru .

Критическое значение t-критерия Стьюдента на уровне значимости a=0,05 равно

Интервальные оценка коэффициентов регрессии - student2.ru .

Поскольку Интервальные оценка коэффициентов регрессии - student2.ru , то нулевая гипотеза отвергается в пользу альтернативной при выбранном уровне значимости. Это подтверждает статистическую значимость коэффициента регрессии b1.

Аналогично проверяется статистическая значимость коэффициента b0:

Интервальные оценка коэффициентов регрессии - student2.ru и Интервальные оценка коэффициентов регрессии - student2.ru .

Тогда наблюдаемое значение t-критерия Стьюдента коэффициента b0 будет равно

Интервальные оценка коэффициентов регрессии - student2.ru .

Поскольку Интервальные оценка коэффициентов регрессии - student2.ru , то нет оснований отклонять гипотезу о статистической незначимости коэффициента b0.

Таким образом, результаты анализа можно представить в виде

Интервальные оценка коэффициентов регрессии - student2.ru или Интервальные оценка коэффициентов регрессии - student2.ru . â

Интервальные оценка коэффициентов регрессии

Предположение о нормальном распределении случайных отклонений ei с нулевым математическим ожиданием и постоянной дисперсией, т.е. Интервальные оценка коэффициентов регрессии - student2.ru , позволяет получать не только наилучшие линейные несмещенные точечные оценки (BLUE-оценки) b0 и b1 коэффициентов b0 и b1 коэффициентов линейного уравнения регрессии, но и находить их интервальные оценки.

Здесь исходят из того, что случайные величины b0 и b1 при указанных выше предположениях имеют нормальные распределения:

Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru .

Тогда выражения

Интервальные оценка коэффициентов регрессии - student2.ru и Интервальные оценка коэффициентов регрессии - student2.ru

будут иметь стандартное нормальное распределение. Однако в выражениях для b0 и b1 дисперсия Интервальные оценка коэффициентов регрессии - student2.ru заменяется ее оценкой S2. Поэтому выражения

Интервальные оценка коэффициентов регрессии - student2.ru и Интервальные оценка коэффициентов регрессии - student2.ru (5.42)

будут иметь t-распределение Стьюдента с k=n–2 степенями свободы.

Для построения доверительных интервалов с помощью таблиц критических точек распределения Стьюдента по доверительной вероятности g=1–a и числу степеней свободы k=n–2 определяют критическое значение Интервальные оценка коэффициентов регрессии - student2.ru , удовлетворяющее условию

Интервальные оценка коэффициентов регрессии - student2.ru . (5.43)

Подставив сюда каждую из формул (5.36), получим

Интервальные оценка коэффициентов регрессии - student2.ru ; Интервальные оценка коэффициентов регрессии - student2.ru .

После преобразований выражений, стоящих в скобках, имеем:

Интервальные оценка коэффициентов регрессии - student2.ru ,

Интервальные оценка коэффициентов регрессии - student2.ru .

Таким образом, доверительные интервалы для коэффициентов регрессии будут иметь следующий вид

Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru , (5.44)

которые с вероятностью g=1–a накрывают определяемые параметры b0 и b1.

Пример 5.4. Найти интервальные оценки для примера 5.1, 5.3 с уровнем надёжности a=0,05.

Решение. В примерах 5.1-5.2 было найдено:

Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru , Интервальные оценка коэффициентов регрессии - student2.ru .

Тогда по формулам (5.46) находим для коэффициента b0:

Интервальные оценка коэффициентов регрессии - student2.ru ; Интервальные оценка коэффициентов регрессии - student2.ru .

Таким образом, с вероятностью 0,95 коэффициент регрессии b0 принимает значения из интервала Интервальные оценка коэффициентов регрессии - student2.ru . Поскольку ноль также попадает в этот интервал, то, как и следовало ожидать, коэффициент b0 не является значимым.

Для коэффициента b1 получаем следующие результаты:

Интервальные оценка коэффициентов регрессии - student2.ru ; Интервальные оценка коэффициентов регрессии - student2.ru .

Таким образом, с вероятностью 0,95 коэффициент регрессии b1 принимает значения из интервала Интервальные оценка коэффициентов регрессии - student2.ru . Поскольку D1 значительно меньше b1, то точность прогноза, связанного с этим коэффициентом будет достаточно высокой. â

Наши рекомендации