Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев

Приводимая ниже таблица 5.1 содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.):

Y –объем импорта товаров и услуг во Францию;

X1 –валовой национальный продукт;

X2 –потребление семей.

Таблица 5.1

год Y X1 X2 год Y X1 X2
15.9 149.3 4.2 22.7 202.1 2.1
16.4 161.2 4.1 26.5 212.4 5.6
19.0 171.5 3.1 28.1 226.1 5.0
19.1 175.5 3.1 27.6 231.9 5.1
18.8 180.8 1.1 26.3 0.7
20.4 190.7 2.2 31.1 5.6

Выберем модель наблюдений в виде

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

где Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – значение показателя Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru в i-м наблюдении (i-му наблюдению соответствует Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru год. Будем, как обычно, предполагать что Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru нормально распределенные случайные величины с параметрамиПроверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ruи что значение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru нам не известно. Регрессионный анализ дает следующие результаты: Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru и

Переменная Коэф-т Ст. ошибка t-статист. P-знач.
–8.570 2.869 -2.988 0.0153
X1 0.029 0.110 0.267 0.7953
X2 0.177 0.166 1.067 0.3136

Обращают на себя внимание выделенные курсивом Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значения. В соответствии с ними, проверка каждой отдельной гипотезы Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru (даже при уровне значимости Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru ) приводит к решению оеенеотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru или Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru признается статистически незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации.

По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

конкретизирующей значения не какого-то одного, а сразу двух коэффициентов.

И вообще, как проверить гипотезу

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

(гипотеза значимости регрессии) в рамках нормальной линейной модели множественной регрессии

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Соответствующий статистический критерий основывается на так называемой F-статистике

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Здесь Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – остаточная сумма квадратов, получаемая при оценивании полной модели (с Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru объясняющими переменными, включая тождественную единицу), а Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru ограничениями на параметры. Но последняя (редуцированная) модель имеет вид

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

и применение к ней метода наименьших квадратов приводит к оценке

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

так что

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Следовательно,

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты –MeanSquares).

Если Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru нормально распределенные случайные величины с параметрамиПроверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru, то указанная Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru-статистика, рассматриваемая как случайная величина, имеет при гипотезе H0 (т. е. когда действительно α1=¼= αm=0) стандартное распределение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , называемое F-распределением Фишера с m и (n-m-1) степенями свободы.

Чем больше отношение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , тем больше есть оснований говорить о том, что совокупность переменных Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru действительно помогает в объяснении изменчивости объясняемой переменной Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

В соответствии с этим, гипотеза

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru распределения Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , обозначаемая символом Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Итак, гипотеза Н0 отвергается, если выполняется неравенство

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

При этом вероятность ошибочного отвержения гипотезы Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru равна Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также значение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru указанной Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -статистики и соответствующее ему P-значение (P-value), т. е. вероятность

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию вычисленное (наблюдаемое) значение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -статистики равно Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , в то время как критическое значение

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Соответственно, Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значение крайне мало – в распечатке результатов приведено значение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru . Значит, здесь нет практически никаких оснований принимать составную гипотезу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , хотя каждая из частных гипотез

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru и Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru ,

рассматриваемая сама по себе, в отрыве от второй, не отвергается.

Подобное положение встречается не так уж и редко и связано с проблемой мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание.

Пример 5.5.Анализ данныхоб уровнях безработицы среди белого и цветного населения США приводит к следующим результатам:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значение = Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , так что при выборе Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru гипотеза Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru не отвергается, а при выборе Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru отвергается.

Пример 5.6. Анализ зависимости спроса на куриные яйца от цены приводит к значениям

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значение = Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , так что гипотеза Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru отвергается, а регрессия признается статистически значимой.

Пример 5.7. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значение = Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , регрессия признается статистически значимой.

Пример 5.8.Потребление свинины в США в зависимости от оптовых цен:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значение = Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , так что гипотеза Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru не отвергается даже при выборе Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели простой (парной) линейной регрессии (m=1) вычисленные Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значения Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -статистик совпадают с Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -значениями Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -статистик, используемых для проверки гипотезы Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru . Факт такого совпадения отнюдь не случаен и может быть доказан с использованием алгебраических преобразований.

Применение критериев, основанных на статистиках, имеющих при нулевой гипотезе Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -распределение Фишера (F-критерии), отнюдь не ограничивается только что рассмотренным анализом статистической значимости регрессии. Такие критерии широко применяются в процессе подбора модели.

Пусть мы находимся в рамках множественной линейной модели регрессии

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

c Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru объясняющими переменными, и гипотеза Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru состоит в том, что в модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru последние Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru коэффициентов равны нулю, т. е.

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Тогда при гипотезе Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru (т. е. в случае, когда она верна) мы имеем редуцированную модель

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

уже с Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru объясняющими переменными.

Пусть Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru - остаточная сумма квадратов в полной модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , а Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – остаточная сумма квадратов в редуцированной модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru . Если гипотеза Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru верна и выполнены стандартные предположения о модели (в частности, Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru нормально распределенные случайные величины с параметрами Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru ), то тогда F-статистика

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

рассматриваемая как случайная величина, имеет при гипотезе H0 (т. е. когда действительно αm= αm-1=¼= αm-q+1=0) F-распределение Фишера F (q, n-m-1) с q и (n-m-1) степенями свободы.

F-статистика измеряет, в соответствующем масштабе, возрастание объясненной суммы квадратов вследствие включения в модель дополнительного количества объясняющих переменных.

Естественно считать, что включение дополнительных переменных существенно, если указанное возрастание объясненной суммы квадратов достаточно велико. Это приводит нас к критерию проверки гипотезы

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

основанному на F-статистике и отвергающему гипотезу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , когда наблюдаемое значение Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru этой статистики удовлетворяет неравенству

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

где Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – выбранный уровень значимости критерия (вероятность ошибки 1-го рода).

Пример 5.9.В таблице 5.2. приведены данные по США о следующих макроэкономических показателях:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru –годовой совокупный располагаемый личный доход;

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru –годовые совокупные потребительские расходы;

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru –финансовые активы населения на начало календарного года

(все показатели указаны в млрд. долларов, в ценах 1996 г.).

Таблица5.2

год C DPI A
1300.5 1433.0 1641.6
1339.4 1494.9 1675.2
1405.9 1551.1 1772.6
1458.3 1601.7 1854.7
1491.8 1668.1 1862.2
1540.3 1730.1 1902.8
1622.3 1797.9 2011.4
1687.9 1914.9 2190.6
1672.4 1894.9 2301.8
1710.8 1930.4 2279.6
1804.0 2001.0 2308.4

Рассмотрим модель наблюдений

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

где индексу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru соответствует Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru год. Это модель с 3 объясняющими переменными:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

символ Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru обозначает переменную, значения которой запаздывают на одну единицу времени относительно значений переменной, Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru . Оценивание этой модели дает следующие результаты:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru — статистика критерия проверки значимости регрессии в целом

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Регрессия имеет очень высокую статистическую значимость. Вместе с тем, каждый из коэффициентов при двух последних переменных статистически незначим, так что, в частности, не следует придавать особого значения отрицательности оценок этих коэффициентов.

Используя Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – критерий, мы могли бы попробовать удалить из модели какую-нибудь одну из двух последних переменных, и если оставшиеся переменные окажутся значимыми, то остановиться на модели с 2 объясняющими переменными; если же и в новой модели окажутся статистически незначимые переменные, то произвести еще одну редукцию модели.

Рассмотрим, в этой связи, модель

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

с удаленной переменной Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru . Для нее получаем:

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

F-статистика критерия проверки значимости регрессии в этой модели

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Поскольку здесь остается статистически незначимым коэффициент при переменной Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , можно произвести дальнейшую редукцию, переходя к модели

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Для этой модели

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -статистика критерия проверки значимости регрессии в этой модели

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

и эту модель в данном контексте можно принять за окончательную.

С другой стороны, обнаружив при анализе модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru (посредством применения t-критериев) статистическую незначимость коэффициентов при двух последних переменных, мы можем попробовать выяснить возможность одновременного исключения из этой модели указанных объясняющих переменных, опираясь на использование соответствующего F-критерия.

Исключение двух последних переменных из модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru соответствует гипотезе

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

при которой модель Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru редуцируется сразу к модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru . Критерий проверки гипотезы Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru основывается на статистике

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

где Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – остаточная сумма квадратов в модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – остаточная сумма квадратов в модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru – количество зануляемых параметров, Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Для наших данных получаем значение

Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru

которое следует сравнить с критическим значением Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru Поскольку Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , мы не отвергаем гипотезу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru и можем сразу перейти от модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru к модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Замечание. В рассмотренном примере мы действовали двумя способами:

Дважды использовали Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -критерии, сначала приняв (не отвергнув) гипотезу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru в рамках модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru , а затем приняв гипотезу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru в рамках модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Однократно использовали F-критерий, приняв гипотезу Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru в рамках модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru .

Выводы при этих двух альтернативных подходах оказались одинаковыми. Однако, из выбора модели Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru в подобной последовательной процедуре,вообще говоря, не следует что такой же выбор будет обязательно сделан и при применении Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев - student2.ru -критерия, сравнивающего первую и последнюю модели.

Наши рекомендации