Коэффициент детерминации

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии, которое оценивается по тому, как хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Другими словами, насколько широко рассеяны точки наблюдений относительно линии регрессии. Очевидно, если все точки лежат на построенной прямой, то регрессия Y на X «идеально» объясняет поведение зависимой переменной. В реальной жизни такая ситуация практически не встречается обычно поведение Y лишь частично объясняется влиянием переменной X.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. В математической статистике дисперсионный анализ рассматривается как самостоятельный метод статистического анализа. Здесь же он применяется как вспомогательное средство для изучения качества регрессионной модели.

Рассмотрим вариацию (разброс) значений yi вокруг среднего значения Коэффициент детерминации - student2.ru . Разобьём эту вариацию на две части: объяснённую регрессионным уравнением и не объяснённую (т.е. связанную с ошибками ei). Тогда получим

Коэффициент детерминации - student2.ru (5.45)

Покажем, что третье слагаемое будет равно нулю:

Коэффициент детерминации - student2.ru .

Здесь учтено свойства ошибки ei: Коэффициент детерминации - student2.ru и Коэффициент детерминации - student2.ru .

Таким образом, справедливо следующее равенство

Коэффициент детерминации - student2.ru , (5.46)

где Коэффициент детерминации - student2.ru – общая сумма квадратов отклонений зависимой переменной от средней, а Коэффициент детерминации - student2.ru и Коэффициент детерминации - student2.ru – соответственно, сумма квадратов, обусловленная регрессией, и сумма квадратов, характеризующая влияние неучтенных факторов.

Замечание 1. В англоязычной литературе Q, QR, Qe часто обозначаются соответственно TSS (total sum of squares), RSS (regression sum of squares) и ESS (error sum of squares), хотя эти обозначения не являются общепринятыми.

Замечание 2. Равенство (5.46) верно только в том случае, когда константа b0 включена в число объясняющих параметров регрессии.

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле

Коэффициент детерминации - student2.ru . (5.47)

Заметим, что второе равенство в (5.47) верно лишь в том случае, если верно (5.46), т.е. когда константа включена в уравнение регрессии. Только в этом случае имеет смысл рассматривать статистику R2.

В силу определения R2 принимает значения между 0 и 1, Коэффициент детерминации - student2.ru . Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2=1, то эмпирические точки (xi,yi) лежат на линии регрессии и между переменными Y и X существует линейная функциональная зависимость. Если R2=0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных, и линии регрессии параллельна оси абсцисс. Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

Не следует однако абсолютизировать высокие значения R2, т.к. коэффициент детерминации может быть близким к единице в силу того, что обе исследуемые величины X и Y имеют выраженный временной тренд, не связанный с их причинно-следственной зависимостью. В экономике обычно такой тренд имеют объёмные показатели (ВНП, ВВП, доход, потребление). А темповые и относительные показатели (темпы роста, производительность, ставка процента) не всегда имеют тренд. Поэтому при оценивании регрессий по временным рядам объёмных показателей (например, зависимость потребления от дохода или спроса от цены) величина R2 может быть весьма близкой к единице. Но это не обязательно свидетельствует о наличии значимой линейной связи между исследуемыми показателями, а может лишь означать лишь то, что поведение зависимой переменной нельзя описать уравнением Коэффициент детерминации - student2.ru .

Если уравнение регрессии строится по перекрестным данным, а не по временным рядам, то коэффициент детерминации R2 для него обычно не превышает 0,6-0,7. Аналогичные значения R2 обычно получаются и для регрессий по временным рядам, если они не имеют выраженного тренда (темп инфляции от уровня безработицы, темпы прироста выпуска от темпов прироста затрат ресурсов и т.п.).

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т.е. R2=r2.

% Действительно,

Коэффициент детерминации - student2.ru . &

Пример 5.5. По данным примеров 5.1-5.4 рассчитать коэффициент детерминации R2.

Решение. По формуле (5.71) находим

Коэффициент детерминации - student2.ru .

Столь высокое значение коэффициента детерминации свидетельствует о высоком общем качестве построенного уравнения регрессии. Отметим, что коэффициент детерминации можно было вычислить и иначе: Коэффициент детерминации - student2.ru . â

5.3.2. Проверка общего качества уравнения регрессии:
F-тест

Любая сумма квадратов отклонений связана с числом степеней свободы (df – degrees of freedom), т.е. с числом независимого варьирования переменной. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных Коэффициент детерминации - student2.ru требуется для образования данной суммы квадратов. Так, для общей суммы квадратов Коэффициент детерминации - student2.ru требуется (n–1) независимых отклонений, ибо по совокупности из n единиц после расчета среднего значения свободно варьируются лишь (n–1) число отклонений. Это связано с тем, что Коэффициент детерминации - student2.ru , поэтому если известны (n–1) отклонений, то n-ое отклонение может быть уже вычислено.

При расчёте объяснённой или факторной суммы квадратов Коэффициент детерминации - student2.ru используются теоретические (расчётные) значения результативного признака Коэффициент детерминации - student2.ru , найденные по линии регрессии. В линейной регрессии Коэффициент детерминации - student2.ru , следовательно, при заданном объёме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только одной константы коэффициента регрессии b1, то данная сумма квадратов имеет одну степень свободы. К этому же выводу можно прийти и по другому. Величина Коэффициент детерминации - student2.ru определяется по уравнению линейной регрессии: Коэффициент детерминации - student2.ru . Отсюда видно, что при заданном наборе переменных x и y расчётное значение Коэффициент детерминации - student2.ru является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равно 1.

Число степеней свободы остаточной суммы квадратов Коэффициент детерминации - student2.ru для линейной регрессии, как мы видели, равна (n–2). Между числом степеней свободы общей, факторной и остаточной суммами квадратов существует взаимосвязь. Число степеней свободы для общей суммы квадратов равно сумме степеней свободы для факторной и остаточной сумм квадратов: Коэффициент детерминации - student2.ru .

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

Коэффициент детерминации - student2.ru , Коэффициент детерминации - student2.ru , Коэффициент детерминации - student2.ru .

Определение дисперсии на одну степень свободы приводит дисперсии к сравниваемому виду.

При отсутствии линейной зависимости между зависимой и объясняющей переменными случайные величины Коэффициент детерминации - student2.ru и Коэффициент детерминации - student2.ru имеют c2-распределение соответственно с 1 и n–2 степенями свободы. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим случайную величину, описывающуюся распределением Фишера с теми же степенями свободы:

Коэффициент детерминации - student2.ru . (5.48)

Полученную F-статистику можно использовать для проверки нулевой гипотезы Коэффициент детерминации - student2.ru . Для линейной регрессии критерий (5.48) можно записать в виде

Коэффициент детерминации - student2.ru , (5.49)

поэтому нулевой гипотезе можно придать вид Коэффициент детерминации - student2.ru . Таким образом, значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с её средней.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга, т.е. Коэффициент детерминации - student2.ru . Эмпирическое уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

Коэффициент детерминации - student2.ru ,

где Коэффициент детерминации - student2.ru – табличное значение F-критерия Фишера, определённое на уровне значимости a при k1=1 и k2=n–2 степенях свободы.

Величина F-критерия связана с коэффициентом детерминации R2. Факторную сумму квадратов отклонений можно представить как

Коэффициент детерминации - student2.ru ,

а остаточную сумму квадратов – как

Коэффициент детерминации - student2.ru .

Тогда значение F-критерия можно выразить как

Коэффициент детерминации - student2.ru . (5.50)

Таким образом, F-критерий является также критерием для проверки значимости коэффициента детерминации R2.

5.3.3. Проверка общего качества уравнения регрессии:
t-тест

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b1, который, как уже отметалось, имеет распределение Стьюдента с n–2 степенями свободы.

Уравнение парной линейной регрессии или коэффициент регрессии b1 значимы на уровне a (иначе – гипотеза H0 о равенстве коэффициента b1нулю, т.е. Коэффициент детерминации - student2.ru , отвергается), если фактически наблюдаемое значение статистики

Коэффициент детерминации - student2.ru (5.51)

больше критического (по абсолютной величине), т.е. Коэффициент детерминации - student2.ru .

Если сравнить (5.50) и (5.52), то можно заметить, что

Коэффициент детерминации - student2.ru . (5.52)

Следовательно, для парной линейной модели оба способа проверки значимости с использованием F- и t-критериев равносильны.

Пример 5.6. По данным примеров 5.1-5.5 проверить значимость построенного уравнения регрессии.

Решение. По формуле (5.50) находим

Коэффициент детерминации - student2.ru .

На уровне значимости a=0,05 и числе степеней свободы k1=1 и k2=10 получим

Коэффициент детерминации - student2.ru .

Поскольку Fнабл>Fкрит, то можно сделать вывод о значимости уравнения регрессии на уровне значимости 0,05. Отметим также, что для коэффициента b1 t-критерий равен

Коэффициент детерминации - student2.ru .

Как легко заметить, что для данного случая Коэффициент детерминации - student2.ru . â

Наши рекомендации