Коэффициент детерминации. Скорректированный коэффициент детерминации
2 – величина разброса наблюдаемых значений y относительно среднего.
2= 2 + 2 + 2 2( )
Вектор y в векторной форме:
(y - )' (y- ) = (y - )'(y - ) + ( )'( ) + 2(y - )( ),
2(y - )( ) = 0.
(y- )( )=e’( )=e’ ,
e’ векторы остатков ортогональны.
Таким образом:
2= 2 + 2,
Где - общая сумма квадратов, общая сумма разброса y относительно
где -сумма квадратов остатков регрессии(не объясняются с пом. регрессии), - фактические и расчетные значения объясняемой переменной.
где — объяснённая сумма квадратов, мера разброса, объясняется с помощью регрессии.
R2 – коэффициент детерминации, показывают какую часть дисперсии разброса эндогенной переменной относительно своего среднего удается объяснить колебаниями экзогенных переменных.
R2= , R2 [0,1].
Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
.Свойства R2:
1.R2 возрастает при добавлении еще одного регрессора
2.R2 изменяется при простейшем преобразовании зависимых переменных.
Основная проблема применения R2 заключается в том, что его значение увеличивается от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации некорректно. Для этих целей можно использовать альтернативные показатели.
Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров не влияло на статистику R2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:
R2adj =
где n — количество наблюдений, а k — количество параметров.
Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как "доли".
Проверка общего качества коэффициента регрессии. Проверка гипотезы: H0: .
Статистика критерия:
Статистика имеет распределение Фишера с степенями свободы, -статистика всегда положительна.
Гипотеза H0 отвергается на заданном уровне значимости, если выполняется c. Это означает, что объясненная дисперсия существенно больше остаточной, то есть уравнение регрессии достаточно качественно определяет динамику изменения зависимой переменной y.
Проверка гипотезы: H0: .