Оценка надежности результатов множественной регрессии и корреляции
Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью -критерия Фишера:
где – факторная сумма квадратов на одну степень свободы;
– остаточная сумма квадратов на одну степень свободы;
– коэффициент (индекс) множественной детерминации;
– число параметров при переменных (в линейной регрессии совпадает с числом включенных в модель факторов);
– число наблюдений.
Пример. Предположим, что модель урожайности пшеницы (ц/га) от количества внесенных минеральных удобрений на 1 га (ц) и осадков (мм) характеризуется следующим уравнением;
.
При этом , , . Результаты дисперсионного анализа оказываются следующими (см. табл.).
Результаты дисперсионного анализа
Источники вариации | Число степеней свободы | Сумма квадратов, | Дисперсия на одну степень свободы, | ||
Объясненная за счет регрессии | 86,7 | 21,675 | 16,27 | 2,76 | |
Остаточная | 33,3 | 1,332 | 1,00 | – | |
Общая | 120,0 | – | – | – |
;
;
.
Так как фактическое значение -критерия при превышает табличное, то уравнение статистически значимо. Этот же результат получим, воспользовавшись приведенной ранее формулой -критерия:
Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный -критерий, т. е. .
Частный -критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом.
В общем виде для фактора частный -критерий определится как
Предположим, что оцениваем значимость влияния как дополнительно включенного в модель фактора. Используем следующую формулу:
где – коэффициент множественной детерминации для модели с полным набором факторов;
– тот же показатель, но без включения в модель фактора ;
– число наблюдений;
– число параметров в модели (без свободного члена).
Если оцениваем значимость влияния одного фактора после включения в модель факторов другого для линейной двухфакторной регрессии, то формула частного -критерия примет вид:
;
В числителе формул (2) – (4) показан прирост доли объясненной вариации за счет дополнительного включения в модель соответствующего фактора.
В знаменателе доля остаточной вариации по регрессионной модели, включающей полный набор факторов.
Фактическое значение частного -критерия сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: 1 и . Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение -критерия меньше табличного, то дополнительное включение в модель фактора не увеличивает существенно долю объясненной вариации признака , следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим.
С помощью частного -критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор вводился в уравнение множественной регрессии последним.
Частный -критерий оценивает значимость коэффициентов чистой регрессии. Зная величину , можно определить и -критерий для коэффициента регрессии при -м факторе, , a именно:
Оценка значимости коэффициентов чистой регрессии по -критерию Стьюдента может быть проведена и без расчета частных -критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула
где – коэффициент чистой регрессии при факторе ;
– средняя квадратическая ошибка коэффициента регрессии .
Для уравнения множественной регрессии
средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле:
где – среднее квадратическое отклонение для признака ;
– среднее квадратическое отклонение для признака ;;
– коэффициент детерминации для уравнения множественной регрессии;
– коэффициент детерминации для зависимости фактора , со всеми другими факторами уравнения множественной регрессии.
Как видим, чтобы воспользоваться данной формулой, необходимы матрица межфакторной корреляции и расчет по ней соответствующих коэффициентов детерминации . Так, для уравнения
оценка значимости коэффициентов регрессии предполагает расчет трех межфакторных коэффициентов детерминации, а именно: , , .
Аналогично можно оценивать и существенность частных показателей корреляции. Фактическое значение частного коэффициента корреляции сравнивается с табличным значением при или и числе степеней свободы , где – число наблюдений, – число исключенных переменных. Так, если и оценивается существенность частного коэффициента корреляции второго порядка (например, ), то и .
Если является наивысшим порядком расчета частных коэффициентов корреляции для уравнения регрессии, то практически величина совпадает с числом степеней свободы для остаточной вариации с . Если же уравнение регрессии дополняется расчетом частных коэффициентов корреляции разных порядков (второго, третьего и т. п.), то
Если величина частного -критерия выше табличного значения, то это означает одновременно не только значимость рассматриваемого коэффициента регрессии, но и значимость частного коэффициента корреляции. Существует взаимосвязь между квадратом частного коэффициента корреляции и частным -критерием, а именно:
Взаимосвязь показателей частного коэффициента корреляции, частного F-критерия и
-критерия Стьюдента для коэффициентов чистой регрессии может использоваться в процедуре отбора факторов. Отсев факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам и . Частный -критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.