Проверка существенности факторов и показатели
Качества регрессии
Практическую значимость уравнения множественной регрессии оценивают при помощи показателя множественной корреляции и его квадрата – показателя детерминации.
Показатель множественной корреляции оценивает тесноту совместного влияния набора факторов на результат.
Показатель множественной корреляции может быть определен как индекс множественной корреляции:
, (1.90)
где – общая дисперсия результативного признака;
– остаточная дисперсия.
Изменение индекса множественной корреляции находится в границах от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции: .
При правильном включении факторов в регрессионную модель величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции. Следовательно, сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного признака-фактора.
Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:
. (1.91)
Можно пользоваться следующей формулой индекса множественной детерминации:
. (1.92)
При линейной зависимости признаков формула индекса множественной корреляции может быть представлена следующим выражением:
, (1.93)
где – стандартизованные коэффициенты регрессии;
– парные коэффициенты корреляции результата с каждым фактором.
Формула индекса множественной корреляции для линейной регрессии называется линейным коэффициентом множественной корреляции или совокупным коэффициентом корреляции.
В рассмотренных показателях множественной корреляции используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений . Если число параметров при равно и приближается к объему наблюдений, то остаточная дисперсия будет близка к нулю и коэффициент (индекс) корреляции приблизятся к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной корреляции.
Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно остаточная сумма квадратов делится на число степеней свободы остаточной вариации , а общая сумма квадратов отклонений на число степеней свободы в целом по совокупности .
Скорректированный индекс множественной детерминации определяется на основании формулы:
, (1.94)
где – число параметров при переменных ;
– число наблюдений.
Ввиду того, что , величину скорректированного индекса детерминации можно представить в виде:
. (1.95)
Чем больше величина , тем сильнее различия между и .
Ранжирование факторов, участвующих в моделях множественной линейной регрессии, можно провести с помощью частных коэффициентов корреляции (для линейных связей). Частные показатели корреляции часто используют при решении вопросов отбора факторов - целесообразность включения того или иного фактора в модель можно доказать величиной показателя частной корреляции.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.
В общем виде при наличии факторов для уравнения регрессии:
коэффициент частной корреляции, измеряющий влияние фактора на , при неизменном уровне других факторов, можно определить при двух факторах по формулам:
; . (1.96)
Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Так, – коэффициент частной корреляции первого порядка. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле. При двух факторах данная формула примет вид:
; . (1.97)
Для уравнения регрессии с тремя факторами частные коэффициенты корреляции второго порядка определяются на основе частных коэффициентов корреляции первого порядка.
Частные коэффициенты корреляции, рассчитанные по рекуррентной формуле, изменяются в пределах от –1 до +1, а по формулам через множественные коэффициенты детерминации – от 0 до 1. Сравнение их друг с другом позволяет ранжировать факторы по тесноте их связи с результатом.
Частные коэффициенты корреляции показывают меру тесноты связи каждого фактора с результатом в чистом виде. Если из стандартизованного уравнения регрессии следует, что , т.е. по силе влияния на результат порядок факторов таков: , , , то этот же порядок факторов определяется и по соотношению частных коэффициентов корреляции, как .
Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент корреляции. Так, для двухфакторного уравнения формула совокупного коэффициента корреляции принимает вид:
. (1.98)
При полной зависимости результативного признака от исследуемых признаков-факторов коэффициент совокупного их влияния равен единице. Из единицы вычитается доля остаточной вариации результативного признака , обусловленная последовательно включенными в анализ факторами. В результате подкоренное выражение характеризует совокупное действие всех исследуемых признаков-факторов.
Значимость уравнения множественной регрессии в целом, так же как и в моделях парной регрессии, оценивается с помощью -критерия Фишера:
, (1.99)
где – факторная сумма квадратов на одну степень свободы;
– остаточная сумма квадратов на одну степень свободы;
– коэффициент (индекс) множественной детерминации;
– число параметров при переменных (в линейной регрессии совпадает с числом включенных в модель факторов);
– число наблюдений.
Оценивается значимость не только уравнения в целом, но также и признака-фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки обусловлена тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный -критерий, т.е. .
Частный -критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Для двухфакторного уравнения частные -критерии имеют вид:
, . (1.100)
Фактическое значение частного -критерия сравнивается с табличным при уровне значимости и числе степеней свободы: 1 и . Если фактическое значение превышает , то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то дополнительное включение в модель фактора не увеличивает существенно долю объясненной вариации признака , следовательно, нецелесообразно его включение в модель. Коэффициент регрессии при данном факторе в этом случае статистически незначим.
С помощью частного -критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий признак-фактор вводится в уравнение множественной регрессии последним. Частный -критерий оценивает значимость коэффициентов чистой регрессии. Зная величину , можно определить и -критерий для коэффициента регрессии при -м факторе, , а именно:
. (1.101)
Оценка значимости коэффициентов чистой регрессии по -критерию Стьюдента может быть проведена и без расчета частных -критериев. В данном случае, как и в парной регрессии, для каждого фактора используют формулу:
, (1.102)
где – коэффициент чистой регрессии при факторе ,
– средняя квадратическая ошибка коэффициента регрессии .
Для уравнения множественной регрессии среднюю квадратическую ошибку коэффициента регрессии можно определить по следующей формуле:
, (1.103)
где – среднее квадратическое отклонение для признака ,
– среднее квадратическое отклонение для признака ,
– коэффициент детерминации для уравнения множественной регрессии,
– коэффициент детерминации для зависимости фактора со всеми другими факторами уравнения множественной регрессии;
– число степеней свободы для остаточной суммы квадратов отклонений.
Чтобы воспользоваться данной формулой, необходимы матрица межфакторной корреляции и расчет по ней соответствующих коэффициентов детерминации . Так, для уравнения оценка значимости коэффициентов регрессии , , предполагает расчет трех межфакторных коэффициентов детерминации: , , .
Взаимосвязь показателей частного коэффициента корреляции, частного -критерия и -критерия Стьюдента для коэффициентов чистой регрессии может быть использована в процедуре отбора факторов. Отсев факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам и . Частный -критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.
Контрольные вопросы
1. Рассказать о механизме включения факторных признаков в модель множественной линейной регрессии.
2. Как найти коэффициенты , , уравнения регрессии ?
5. Как определяется надежность коэффициентов уравнения множественной линейной регрессии?
6. Как решается вопрос об измерении тесноты связи между факторными и результативными признаками в случае множественной линейной регрессии?
7. Как осуществляется корректировка множественного коэффициента корреляции?
8. Как определить степень влияния каждого факторного признака в отдельности, включенного в модельное уравнение множественной линейной регрессии, на изменение результативного признака?
9. Рассказать, как осуществляется проверка адекватности модели множественной линейной регрессии.