Частные коэффициенты регрессии
Чтобы понять значение частного коэффициента регрессии, расмотрим случай с двумя нез висимыми переменными:
Y =a+b,X2+b2X2
Во-первых, отметим, что величина частного коэффициента регрессии независимой пер менной, в основном, отличается от коэффициента двумерной регрессии той же переменно Другими словами, частный коэффициент регрессии Ь} отличается от коэффициента регресс Ъ, полученного при установлении зависимости Гтолько от переменной Х}. Это происходит п тому, что Xj и Х2 обычно взаимосвязаны. В парной регрессии Х2 не принимают во внимание, любое изменение вариации в Y, за которую совместно отвечают Х} и Х2, относят на счет Х}. О, нако в случае нескольких независимых переменных это несправедливо.
Интерпретация частного коэффициента регрессии bj заключается в том, что он представля ожидаемое изменение величины У, когда X, изменяется на единицу, а Х2 остается постоянной, т управляемой (контролируемой) переменной. В отличие от этого, Ь2 представляет ожидаемое изм нение Г при изменении Х2 на единицу, когда X, остается постоянной. Поэтому названия Ь, и Ь2 частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты с вместного влиняия X, и Х2на К суммируются. Иначе говоря, если каждую из переменных Х1 и изменить на единицу, то ожидаемое изменение значения Убудет равно (bl + Ь2).
Логически, зависимость между коэффициентом парной регрессии и частным коэффицие] том регрессии можно проиллюстрировать следующим образом. Предположим, что мы исключи; эффект от влияния Х2из Xt. Это можно сделать, установив регрессию Х1 по Х2. Иначе говоря, мо> но воспользоваться уравнением Xl = a + ЬХ2 и вычислить остаточный член ХГ = (Х}- X,). Тог, частный коэффициент регрессии bj станет равным коэффициенту парной регрессии /?, пол ченному из уравнения Y = a + ЬХГ. Таким образом, частный коэффициент регрессии Ъ1 равс коэффициенту парной регрессии b между переменной 7 и остаточным значением переменнс Х19 не учитывая эффекта от влияния переменной Xt. Частный коэффициент регрессии Ь2 ш терпретируем аналогично.
Распространение этого примера на случай с k переменными не вызывает затруднений. Ч стный коэффициент регрессии Ь} представляет ожидаемое изменение У, когда Х1 изменяется i единицу, а переменные от Х2 до Xk остаются неизменными. Это можно интерпретировать ю коэффициент парной регрессии b для регрессии переменной /от остаточных значений пер менной Xj при исключенных эффектах переменных от Х2 до Xk.
"Бета"-коэффициенты являются частными коэффициентами регрессии, полученными п< еле того, как перед оценкой уравнения регрессии, все переменные (Y, Xh Х2,... Xk,) нормиров ны с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь меж; нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее:
Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением системы уравнений, выведенной дифференцированием и приравниванием к нулю частных троизводных. Поскольку эти коэффициенты можно вычислить с помощью разных компьютерных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения решить, если размер выборки п меньше или равен числу независимых переменных k\ одна независимая переменная тесно связана с другой.
Предположим, что при объяснении зависимости отношения к городу от длительности троживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полу-1енные от 12 респондентов и касающиеся отношения к городу, длительности проживания в и погодных условий, приведены в табл. 17.1. Результаты множественного регрессионного шализа даны в табл. 17.3. Значение частного коэффициента регрессии для переменной Xj (длительность проживания), равное 0,4811, теперь отличается от значения, полученного в анализе парной регрессии. Соответствующий "бета"-коэфициент равен 0,7636. Частный коэффициент регрессии для переменной Х2 (погодные условия) равен 0,2887 с "бета"-коэффициентом, равным, 0,3138.
Теоретическое уравнение регрессии имеет вид:
I (f ) = 0,33732 + 0,48108 Xt + 0,28865 Х2 или
гношение к городу = 0,33732 + 0,48108 (длительность проживания) + 0,28865 (погодные (условия)
Таблица 17.3. Множественная регрессия Коэффициент множественной корреляции Коэффициент детерминации R2 Скорректированный R2 Стандартная ошибка уравнения регрессии Дисперсионный анализ | 0,97210 0,94498 0,93276 0,85974 |
Степени свободы Регрессия 2 Остаток 9 F = 77,29364 Значимость F = 0,0000 | Сумма квадратов Средний квадрат 114,26425 57,13213 6,65241 0,73916 |
Переменные в уравнении Переменная Ь SEb | Бета, & Т Значимость Т |
Погодные условия 0,28865 0,08608 Длительность 0,48108 0,05895 (Константа) 0,33732 0,56736 | 0,31382 3,353 0,0085 0,76363 8,160 0,0000 0,595 0,5668 |
Это уравнение можно использовать для разных целей, включая предсказание отношения к городу при заданных длительности проживания в нем и отношения респондента к погодным условиям региона.
Теснота связи
Степень тесноты связи определим, используя соответствующие показатели связи меж, переменными. Полную вариацию можно разложить (как и для парной регрессии) следу! щим образом:
се = ее _j_ ее
Lj^Jy ^^ pe/peccuu ^° '° * о
где
Остаточная
Тесноту связи измеряют, возводя в квадрат коэффициент множественной корреляции, п лучая коэффициент множественной детерминации R2
Коэффициент множественной корреляции R можно рассматривать как линейный коэ( фициент корреляции г между У и Y . Следует сделать несколько замечаний относителы определения R2. Коэффициент множественной детерминации R2 не может быть меньше, Ч( самое высокое значение г2 любой отдельной независимой переменной с зависимой переме] ной. Значение Л2 больше, когда корреляция между независимыми переменными слабее. Е ли независимые переменные статистически независимы (не коррелированы), то значение представляет собой сумму коэффициентов парной детерминации каждой независимой п ременной с зависимой переменной. Значение R2 не может уменьшаться при добавлении н зависимых переменных в уравнение регрессии. Однако снижение влияния зависимости к эффициента детерминации от количества переменных устанавливается таким образом, ч после введения нескольких первых переменных дополнительные независимые перемени! не вносят такой большой вклад в значение коэффициента детерминации [16]. Поэтому корректируют с учетом числа независимых переменных и размера выборки, используя ел дующую формулу:
k(\-R2}
Скорректированный R = R2 -- ^ - '-
n-k-\
Для данных регрессии, приведенных в табл. 17.3, значение R2 равно
R2_
114,2643
" '
(114,2643 + 6,6524)
Это значение выше, чем значение г2, равное 0,8762, полученное для парной регрессии. Зн чение г2 парной регрессии представляет собой квадрат простого коэффициента корреляции м жду отношением к городу и длительностью проживания в нем. Значение R2, полученное множественной регрессии, также выше, чем квадрат простого коэффициента корреляции ме; ду отношением к городу и отношением к погодным условиям (которое определено как 0,537< Скорректированный коэффициент детерминации /Допределен следующим образом:
- 0,9450-2(1,0-0,9450) Скорректированный R~ = - Ь - : - / = q 9328
12-2-1
Обратите внимание, что значение скорректированного коэффициента детерминации близко к значению обычного коэффициента детерминации R2n их значение больше, чем у к эффициента детерминации г2 для парной регрессии. Это означает, что добавление второй нез
{симой переменной — погодные условия, вносит определенный вклад в вариацию переменой — отношение к городу.
(роверка значимости
Проверка значимости включает проверку значимости общего уравнения регрессии и кон-ретных частных коэффициентов регрессии. Нулевая гипотеза для проверки общего уравнения 1сит, что коэффициент множественной детерминации для генеральной совокупности равен нулю:
Я |
. D2 — Q
J- -** совокупи
Это эквивалентно следующей нулевой гипотезе
Общую проверку можно выполнить, используя /"-статистику
оторая имеет /'-распределение с k и (п - k - 1) степенями свободы [17]. Результаты проверки аны в табл. 17.3 114,2643/2 |
R2/k
F=- |
- = 77,2944,
6,6524/9
оторая является значимой при а = 0,05.
Если общую нулевую гипотезу отклоняют, то один или несколько частных коэффициентов егрессии в совокупности имеют значение, отличное от нуля. Чтобы определить, какие из кон-.ретных коэффициентов Д отличны от нуля, выполним дополнительные проверки. Проверку начимости Д выполним тем же способом, что и в случае парной регрессии, т.е. используя t-татистику. Значимость частного коэффициента для переменной — погодные условия — мож-ю выполнить с помощью уравнения
t_ Ь _ 0,2887 _3353
SEb 0,08608
:оторое подчиняется /-распределению с (п — k — 1) степенями свободы. Этот коэффициент ста-истически значим при уровне значимости ос = 0,05. Значимость коэффициента для перемен-•юй — длительность проживания, проверяют аналогичным образом и находят, что он стати-тически значимый. Следовательно, обе переменные: погодные условия и длительность про-кивания, имеют значение при объяснении отношения респондента к своему городу.
Ряд компьютерных программ позволяют проводить расчет /^-критерия, что зачастую называется вычислением частного .Г-критерия. Такой расчет включает разложение суммы квадратов >бщей регрессии SSpcrp на компоненты, соответствующие каждой независимой переменной. 3 обычном подходе эту процедуру осуществляют при допущении, что каждую независимую переменную добавляют в уравнение регрессии после включения в него всех других независимых переменных. Приращение к объясняемой сумме квадратов, получаемое после добавления независимой переменной Xi9 представляет собой компонент вариации, присущий этой переменной и обозначаемый 55^ [18]. Значимость частного коэффициента регрессии для этой пе-земенной (3( проверяют, используя .Г-статистику приращения:
F=- |
SSXi/l
которая имеет /'-распределение с 1 и (п - k - 1) степенями свободы. В то время как высокое значение R2 и значимые частные коэффициенты регрессии достаточно удобны, эффективность регрессионной модели должны быть оценена анализом остатков.
Анализ остатков
Остаток, остаточный член (residual) — это разность между наблюдаемым значением Yf и те ретическим значением, предсказанным регрессионным уравнением Y{ .