Теснота и значимость связи

Соответствующий статистический вывод включает определение тесноты и значимости связи между YnX. Тесноту связи измеряют коэффициентом детерминации г2. В парной регрес­сии г2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент г2 из­меняется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией переменной X. Разложение полной вариации переменной Y аналогично разложению полной вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SSy раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии .' и вариацию ошибки или остаточную вариацию, 33ошибки или $8жтаточная\

Теснота и значимость связи - student2.ru

Рис. 17.5 Разложение полной вариации в парной регрессии

где

55П<

55.

tfr-tf

Тесноту связи вычислим следующим образом: 55„

55 у — 55остаточная

Чтобы проиллюстрировать определение г2, рассмотрим снова влияние продолжительности проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента парной корреляции видно, что

у=]Г(у;- у)' =120,9168

Теоретическое значение Yk можно определить на основании уравнения регрессии Отношение (Y,) = 1,0793 + 0,5897 (длительность проживания) Для первого наблюдения в табл. 17.1 это значение равно

( Г. ,) = 1,0793 + 0,5897 х 10 = 6,9763

Для каждого последующего наблюдения теоретические значения будут следующими (в п рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,386 11,1042; 2,2587. Следовательно,

(8,1557 - 6 + (8,1557 -+ (5,7969 -+ (11,6939 + (11,1042 = 0,1544 + + 3,8643 -f + 0,0387 +

-?)2 = (6,9763 - 6,5833)2 + (8,1557 - 6,5833)2

,5833)2 + (3,4381 - 6,5833)2 6,5833)2 + (4,6175 - 6,5833)2 6,5833)2 + (2,2587 - 6,5833)2

- 6,5833)2 + (6,6866 - 6,5833)2

- 6,5833)2 + (2,2587 - 6,5833)2 2,4724 + 2,4724 + 9,8922 + 2,4724 0,6184 + 18,7021 + 21,1182 20,4385 + 18,7021 = 105,9522

ОС_

= (6 - 6,9763)2 + (9 - 8,1557)2+ (8 - 8Д557)2

+ (3 - 3,4381)2 + (8 - 8,1557)2+ (4 - 4,6175)2

+ (5 - 5,7969)2 + (2 - 2,2587)2 4- (П - 11,6939)2

+ (9 - 6,3866)2 + (10 - 11Д042)2 + (2 - 2,2587)2 = 14,9644

Видно, что SSy = SSpupKCUU + 55жтаточная. Кроме того,

105,9524 120,9168

= 0,8762

Другой равноценной проверкой значимости линейной зависимости между X и (значимости Ь) является проверка значимости коэффициента детерминации. В этом случае г: потезы имеют следующий вид:

U . П2

"О" с Lf . D2

п 1 ' Л со

совокупности

= Q

v

Совокупности

Соответствующей статистикой, лежащей в основе критерия, является /"-статистика:

которая подчиняется F-распределению с 1 и п — 2 степенями свободы. F-критерий представл ет собой обобщенную форму ^-критерия (см. главу 15). Если случайная переменная подчиняе ся /-распределению с л-степенями свободы, то значения f- подчиняются /'-распределению с 1 л-степенями свободы. Следовательно, .Г-критерий для проверки значимости коэффициен детерминации эквивалентен проверке следующих гипотез:

Я0:Д=0 Я,:Д*0 или Я„:р=0

Из табл. 17.2 видно, что

105,9522

= (105.9522+14.9644)=7°'8027' это равно ранее рассчитанному значению. Вычисленное значение F-статистики равно:

F=-

105,9522

- = 70,8027

(105,9522 + 14,9644)

с 1 и 10 степенями свободы. Вычисленное значение /"-статистики превышает критическое зь чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зав

имость статистически значима при уровне значимости ос = 0,05, подтверждая результаты про-ерки с помощью /-критерия. Если зависимость между А'и Yстатистически значима, то имеет мысл вычислить значения У, исходя из значений X, и оценить точность предсказания.

Гочность предсказания

Чтобы оценить точность предсказанных (теоретических) значений Y , полезно вычислить тандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой тандартное отклонение фактических значений У от предсказанных значений Y :

ли, в более общем виде, при наличии k независимых переменных

SEE = in-k-\

SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку редсказания У, исходя из уравнения регрессии [11].

Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-ение У для всех вариантов с заданным значением X, скажем Х0, или значение У для одного лучая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное

Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является >ункцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У >авна SEE/^fn , а ошибка предсказания отдельного значения У равна SEE. Следовательно, юстроение доверительных интервалов (см. главу 12) для предсказанных значений варьи->ует в зависимости от того, необходимо ли предсказать единственное значение наблюде-[ия или среднее значение.

Для данных табл. 17.2 SEE вычисляют по формуле

14,9644

SEE =

= 1,22329

(12-2)

Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-аточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к гредпосылкам, лежащим в основе регрессионной модели.

Наши рекомендации