Значения, используемые для вычислений по уравнению регрессионной прямой
Хi | (Хi – ) | (Хi – )2 | Yi | (Yi – ) | (Хi– )(Yi– ) |
30 30 30 30 30 31 31 31 33 33 35 35 35 36 36 37 40 40 40 42 42 50 50 50 50 Всего | –7,08 –7,08 –7,08 –7,08 –7,08 –6,08 –6,08 –6,08 –4,08 –4,08 –2,08 –2,08 –2,08 –1,08 –1,08 –0,08 2,92 2,92 2,92 4,92 4,92 12,92 12,92 12,92 12,92 0 | 50,13 50,13 50,13 50,13 50,13 36,97 36,97 36,97 16,85 16,65 4,33 4,33 4,33 1,17 1,17 0,01 8,53 8,53 8,53 24,21 24,21 166,93 166,93 166,93 166,93 1151,93 | 10 11 12 14 16 14 15 16 15 16 12 13 15 12 13 13 10 12 14 10 12 9 10 12 16 | –2,88 –1,88 –0,88 1,12 3,12 1,12 2,12 3,12 2,12 3,12 –0,88 0,12 2,12 –0,88 0,12 0,12 –2,88 –0,88 1,12 –2,88 –0,88 –3,88 –2,88 –0,88 3,12 0 | 20,39 13,31 6,23 –7,93 –22,09 –6,81 –12,89 –18,99 –8,65 –12,73 1,83 –0,25 –4,41 0,95 –0,13 –0,01 –8,41 –2,57 3,27 –14,17 –4,33 –50,13 –37,21 –11,37 40,31 –136,39 |
При линейной зависимости, т. е. такой, которая может быть представлена прямой линией, любое определенное изменение независимой переменной всегда вызывает определенное изменение значений зависимой переменной У. Более того, при таких зависимостях норма изменения постоянна, т. е. независимо от конкретных значений X и Y каждое изменение Х на единицу вызовет некоторое определенное изменение Y, размер которого определен степенью наклона линии регрессии. Зависимости, при которых небольшие изменения Х вызывают относительно [c.430]большие изменения Y, изображаются линиями, имеющими сравнительно крутой наклон (b1). Зависимости, при которых большие изменения X вызывают меньшие изменения Y, изображаются прямыми с относительно пологим наклоном (b). Зависимости, при которых изменение Х на единицу вызывает изменение Y на единицу, изображаются прямыми, для которых b=1. Прямые, направленные вверх слева направо, как на рис. 15.4а и 15.4б, имеют положительный наклон и представляют зависимости, в которых увеличение Х вызывает увеличение Y. Прямые, направленные вниз слева направо, как на рис. 15.4г и 15.4д, имеют отрицательный наклон и представляют зависимости, в которых увеличение X вызывает уменьшение Y. Ясно, что угол наклона прямой – это просто норма изменения переменной Y на единицу изменения переменной X, т.е. в нашем примере, где b=0,12, линия регрессии будет направлена вниз слева направо и, если обе переменные изображены в одном масштабе, будет относительно пологой.
Для того чтобы прийти к формуле, которую мы использовали для подсчета наклона линии регрессии, нам необходимо принять, что линия проходит через пересечение средних геометрических переменных и Y. Это – разумное допущение, поскольку средние геометрические представляют основную тенденцию этих переменных и поскольку мы, в сущности, ищем обобщенную или объединенную тенденцию. Если оба геометрических средних нам известны, а значение b определено, мы легко может найти значение а (точки, в которой линия регрессии пересекает ось Y) и решить уравнение. Общее уравнение регрессии таково:
Y’= a + bXi,
а в точке, где линия регрессии проходит через пересечение двух средних геометрических, оно принимает вид:
= a + bХ.
Из этого следует, что
a = – b
Поскольку теперь мы знаем все нужные значения, мы можем определить, что [c.431]
а = 12,88–(–0,12)(37,08)= 12,88+4,45= 17,33.
Таким образом, уравнение регрессии, наилучшим образом подытоживающее распределение линии для данных, представленных на рис. 18.3, будет выглядеть так:
Y’ = 17,33–0,12Х.
Используя это уравнение, мы можем вычислить значение Y для любого конкретного значения.
Поскольку это уравнение решено, мы можем использовать коэффициент корреляции (r) для оценки репрезентативности линии регрессии. Формула rXY (коэффициента корреляции между X и Y) такова:
,
где Х – каждое значение независимой переменной (знак i применялся ранее для большей наглядности);
Y – каждое значение зависимой переменной;
N – количество признаков.
Хотя это утверждение, безусловно, не так уж очевидно, а его алгебраическое доказательство лежит за рамками нашей книги, эта рабочая формула получена из сравнения первичной ошибки в предполагаемых значениях Y с использованием среднего геометрического частотного распределения с реальной ошибкой, получившейся в результате определения значений Y с использованием Y' (уравнения линии регрессии). Таким образом, процедура подсчета r аналогична той, которая использовалась для подсчета как l, так и G. Наилучшим образом ее дополнит построение таблицы такого типа, с которой мы уже знакомы; в ее колонках расположены значения X, Y, XY, X2 и Y2. Суммы, которые и нужны в уравнении, расположены в графе итого. Так, для данных, представленных на рис. 15.3, для которых мы уже определили линию регрессии, такой схемой будет табл. 15.7. [c.432]
Таблица 15.7
Значения, используемые при определении коэффициента корреляции (r)
х | у | ху | х2 | у2 |
30 30 30 30 30 31 31 31 33 33 35 35 35 36 36 37 40 40 40 42 42 50 50 50 50 Итого 927 | 10 11 12 14 16 14 15 16 15 16 12 13 15 12 13 13 10 12 14 10 12 9 10 12 16 322 | 300 330 360 420 480 434 465 496 495 528 420 455 525 432 468 481 400 480 360 420 504 450 500 600 800 11803 | 900 900 900 900 900 961 961 961 1089 1089 1225 1225 1225 1296 1296 1369 1600 1600 1600 1764 1764 2500 2500 2500 2500 35525 | 100 121 144 196 256 196 225 256 225 256 144 169 225 144 169 169 100 144 196 100 144 81 100 144 256 4260 |
Мы подставляем итоговые значения в уравнение:
Это говорит нам о том, что наклон у линии регрессии отрицательный (что мы уже, собственно, знали) и что точки [c.433]группируются вокруг нее в ступени от слабой до умеренной (поскольку г изменяется в пределах от +1 до –1 с минимальной связью при r=0).
К сожалению, сам коэффициент r интерпретировать нелегко. Можно, однако, интерпретировать r2 как степень уменьшения ошибки в определении Y на основании значений X, т. е. доля значений Y, которые определяются (или могут быть объяснены) на основе Х. r2обычно представляют как процентную долю объясненных значений, тогда как (1– r2)– долю необьясненных значений. Так, в нашем примере r значением –0,38 означает, что для тех случаев, которые мы анализируем, разброс независимой переменной составляет (–0,38)2, или около 14%, значений зависимой переменной год обучения.
По причинам, которые находятся за рамками настоящего разговора, определить статистическую значимость г можно только в том случае, если обе – и зависимая и независимая – переменные нормально распределены. Это можно сделать, используя табл. А.5 в Приложении А, для чего нужны следующие сведения. Во-первых, сам коэффициент г, который, конечно, известен. Во-вторых, аналогично подсчету χ2 количество степеней свободы линии регрессии. Поскольку прямую определяют любые две точки (в нашем случае пресечение и – первая точка, и пересечение с осью Y – вторая), все другие точки, обозначающие данные, могут располагаться произвольно, так что df всегда будет равно (N–2), где N – количество случаев или признаков. Таким образом, для того чтобы воспользоваться таблицей, нужно определить примерное количество степеней свободы (в нашем примере N–2 = 25–2 = 23) и желательный уровень значимости (например, 0,05) так же, как мы делали для нахожденияχ2, определить пороговое значение r, необходимое для достижения данного уровня значимости, и все подсчитать. (В нашем примере это значит, что мы интерполируем значения в таблице между df=20 и df=25. Для df=23 это будут следующие значения: 0,3379; 0,3976; 0,5069; 0,6194 соответственно.) Таким образом, r=–0,38 статистически значим на уровне 0,10 (он превышает 0,3379), но не на уровне 0,05 (он не превышает 0,3976). Интерпретация этого результата та же, что и в других случаях измерения статистической значимости. [c.436]
ЗАКЛЮЧЕНИЕ
В этой главе мы познакомили вас с наиболее распространенными статистическими процедурами, которые используются при изучении взаимосвязей между двумя переменными. Как и в гл. 14, мы выяснили, что для разных уровней измерения анализируемых данных подходят разные способы вычисления связи и статистической значимости. Вместе с методами, представленными ранее, рассмотренные коэффициенты снабдят исследователя некоторыми очень полезными основополагающими способами получения научных результатов. В следующей главе мы обратимся к более сложным статистическим методикам, которые обогатят наши возможности анализа и понимание того, что мы изучаем.[c.437]
Дополнительная литература
Библиографию по статистике см. к гл. 16.