Измерение связи и значимости для интервальных переменных
Измерение связи между двумя интервальными переменными осуществляется посредством корреляции произведения моментов Пирсона (r), известной также как коэффициент корреляции. Этот коэффициент описывает силу и направление связей, используя те же принципы, что и ранее, – относительное ограничение ошибки в предположениях о значениях одной переменной на основе данных о значениях другой, хотя способ, которым это делается, равно как и тип данных, для которых предназначен этот коэффициент, гораздо более сложен, чем все другие, обсуждавшиеся нами ранее. Здесь в отличие от использования среднего геометрического зависимой переменной (обозначаемой Y) для подсчета значений отдельных признаков используется ее геометрическая взаимосвязь с зависимой переменной (обозначаемой обычно X). Если точнее, мы основное внимание уделяем той помощи, которую может оказать уравнение линейной зависимости в определении значений Y на основе сведений о соответствующих значениях X.
Подсчет r начинается с изучения диаграммы рассеяния, графического изображения распределения случаев [c.426]по двум переменным, где горизонтальная линия, или ось X, шкалирована в единицах независимой переменной, а вертикальная линия, или ось У, шкалирована в единицах зависимой переменной и каждая точка представляет расположение одного случая относительно обеих переменных. Такая диаграмма представлена на рис. 15.3, где независимая переменная – это возраст, зависимая переменная – количество законченных лет обучения, а количество случаев равно 25. Так, заключенная в кружок точка представляет следующий случай: человек 30 лет, проучившийся 10 лет. На рисунке цифры взяты произвольно, но в практической работе значения должны определяться самим исследователем.
Рис. 15.3. Диаграмма рассеяния, показывающая взаимосвязь между возрастом и количеством лет обучения
Следующий шаг – провести через это множество точек прямую, которая называется линией регрессии, так, чтобы ни одна другая линия не смогла бы пройти ближе ко всем точкам (и хотя, как мы увидим, такие линии не определяют, просто глядя на картинку, ясно, что из всех прямых на рисунке – а, b и с – прямая b наиболее близка к такой линии). Такая наиболее подходящая линия для двух взаимоувязанных переменных аналогична среднему геометрическому в одномерных описательных статистиках. Точно так же геометрическое представляет наиболее типичный случай в частотном распределении, линия регрессии представляет наиболее типичную связь между двумя переменными. Точно так же, как мы могли [c.427]использовать среднее геометрическое для определения значений переменной при отсутствии дополнительной информации, мы можем использовать линию регрессии для определения значений одной переменной на основании сведений о значениях другой. Если, например, нам известно значение X для данного случая, мы можем провести вертикаль от этой точки на оси до пересечения с линией регрессии, затем – горизонтальную линию до пересечения с осью Y. Точка пересечения с осью Y и даст предполагаемое значение Y.
Но точно так же, как среднегеометрическое может быть единственным наиболее типичным значением, но не очень хорошо при этом отражать распределение в целом, так и линия регрессии может наилучшим образом обобщать взаимозависимость двух переменных, но не быть при этом очень полезным обобщением. И соответственно так же, как мы используем стандартное отклонение (s) в качестве меры дисперсии или близости к среднему геометрическому, мы используем коэффициент корреляции, или более полно соответствующий требованиям интерпретации этот коэффициент, возведенный в квадрат (r2), в качестве меры близости различных точек, обозначающих наши данные, к линии регрессии. По сути дела, это мера того, насколько типично отражает эта линия обобщенное распределение значений по двум переменным. В тех случаях, когда все точки лежат точно на этой линии, как на рис. 15.4а и 15.4д, она наилучшим образом описывает взаимосвязь между двумя переменными. Если точки в целом сгруппированы в направлении, обозначенном линией, но не лежат точно на ней, как на рис. 15.4б и 15.4г, то линия представляет взаимосвязи между этими переменными лишь приблизительно. И если, как на [c.428] рис. 15.4в, не существует линии, которая расположена ближе к точкам, чем любая другая, между переменными не существует связи5.
Рис. 15.4. Линии регрессии при различных значениях r
Проблема, таким образом, имеет двойственный характер: во-первых, как выглядит эта наиболее подходящая линия? И во-вторых, насколько точно она отражает данные?
Вы, должно быть, помните из курса алгебры, что любая прямая имеет формулу:
Yi = a + bXi,
где а – значение Y при Х= 0,
b – коэффициент наклона прямой,
Х – соответствующее значение независимой переменной.
Линия регрессии (обычно обозначается Y’, чтобы показать, что это лишь приблизительное отражение истинного распределения) – это просто набор предполагаемых значений, выраженных в такой форме, которая является наилучшей для значения Y, основанных на знании значений X.
По причинам, которые мы здесь не будем обсуждать, коэффициент наклона прямой всегда будет выражаться формулой:
,
где Хi и Yi – соответствующие значения независимой и зависимой переменных для случая i, a и – соответствующие средние геометрические. Заметьте, что коэффициент b основан на разбросе отдельных случаев вокруг двух средних геометрических (т. е. на [Xi – ] и [Yi – ]). Применив эту формулу и используя схему, подобную той, которую мы применяли при подсчетах χ2, мы сможем определить угол наклона для любых взаимосвязей между двумя интервальными переменными. Этот способ показан в табл. 15.6 на примере данных использованных в рис. 15.3. Для этих данных = 37,08 и = 12,88. Подставив эти значения в уравнение, получим:
[c.429]
Таблица 15.6.