Линейная и криволинейная корреляции

Основной коэффициент корреляции г Пирсона является мерой прямолинейной связи между переменными: его значения достигают максимума, когда точки па графике двухмерного рассеивания лежат па одной прямой линии. В реальной жизни отношения между переменными часто оказываются не только вероятност­ными, но и непрямолинейиыми: монотонными или немонотонными. Если связь нелинейная, но монотонная, то вместо г Пирсона следует использовать ранговые корреляции Спирмепа или Кеидалла.

Нередко связь между двумя переменными является не только нелинейной, но и немонотонной. В качестве примера рассмотрим такие два фактора, как нервное возбуждение перед экзаменом и успешность его сдачи. Исследования показы­вают, что студенты, испытывающие умеренное нервное возбуждение, имеют наилучшие результаты на экзаменах, в то время как очень спокойные или очень нервные студенты сдают экзамены значительно хуже. Если по оси абсцисс отло­жить степень нервного возбуждения, а по оси ординат — результаты сдачи экза­менов, то график зависимости между ними примет вид, близкий к перевернутой букве U. При этом любой коэффициент корреляции, вычисленный для этих величии, окажется весьма низким. Это объясняется тем, что для немонотонных отношений нужны другие методы оценки корреляции. Частично мы коснем­ся этих методов в главах 15 и 16, посвященных видам регрессионного анализа.

Перед тем как оценивать корреляцию двух переменных, рекомендуется постро­ить график зависимости между ними — график двухмерного рассеивания. Если график демонстрирует монотонность связи, то для вычисления корреляции можно использовать команды подменю Correlate (Корреляция).

Ранговые корреляции

Как уже отмечалось, необходимость в применении ранговых корреляций возни­кает в двух случаях: когда распределение хотя бы одной из двух переменных не соответствует нормальному и когда связь между переменными является нели­нейной (но монотонной). В этих случаях вместо корреляции г Пирсона можно

выбрать ранговые корреляции: г Спирмепа либо т (читается «тау») Кендалла. ранговыми они являются потому, что программа предварительно ранжирует переменные, между которыми они вычисляются.

Корреляцию г Спирмепа программа SPSS вычисляет следующим образом: сначала переменные переводятся в ранги, а затем к рангам применяется фор­мула г Пирсона. Таким образом, г Спирмепа интерпретируется но аналогии с г Пирсона. Иначе дело обстоит с корреляцией т Кеидалла, которая имеет вероят­ностную природу.

Рассмотрим принцип вычисления т Кендалла на примере. Предположим, оце­нивается связь между ростом и весом в группе людей, предварительно ранжи­рованных но этим переменным. Тогда при сравнении любых двух человек из этой группы возможны две ситуации: однонаправленное изменение переменных («совпадение»), когда и рост, и вес одного больше, чем другого, и разнонаправ­ленное изменение («инверсия»), когда рост у второго больше, а вес меньше, чем у первого. Перебрав все пары испытуемых, можно оцепить вероятность совпа­дений (Р) и вероятность инверсий (Q). Корреляция Кеидалла — это разность вероятностей «совпадений» и «инверсий»: т = Р - Q. По значению корреляции Кепдалла можно всегда вычислить вероятность «совпадений» (Р = (1 + х)/2) и «инверсий» (Q = (1 - х)/2). Например, если корреляция между ростом и весом т = 0,5, то вероятность «совпадений» (чем больше рост, тем больше вес) Р = 0,75, а вероятность «инверсий» (чем больше рост, тем меньше вес) Q = 0,25. Таким образом, важным преимуществом корреляции т Кеидалла является ее отчетли­вая вероятностная интерпретация.

Значимость

Как и большинство статистических процедур, команды подменю Correlate (Кор­реляция) наряду с описательными статистиками (корреляциями в данном слу­чае) вычисляют их уровень значимости. Напомним, что уровень значимости яв­ляется мерой статистической достоверности результата вычислений, в данном случае — корреляции, и служит основанием для интерпретации. Если исследование показало, что уровень значимости корреляции не превышает 0,05, то это означает, что с вероятностью 5 % и менее корреляция является случайной. Обычно это является основанием для вывода о статистической достоверности корреляции. В противном случае (р > 0,05) связь признается статистически недостоверной и не подлежит содержательной интерпретации.

SPSS позволяет определять два теста значимости: односторонний (one-tailed) и двусторонний (two-tailed). Обычно используется двусторонний тест значи­мости. Но если вы заранее знаете направление корреляции (положительное или отрицательное) и вас интересует только одно направление, то можно исполь­зовать односторонний тест значимости. Однако такая ситуация встречается редко, а если и встречается, то правомерность односторонней проверки с трудом поддается обоснованию.

Частная корреляция

Понятие частной корреляции (partial correlation) связано с ковариацией, разго­вор о которой пойдет в главе 14. Здесь мы упоминаем частную корреляцию лишь как одну из команд подменю Correlate (Корреляция). Суть частной корреляции заключается в следующем. Если две переменные коррелируют, то всегда можно предположить, что эта корреляция обусловлена влиянием третьей переменной, как общей причины совместной изменчивости первых двух переменных. Для про­верки этого предположения достаточно исключить влияние этой третьей пере­менной и вычислить корреляцию двух переменных без учета влияния третьей переменой (при фиксированных ее значениях). Корреляция, вычисленная таким образом, и называется частной. Например, при исследовании связи между скоро­стью чтения и зрелостью моральных суждений у детей разного возраста наверняка будет обнаружена корреляция этих двух переменных. Ответ на вопрос, связаны ли они непосредственно, или связь обусловлена возрастом, позволяет дать частная корреляция. Если при фиксированных значениях возраста частная корреляция скорости чтения и зрелости моральных суждений приближается к нулю, то можно заключить, что связь между этими переменными обусловлена возрастом.

В меню Analyze (Анализ) выберите команду Correlate ► Bivariate (Корреляция ► Двумерная). На экране появится диалоговое окно Bivariate Correlations (Дву­мерные корреляции)

Линейная и криволинейная корреляции - student2.ru В группе Correlation Coefficients (Коэффициенты корреляции) по умолчанию уста­новлен флажок Pearson (Пирсон). Если требуется вычислить ранговые корреля­ции, то следует установить флажок Spearman (Спирмен) и (или) Kendall's tau-b (Тау-би Кендалла). Можете установить все три флажка, чтобы иметь возможность сравнивать три коэффициента корреляции для различных распределений данных.

В группе Test of Significance (Тест значимости) по умолчанию установлен переключа­тель Two-tailed (Двусторонний). Если вы заранее уверены в направлении (знаке) корреляции, то можете установить переключатель One-tailed (Односторонний).

Флажок Flag significant correlations (Помечать значимые корреляции) по умолчанию установлен. Это означает, что корреляции, вычисленные с уровнем значимости от 0,01 до 0,05, будут помечены одной звездочкой (*), а от 0 до 0,01 — двумя звез­дочками (**). Вне зависимости от значимости в вывод включаются коэффициен­ты корреляции и р-уровни, вычисленные с точностью до 3 знаков после запятой, а также количество объектов, участвовавших в процедуре.

Кнопка Options (Параметры) позволяет задать дополнительные параметры корреля­ции. При щелчке на этой кнопке открывается диалоговое окно Bivariate Correlations: Options (Двухмерные корреляции: Параметры), представленное па рис. 9.2.

В группе Statistics (Статистики) имеется два флажка, управляющих отображением статистических величии: Means and standard deviations (Средние значения и стандарт­ные отклонения) и Cross-product deviations and covariances (Произведения отклонений и ковариации). Группа Missing Values (Пропущенные значения) из двух переключа­телей позволяет выбрать способ исключения объектов, содержащих пропущенные значения. Установка переключателя Exclude cases pairwise (Попарное исключение объектов) означает, что если при вычислении корреляции между нарой перемен­ных для какого-нибудь объекта обнаружится отсутствующее значение, то объект будет исключен из вычисления, но только для этой пары переменных. В резуль­тате может оказаться, что для разных пар переменных коэффициенты корреля-

Линейная и криволинейная корреляции - student2.ru ции будут вычислены с разным числом объектов. При установке переключателя Exclude cases listwise (Построчное исключение объектов) программа перед началом вычислительного процесса исключит из рассмотрения все объекты, содержащие хотя бы одно отсутствующее значение. В любом случае, разрешение проблемы отсутствующих значений лучше провести до начала анализа. О том, каким обра­зом это можно сделать, рассказывается в главе 4.

С помощью команды Crosstabs (Таблицы сопряженности), описанной в главе 8, вычисляются частоты по градациям пеколичествеииых (номинативных) пере­менных. Таблицы сопряженности позволяют сравнивать частоты для разных подгрупп, которые соответствуют градациям номинативной переменной. На­пример, составив таблицу сопряженности полххобби, вы могли видеть, что сре­ди девушек 15 увлекаются спортом, 27 — искусством и т. п. Команда Means (Средние) предназначена для сравнения подгрупп объектов по средним значени­ям количественных признаков. При этом предполагается, что в данных имеются не только количественные переменные, для которых вычисляются средние, но и номинативные переменные, разделяющие объекты на подгруппы. Коман­да Means (Средние) вполне применима и к данным файла exOi.sav, который мы рассматриваем в качестве примера. Так, при помощи этой команды мож­но сравнить средние значения успеваемости (отметка!, отметка2) юношей и де­вушек (пол), учащихся разных классов (класс) и т. д. Результаты вычислений представляются в виде таблиц, похожих па таблицы сопряженности при ис­пользовании команды Crosstabs (Таблицы сопряженности). Отличие заключает­ся в том, что для каждой подгруппы вычисляется не только частота, по и среднее значение.

Команда Means (Средние) является одной из самых простых в SPSS. Для вы­бранных подгрупп она подсчитывает средние значения, стандартные отклонения и частоты. Кроме того, с помощью кнопки Options (Параметры) можно задать вывод результатов одпофакторпого дисперсионного анализа.

В меню Analyze (Анализ) выберите команду Compare Means ► Means (Сравне­ние средних ► Средние). На экране появится диалоговое окно Means (Сред­ние),

В диалоговом окне Means (Средние) вам необходимо задать переменные, которые будут участвовать в процедуре. Список Dependent List (Зависимые переменные) в верхней части окна предназначен для количественных переменных, характери­стики которых будут вычисляться. Например, в качестве зависимых переменных могут выступать переменные отметка1, отметка2, тест! и т. д. Список Dependent List (Зависимые переменные) может содержать несколько переменных, при этом для каждой из переменных можно задавать собственные наборы вычисляемых характеристик.

С помощью диалогового окна Means: Options (Средние1 Параметры) можно задать дополнительные параметры вывода для команды Means (Средние). Например, помимо величии, вычисляемых по умолчанию (среднего значения, стандартного отклонения и числа объектов), можно указать любую совокупность показателей, перечисленных в списке Statistics (Статистики). Для этого следует выделить нуж­ный пункт списка, а затем щелчком на кнопке со стрелкой добавить его в список Cell Statistics (Статистики ячеек).

Как уже упоминалось, команда Means (Средние) позволяет выполнять одио-факюриый дисперсионный анализ. Для этого в группе Statistics for the First Layer (Статистики для первого слоя) нужно установить флажок ANOVA table and eta (Таб­лица ANOVA и коэффициент Эта). В процессе группировки зависимой переменной отметка2 по градациям независимой переменной класс программа путем одно-факторного дисперсионного анализа сравнит три средних значения для града­ций переменной класс.

Наши рекомендации