Линейная и криволинейная корреляции

Меры центральной тенденции

Существует три основные меры центральной тенденции распределения.

? Среднее значение (mean) равно сумме всех значений распределения, деленной
на их количество. Для распределения [3575689] среднее значение равно
(3 + 5 + 7 + 5 + 6 + 8 + 9)/7 - 6,14.

? Медиана (median) определяется как значение, находящееся в середине рас­
пределения, полученного из исходного путем упорядочивания по возраста­
нию. Для распределения [3 5 7 5 6 8 9J медиана равна 6, поскольку значение,
равное 6, находится в центре последовательности [3556789].

? Мода (mode) равна наиболее часто встречающемуся значению. В распре­
делении [3575689] мода равна 5, поскольку число 5 встречается в нем
дважды.

Меры изменчивости

Выделяют две величины, характеризующие изменчивость, или разброс, значений распределения относительно среднего.

106____ Глава 7. Описательные статистиД

? Дисперсия (variance) равна сумме квадратов отклонений каждого значения
от среднего, деленной па N - 1, где N — число значений в распределении.
Для распределения [3575689] дисперсия равна ((3 - 6 14)2 + (5 - 6Д4)2 +
+ (7 - 6Д4)2 + (5 - 6,14)2 + (6 - 6Д4)2 + (8 - 6,14)2 + (9 - 6,14)2)/6 = 4,1429.

? Стандартное отклонение (standard deviation) равно квадратному корню
из дисперсии. Для распределения [3575689] стандартное отклонение
равно 2,0354.

Стандартное отклонение является довольно наглядной и информативной для исследователя характеристикой распределения, а дисперсия, как правило, исполь­зуется как вспомогательная величина в статистических вычислениях.

Характеристики диапазона распределения

Дополнительными мерами изменчивости являются 4 простые характеристики, отражающие границы распределения и его размах.

Минимум (minimum) равен наименьшему из значений распределения. Для рас­пределения [3575689] минимум равен 3.

Максимум (maximum) равен наибольшему из значений распределения. Для рас­пределения [3575689] максимум равен 9.

Размах (range) составляет разность между максимумом и минимумом распреде­ления. В случае распределения [3575689] размах равен 9-3 = 6.

Сумма (sum) равна сумме всех значений распределения. Для распределения [3575689] сумма равна 3 + 5 + 7 + 5 + 6 + 8 + 9 = 43.

Характеристики формы распределения

Для отражения близости формы распределения к нормальному виду существует две основные характеристики.

► Эксцесс (kurtosis) является мерой «сглаженности» («остро-» или «нлосковер-
шишюсти») распределения. Если значение эксцесса близко к 0, это означает,
что форма распределения близка к нормальному виду. Положительный экс­
цесс указывает на «плосковершииное» распределение, у которого максимум
вероятности выражен не столь ярко, как у нормального. Значения эксцесса,
превышающие 5,0, говорят о том, что по краям распределения находится боль­
ше значений, чем вокруг среднего. Отрицательный эксцесс, напротив, харак­
теризует «островершишюе» распределение, график которого более вытянут
по вертикальной оси, чем график нормального распределения. Считается, что
распределение с эксцессом в диапазоне от -1 до +1 примерно соответствует
нормальному виду. В большинстве случаев вполне допустимо считать нор­
мальным распределение с эксцессом, но модулю не превосходящим 2.

Пошаговый алгоритм вычислений _______________________ 107

^. Асимметрия (skewness) показывает, в какую сторону относительно среднего сдвинуто большинство значений распределения. Нулевое значение асиммет­рии означает симметричность распределения относительно среднего значения, положительная асимметрия указывает па сдвиг распределения в сторону мень­ших значений, а отрицательная асимметрия — в сторону больших значений. В большинстве случаев за нормальное принимается распределение с асиммет­рией, лежащей в пределах от -1 до +1. В исследованиях, не требующих высо­кой точности результатов, нормальным считают распределение с асимметрией, но модулю не превосходящей 2.

Стандартная ошибка

Стандартная ошибка (standard error) является характеристикой точности, или стабильности, величины, для которой она вычисляется. В контексте программы SPSS стандартная ошибка используется для среднего значения, асимметрии и эксцесса. Ее смысл заключается в следующем. Вы можете, взяв определенное количество случайно выбранных значений генеральной совокупности, составить выборку и вычислить для нее среднее значение. Повторив эту операцию некото­рое количество раз, вы получите набор средних значений выборок, которые так­же представляют собой некоторое распределение. Стандартное отклонение этого распределения и будет являться стандартной ошибкой для среднего значения ге­неральной совокупности. Аналогичным способом вычисляются стандартные ошибки для асимметрии и эксцесса. Чем меньше значение стандартной ошибки, тем выше стабильность величины, для которой она вычисляется.

В мсто Analyze (Анализ) выберите команду Descriptive Statistics ► Descriptives (Описательные статистики ► Описательные статистики). На экране появится диа­логовое окно Descriptives (Описательные статистики),

Понятие корреляции

Корреляция, или коэффициент корреляции, — это статистический показатель ве­роятностной связи между двумя переменными, измеренными в количественной шкале. В отличие от функциональной связи, при которой каждому значению одной переменной соответствует строго определенное значение другой переменной, вероятностная связь характеризуется тем, что каждому значению одной перемен­ной соответствует множество значений другой переменной. Примером вероятно­стной связи является связь между ростом и весом людей. Ясно, что один и тот же рост может быть у людей разного веса, как и наоборот. Величина коэффици-

Понятие корреляции

еНта корреляции меняется от --1 до 1. Крайние значения соответствуют линей­ной функциональной связи между двумя переменными, 0 - отсутствию связи.

Наглядное представление о связи двух переменных дает график двухмерного рас­сеивания - соответствующая команда Scatter (Рассеивание) имеется в меню Graphs (Графики). На таком графике каждый объект представляет собой точку, коорди-шты которой заданы значениями двух переменных. Таким образом, множество объектов представляет собой на графике множество точек. По конфигурации это­го множества точек можно судить о характере связи между двумя переменными.

Строгая положительная корреляция (perfect positive correlation) определяется значением г - 1. Термин «строгая» означает, что значения одной переменной од­нозначно определяются значениями другой переменной, а термин «положитель­ная» — что с возрастанием значений одной переменной значения другой пере­менной также возрастают.

Строгая корреляция является математической абстракцией и практически не встречается в реальных исследованиях. Примером строгой корреляции является соответствие между временем пути и пройденным расстоянием при неизменной скорости.

Положительная корреляция соответствует значениям 0 < г < 1. Положительную корреляцию следует интерпретировать следующим образом: если значения одной переменной возрастают, то значения другой имеют тенденцию к возрастанию. Чем коэффициент корреляции ближе к 1, тем сильнее эта тенденция, и обратно, с приближением коэффициента корреляции к 0 тенденция ослабевает.

Примером значительной положительной корреляции служит зависимость меж­ду ростом и весом человека. Считается, что в этом случае коэффициент корреля­ции равен г = 0,83. Слабая положительная корреляция (г = 0,12) наблюдается между способностью человека к сочувствию и реальной помощью, которую он оказывает нуждающимся людям.

Отсутствие корреляции (no correlation) определяется значением г = 0. Нулевой коэффициент корреляции говорит о том, что значения переменных никак не свя­заны друг с другом. Примером пары величин с нулевой корреляцией является рост человека и результат его IQ-теста.

Отрицательная корреляция соответствует значениям -1 < г < 0. Если значения одной переменной возрастают, то значения другой имеют тенденцию к убыванию. Чем коэффициент корреляции ближе к -1, тем сильнее эта тенденция, и обратно, с приближением коэффициента корреляции к 0 тенденция ослабевает.

Слабая отрицательная корреляция (г = -0,13) наблюдается между агрессивностью человека по отношению к своему другу и помощью, которую он ему оказывает. Чем агрессивней человек, тем помощь меньше, однако зависимость выражена слабо. Примером значительной отрицательной корреляции (г = -0,73) служит .зависимость между нервной возбудимостью человека и его эмоциональной урав­новешенностью. Чем выше оказывается результат его теста на возбудимость, тем более низкий результат имеет его тест на уравновешенность.

Строгая отрицательная корреляция (perfect negative correlation) определяется значением г = -1. Она, так же как и строгая положительная корреляция, являет­ся абстракцией и не находит отражения в практических исследованиях. Пример, иллюстрирующий строгую отрицательную корреляцию, можно взять из школь­ного учебника физики: при равномерном движении расстояние равно произведе­нию времени па скорость. При заданном расстоянии время и скорость являются обратно пропорциональными величинами: чтобы пройти путь за половину вре­мени, необходимо идти вдвое быстрее.

Дополнительные сведения

Линейная и криволинейная корреляции

Основной коэффициент корреляции г Пирсона является мерой прямолинейной связи между переменными: его значения достигают максимума, когда точки па графике двухмерного рассеивания лежат па одной прямой линии. В реальной жизни отношения между переменными часто оказываются не только вероятност­ными, но и непрямолинейиыми: монотонными или немонотонными. Если связь нелинейная, но монотонная, то вместо г Пирсона следует использовать ранговые корреляции Спирмепа или Кеидалла.

Нередко связь между двумя переменными является не только нелинейной, но и немонотонной. В качестве примера рассмотрим такие два фактора, как нервное возбуждение перед экзаменом и успешность его сдачи. Исследования показы­вают, что студенты, испытывающие умеренное нервное возбуждение, имеют наилучшие результаты на экзаменах, в то время как очень спокойные или очень нервные студенты сдают экзамены значительно хуже. Если по оси абсцисс отло­жить степень нервного возбуждения, а по оси ординат — результаты сдачи экза­менов, то график зависимости между ними примет вид, близкий к перевернутой букве U. При этом любой коэффициент корреляции, вычисленный для этих величии, окажется весьма низким. Это объясняется тем, что для немонотонных отношений нужны другие методы оценки корреляции. Частично мы коснем­ся этих методов в главах 15 и 16, посвященных видам регрессионного анализа.

Перед тем как оценивать корреляцию двух переменных, рекомендуется постро­ить график зависимости между ними — график двухмерного рассеивания. Если график демонстрирует монотонность связи, то для вычисления корреляции можно использовать команды подменю Correlate (Корреляция).

Ранговые корреляции

Как уже отмечалось, необходимость в применении ранговых корреляций возни­кает в двух случаях: когда распределение хотя бы одной из двух переменных не соответствует нормальному и когда связь между переменными является нели­нейной (но монотонной). В этих случаях вместо корреляции г Пирсона можно

выбрать ранговые корреляции: г Спирмепа либо т (читается «тау») Кендалла. ранговыми они являются потому, что программа предварительно ранжирует переменные, между которыми они вычисляются.

Корреляцию г Спирмепа программа SPSS вычисляет следующим образом: сначала переменные переводятся в ранги, а затем к рангам применяется фор­мула г Пирсона. Таким образом, г Спирмепа интерпретируется но аналогии с г Пирсона. Иначе дело обстоит с корреляцией т Кеидалла, которая имеет вероят­ностную природу.

Рассмотрим принцип вычисления т Кендалла на примере. Предположим, оце­нивается связь между ростом и весом в группе людей, предварительно ранжи­рованных но этим переменным. Тогда при сравнении любых двух человек из этой группы возможны две ситуации: однонаправленное изменение переменных («совпадение»), когда и рост, и вес одного больше, чем другого, и разнонаправ­ленное изменение («инверсия»), когда рост у второго больше, а вес меньше, чем у первого. Перебрав все пары испытуемых, можно оцепить вероятность совпа­дений (Р) и вероятность инверсий (Q). Корреляция Кеидалла — это разность вероятностей «совпадений» и «инверсий»: т = Р - Q. По значению корреляции Кепдалла можно всегда вычислить вероятность «совпадений» (Р = (1 + х)/2) и «инверсий» (Q = (1 - х)/2). Например, если корреляция между ростом и весом т = 0,5, то вероятность «совпадений» (чем больше рост, тем больше вес) Р = 0,75, а вероятность «инверсий» (чем больше рост, тем меньше вес) Q = 0,25. Таким образом, важным преимуществом корреляции т Кеидалла является ее отчетли­вая вероятностная интерпретация.

Значимость

Как и большинство статистических процедур, команды подменю Correlate (Кор­реляция) наряду с описательными статистиками (корреляциями в данном слу­чае) вычисляют их уровень значимости. Напомним, что уровень значимости яв­ляется мерой статистической достоверности результата вычислений, в данном случае — корреляции, и служит основанием для интерпретации. Если исследование показало, что уровень значимости корреляции не превышает 0,05, то это означает, что с вероятностью 5 % и менее корреляция является случайной. Обычно это является основанием для вывода о статистической достоверности корреляции. В противном случае (р > 0,05) связь признается статистически недостоверной и не подлежит содержательной интерпретации.

SPSS позволяет определять два теста значимости: односторонний (one-tailed) и двусторонний (two-tailed). Обычно используется двусторонний тест значи­мости. Но если вы заранее знаете направление корреляции (положительное или отрицательное) и вас интересует только одно направление, то можно исполь­зовать односторонний тест значимости. Однако такая ситуация встречается редко, а если и встречается, то правомерность односторонней проверки с трудом поддается обоснованию.

Частная корреляция

Понятие частной корреляции (partial correlation) связано с ковариацией, разго­вор о которой пойдет в главе 14. Здесь мы упоминаем частную корреляцию лишь как одну из команд подменю Correlate (Корреляция). Суть частной корреляции заключается в следующем. Если две переменные коррелируют, то всегда можно предположить, что эта корреляция обусловлена влиянием третьей переменной, как общей причины совместной изменчивости первых двух переменных. Для про­верки этого предположения достаточно исключить влияние этой третьей пере­менной и вычислить корреляцию двух переменных без учета влияния третьей переменой (при фиксированных ее значениях). Корреляция, вычисленная таким образом, и называется частной. Например, при исследовании связи между скоро­стью чтения и зрелостью моральных суждений у детей разного возраста наверняка будет обнаружена корреляция этих двух переменных. Ответ на вопрос, связаны ли они непосредственно, или связь обусловлена возрастом, позволяет дать частная корреляция. Если при фиксированных значениях возраста частная корреляция скорости чтения и зрелости моральных суждений приближается к нулю, то можно заключить, что связь между этими переменными обусловлена возрастом.

В меню Analyze (Анализ) выберите команду Correlate ► Bivariate (Корреляция ► Двумерная). На экране появится диалоговое окно Bivariate Correlations (Дву­мерные корреляции)

В группе Correlation Coefficients (Коэффициенты корреляции) по умолчанию уста­новлен флажок Pearson (Пирсон). Если требуется вычислить ранговые корреля­ции, то следует установить флажок Spearman (Спирмен) и (или) Kendall's tau-b (Тау-би Кендалла). Можете установить все три флажка, чтобы иметь возможность сравнивать три коэффициента корреляции для различных распределений данных.

В группе Test of Significance (Тест значимости) по умолчанию установлен переключа­тель Two-tailed (Двусторонний). Если вы заранее уверены в направлении (знаке) корреляции, то можете установить переключатель One-tailed (Односторонний).

Флажок Flag significant correlations (Помечать значимые корреляции) по умолчанию установлен. Это означает, что корреляции, вычисленные с уровнем значимости от 0,01 до 0,05, будут помечены одной звездочкой (*), а от 0 до 0,01 — двумя звез­дочками (**). Вне зависимости от значимости в вывод включаются коэффициен­ты корреляции и р-уровни, вычисленные с точностью до 3 знаков после запятой, а также количество объектов, участвовавших в процедуре.

Кнопка Options (Параметры) позволяет задать дополнительные параметры корреля­ции. При щелчке на этой кнопке открывается диалоговое окно Bivariate Correlations: Options (Двухмерные корреляции: Параметры), представленное па рис. 9.2.

В группе Statistics (Статистики) имеется два флажка, управляющих отображением статистических величии: Means and standard deviations (Средние значения и стандарт­ные отклонения) и Cross-product deviations and covariances (Произведения отклонений и ковариации). Группа Missing Values (Пропущенные значения) из двух переключа­телей позволяет выбрать способ исключения объектов, содержащих пропущенные значения. Установка переключателя Exclude cases pairwise (Попарное исключение объектов) означает, что если при вычислении корреляции между нарой перемен­ных для какого-нибудь объекта обнаружится отсутствующее значение, то объект будет исключен из вычисления, но только для этой пары переменных. В резуль­тате может оказаться, что для разных пар переменных коэффициенты корреля-

ции будут вычислены с разным числом объектов. При установке переключателя Exclude cases listwise (Построчное исключение объектов) программа перед началом вычислительного процесса исключит из рассмотрения все объекты, содержащие хотя бы одно отсутствующее значение. В любом случае, разрешение проблемы отсутствующих значений лучше провести до начала анализа. О том, каким обра­зом это можно сделать, рассказывается в главе 4.

С помощью команды Crosstabs (Таблицы сопряженности), описанной в главе 8, вычисляются частоты по градациям пеколичествеииых (номинативных) пере­менных. Таблицы сопряженности позволяют сравнивать частоты для разных подгрупп, которые соответствуют градациям номинативной переменной. На­пример, составив таблицу сопряженности полххобби, вы могли видеть, что сре­ди девушек 15 увлекаются спортом, 27 — искусством и т. п. Команда Means (Средние) предназначена для сравнения подгрупп объектов по средним значени­ям количественных признаков. При этом предполагается, что в данных имеются не только количественные переменные, для которых вычисляются средние, но и номинативные переменные, разделяющие объекты на подгруппы. Коман­да Means (Средние) вполне применима и к данным файла exOi.sav, который мы рассматриваем в качестве примера. Так, при помощи этой команды мож­но сравнить средние значения успеваемости (отметка!, отметка2) юношей и де­вушек (пол), учащихся разных классов (класс) и т. д. Результаты вычислений представляются в виде таблиц, похожих па таблицы сопряженности при ис­пользовании команды Crosstabs (Таблицы сопряженности). Отличие заключает­ся в том, что для каждой подгруппы вычисляется не только частота, по и среднее значение.

Команда Means (Средние) является одной из самых простых в SPSS. Для вы­бранных подгрупп она подсчитывает средние значения, стандартные отклонения и частоты. Кроме того, с помощью кнопки Options (Параметры) можно задать вывод результатов одпофакторпого дисперсионного анализа.

В меню Analyze (Анализ) выберите команду Compare Means ► Means (Сравне­ние средних ► Средние). На экране появится диалоговое окно Means (Сред­ние),

В диалоговом окне Means (Средние) вам необходимо задать переменные, которые будут участвовать в процедуре. Список Dependent List (Зависимые переменные) в верхней части окна предназначен для количественных переменных, характери­стики которых будут вычисляться. Например, в качестве зависимых переменных могут выступать переменные отметка1, отметка2, тест! и т. д. Список Dependent List (Зависимые переменные) может содержать несколько переменных, при этом для каждой из переменных можно задавать собственные наборы вычисляемых характеристик.

С помощью диалогового окна Means: Options (Средние1 Параметры) можно задать дополнительные параметры вывода для команды Means (Средние). Например, помимо величии, вычисляемых по умолчанию (среднего значения, стандартного отклонения и числа объектов), можно указать любую совокупность показателей, перечисленных в списке Statistics (Статистики). Для этого следует выделить нуж­ный пункт списка, а затем щелчком на кнопке со стрелкой добавить его в список Cell Statistics (Статистики ячеек).

Как уже упоминалось, команда Means (Средние) позволяет выполнять одио-факюриый дисперсионный анализ. Для этого в группе Statistics for the First Layer (Статистики для первого слоя) нужно установить флажок ANOVA table and eta (Таб­лица ANOVA и коэффициент Эта). В процессе группировки зависимой переменной отметка2 по градациям независимой переменной класс программа путем одно-факторного дисперсионного анализа сравнит три средних значения для града­ций переменной класс.

Наши рекомендации