Линейная и криволинейная корреляции
Меры центральной тенденции
Существует три основные меры центральной тенденции распределения.
? Среднее значение (mean) равно сумме всех значений распределения, деленной
на их количество. Для распределения [3575689] среднее значение равно
(3 + 5 + 7 + 5 + 6 + 8 + 9)/7 - 6,14.
? Медиана (median) определяется как значение, находящееся в середине рас
пределения, полученного из исходного путем упорядочивания по возраста
нию. Для распределения [3 5 7 5 6 8 9J медиана равна 6, поскольку значение,
равное 6, находится в центре последовательности [3556789].
? Мода (mode) равна наиболее часто встречающемуся значению. В распре
делении [3575689] мода равна 5, поскольку число 5 встречается в нем
дважды.
Меры изменчивости
Выделяют две величины, характеризующие изменчивость, или разброс, значений распределения относительно среднего.
106____ Глава 7. Описательные статистиД
? Дисперсия (variance) равна сумме квадратов отклонений каждого значения
от среднего, деленной па N - 1, где N — число значений в распределении.
Для распределения [3575689] дисперсия равна ((3 - 6 14)2 + (5 - 6Д4)2 +
+ (7 - 6Д4)2 + (5 - 6,14)2 + (6 - 6Д4)2 + (8 - 6,14)2 + (9 - 6,14)2)/6 = 4,1429.
? Стандартное отклонение (standard deviation) равно квадратному корню
из дисперсии. Для распределения [3575689] стандартное отклонение
равно 2,0354.
Стандартное отклонение является довольно наглядной и информативной для исследователя характеристикой распределения, а дисперсия, как правило, используется как вспомогательная величина в статистических вычислениях.
Характеристики диапазона распределения
Дополнительными мерами изменчивости являются 4 простые характеристики, отражающие границы распределения и его размах.
Минимум (minimum) равен наименьшему из значений распределения. Для распределения [3575689] минимум равен 3.
Максимум (maximum) равен наибольшему из значений распределения. Для распределения [3575689] максимум равен 9.
Размах (range) составляет разность между максимумом и минимумом распределения. В случае распределения [3575689] размах равен 9-3 = 6.
Сумма (sum) равна сумме всех значений распределения. Для распределения [3575689] сумма равна 3 + 5 + 7 + 5 + 6 + 8 + 9 = 43.
Характеристики формы распределения
Для отражения близости формы распределения к нормальному виду существует две основные характеристики.
► Эксцесс (kurtosis) является мерой «сглаженности» («остро-» или «нлосковер-
шишюсти») распределения. Если значение эксцесса близко к 0, это означает,
что форма распределения близка к нормальному виду. Положительный экс
цесс указывает на «плосковершииное» распределение, у которого максимум
вероятности выражен не столь ярко, как у нормального. Значения эксцесса,
превышающие 5,0, говорят о том, что по краям распределения находится боль
ше значений, чем вокруг среднего. Отрицательный эксцесс, напротив, харак
теризует «островершишюе» распределение, график которого более вытянут
по вертикальной оси, чем график нормального распределения. Считается, что
распределение с эксцессом в диапазоне от -1 до +1 примерно соответствует
нормальному виду. В большинстве случаев вполне допустимо считать нор
мальным распределение с эксцессом, но модулю не превосходящим 2.
Пошаговый алгоритм вычислений _______________________ 107
^. Асимметрия (skewness) показывает, в какую сторону относительно среднего сдвинуто большинство значений распределения. Нулевое значение асимметрии означает симметричность распределения относительно среднего значения, положительная асимметрия указывает па сдвиг распределения в сторону меньших значений, а отрицательная асимметрия — в сторону больших значений. В большинстве случаев за нормальное принимается распределение с асимметрией, лежащей в пределах от -1 до +1. В исследованиях, не требующих высокой точности результатов, нормальным считают распределение с асимметрией, но модулю не превосходящей 2.
Стандартная ошибка
Стандартная ошибка (standard error) является характеристикой точности, или стабильности, величины, для которой она вычисляется. В контексте программы SPSS стандартная ошибка используется для среднего значения, асимметрии и эксцесса. Ее смысл заключается в следующем. Вы можете, взяв определенное количество случайно выбранных значений генеральной совокупности, составить выборку и вычислить для нее среднее значение. Повторив эту операцию некоторое количество раз, вы получите набор средних значений выборок, которые также представляют собой некоторое распределение. Стандартное отклонение этого распределения и будет являться стандартной ошибкой для среднего значения генеральной совокупности. Аналогичным способом вычисляются стандартные ошибки для асимметрии и эксцесса. Чем меньше значение стандартной ошибки, тем выше стабильность величины, для которой она вычисляется.
В мсто Analyze (Анализ) выберите команду Descriptive Statistics ► Descriptives (Описательные статистики ► Описательные статистики). На экране появится диалоговое окно Descriptives (Описательные статистики),
Понятие корреляции
Корреляция, или коэффициент корреляции, — это статистический показатель вероятностной связи между двумя переменными, измеренными в количественной шкале. В отличие от функциональной связи, при которой каждому значению одной переменной соответствует строго определенное значение другой переменной, вероятностная связь характеризуется тем, что каждому значению одной переменной соответствует множество значений другой переменной. Примером вероятностной связи является связь между ростом и весом людей. Ясно, что один и тот же рост может быть у людей разного веса, как и наоборот. Величина коэффици-
Понятие корреляции
еНта корреляции меняется от --1 до 1. Крайние значения соответствуют линейной функциональной связи между двумя переменными, 0 - отсутствию связи.
Наглядное представление о связи двух переменных дает график двухмерного рассеивания - соответствующая команда Scatter (Рассеивание) имеется в меню Graphs (Графики). На таком графике каждый объект представляет собой точку, коорди-шты которой заданы значениями двух переменных. Таким образом, множество объектов представляет собой на графике множество точек. По конфигурации этого множества точек можно судить о характере связи между двумя переменными.
Строгая положительная корреляция (perfect positive correlation) определяется значением г - 1. Термин «строгая» означает, что значения одной переменной однозначно определяются значениями другой переменной, а термин «положительная» — что с возрастанием значений одной переменной значения другой переменной также возрастают.
Строгая корреляция является математической абстракцией и практически не встречается в реальных исследованиях. Примером строгой корреляции является соответствие между временем пути и пройденным расстоянием при неизменной скорости.
Положительная корреляция соответствует значениям 0 < г < 1. Положительную корреляцию следует интерпретировать следующим образом: если значения одной переменной возрастают, то значения другой имеют тенденцию к возрастанию. Чем коэффициент корреляции ближе к 1, тем сильнее эта тенденция, и обратно, с приближением коэффициента корреляции к 0 тенденция ослабевает.
Примером значительной положительной корреляции служит зависимость между ростом и весом человека. Считается, что в этом случае коэффициент корреляции равен г = 0,83. Слабая положительная корреляция (г = 0,12) наблюдается между способностью человека к сочувствию и реальной помощью, которую он оказывает нуждающимся людям.
Отсутствие корреляции (no correlation) определяется значением г = 0. Нулевой коэффициент корреляции говорит о том, что значения переменных никак не связаны друг с другом. Примером пары величин с нулевой корреляцией является рост человека и результат его IQ-теста.
Отрицательная корреляция соответствует значениям -1 < г < 0. Если значения одной переменной возрастают, то значения другой имеют тенденцию к убыванию. Чем коэффициент корреляции ближе к -1, тем сильнее эта тенденция, и обратно, с приближением коэффициента корреляции к 0 тенденция ослабевает.
Слабая отрицательная корреляция (г = -0,13) наблюдается между агрессивностью человека по отношению к своему другу и помощью, которую он ему оказывает. Чем агрессивней человек, тем помощь меньше, однако зависимость выражена слабо. Примером значительной отрицательной корреляции (г = -0,73) служит .зависимость между нервной возбудимостью человека и его эмоциональной уравновешенностью. Чем выше оказывается результат его теста на возбудимость, тем более низкий результат имеет его тест на уравновешенность.
Строгая отрицательная корреляция (perfect negative correlation) определяется значением г = -1. Она, так же как и строгая положительная корреляция, является абстракцией и не находит отражения в практических исследованиях. Пример, иллюстрирующий строгую отрицательную корреляцию, можно взять из школьного учебника физики: при равномерном движении расстояние равно произведению времени па скорость. При заданном расстоянии время и скорость являются обратно пропорциональными величинами: чтобы пройти путь за половину времени, необходимо идти вдвое быстрее.
Дополнительные сведения
Линейная и криволинейная корреляции
Основной коэффициент корреляции г Пирсона является мерой прямолинейной связи между переменными: его значения достигают максимума, когда точки па графике двухмерного рассеивания лежат па одной прямой линии. В реальной жизни отношения между переменными часто оказываются не только вероятностными, но и непрямолинейиыми: монотонными или немонотонными. Если связь нелинейная, но монотонная, то вместо г Пирсона следует использовать ранговые корреляции Спирмепа или Кеидалла.
Нередко связь между двумя переменными является не только нелинейной, но и немонотонной. В качестве примера рассмотрим такие два фактора, как нервное возбуждение перед экзаменом и успешность его сдачи. Исследования показывают, что студенты, испытывающие умеренное нервное возбуждение, имеют наилучшие результаты на экзаменах, в то время как очень спокойные или очень нервные студенты сдают экзамены значительно хуже. Если по оси абсцисс отложить степень нервного возбуждения, а по оси ординат — результаты сдачи экзаменов, то график зависимости между ними примет вид, близкий к перевернутой букве U. При этом любой коэффициент корреляции, вычисленный для этих величии, окажется весьма низким. Это объясняется тем, что для немонотонных отношений нужны другие методы оценки корреляции. Частично мы коснемся этих методов в главах 15 и 16, посвященных видам регрессионного анализа.
Перед тем как оценивать корреляцию двух переменных, рекомендуется построить график зависимости между ними — график двухмерного рассеивания. Если график демонстрирует монотонность связи, то для вычисления корреляции можно использовать команды подменю Correlate (Корреляция).
Ранговые корреляции
Как уже отмечалось, необходимость в применении ранговых корреляций возникает в двух случаях: когда распределение хотя бы одной из двух переменных не соответствует нормальному и когда связь между переменными является нелинейной (но монотонной). В этих случаях вместо корреляции г Пирсона можно
выбрать ранговые корреляции: г Спирмепа либо т (читается «тау») Кендалла. ранговыми они являются потому, что программа предварительно ранжирует переменные, между которыми они вычисляются.
Корреляцию г Спирмепа программа SPSS вычисляет следующим образом: сначала переменные переводятся в ранги, а затем к рангам применяется формула г Пирсона. Таким образом, г Спирмепа интерпретируется но аналогии с г Пирсона. Иначе дело обстоит с корреляцией т Кеидалла, которая имеет вероятностную природу.
Рассмотрим принцип вычисления т Кендалла на примере. Предположим, оценивается связь между ростом и весом в группе людей, предварительно ранжированных но этим переменным. Тогда при сравнении любых двух человек из этой группы возможны две ситуации: однонаправленное изменение переменных («совпадение»), когда и рост, и вес одного больше, чем другого, и разнонаправленное изменение («инверсия»), когда рост у второго больше, а вес меньше, чем у первого. Перебрав все пары испытуемых, можно оцепить вероятность совпадений (Р) и вероятность инверсий (Q). Корреляция Кеидалла — это разность вероятностей «совпадений» и «инверсий»: т = Р - Q. По значению корреляции Кепдалла можно всегда вычислить вероятность «совпадений» (Р = (1 + х)/2) и «инверсий» (Q = (1 - х)/2). Например, если корреляция между ростом и весом т = 0,5, то вероятность «совпадений» (чем больше рост, тем больше вес) Р = 0,75, а вероятность «инверсий» (чем больше рост, тем меньше вес) Q = 0,25. Таким образом, важным преимуществом корреляции т Кеидалла является ее отчетливая вероятностная интерпретация.
Значимость
Как и большинство статистических процедур, команды подменю Correlate (Корреляция) наряду с описательными статистиками (корреляциями в данном случае) вычисляют их уровень значимости. Напомним, что уровень значимости является мерой статистической достоверности результата вычислений, в данном случае — корреляции, и служит основанием для интерпретации. Если исследование показало, что уровень значимости корреляции не превышает 0,05, то это означает, что с вероятностью 5 % и менее корреляция является случайной. Обычно это является основанием для вывода о статистической достоверности корреляции. В противном случае (р > 0,05) связь признается статистически недостоверной и не подлежит содержательной интерпретации.
SPSS позволяет определять два теста значимости: односторонний (one-tailed) и двусторонний (two-tailed). Обычно используется двусторонний тест значимости. Но если вы заранее знаете направление корреляции (положительное или отрицательное) и вас интересует только одно направление, то можно использовать односторонний тест значимости. Однако такая ситуация встречается редко, а если и встречается, то правомерность односторонней проверки с трудом поддается обоснованию.
Частная корреляция
Понятие частной корреляции (partial correlation) связано с ковариацией, разговор о которой пойдет в главе 14. Здесь мы упоминаем частную корреляцию лишь как одну из команд подменю Correlate (Корреляция). Суть частной корреляции заключается в следующем. Если две переменные коррелируют, то всегда можно предположить, что эта корреляция обусловлена влиянием третьей переменной, как общей причины совместной изменчивости первых двух переменных. Для проверки этого предположения достаточно исключить влияние этой третьей переменной и вычислить корреляцию двух переменных без учета влияния третьей переменой (при фиксированных ее значениях). Корреляция, вычисленная таким образом, и называется частной. Например, при исследовании связи между скоростью чтения и зрелостью моральных суждений у детей разного возраста наверняка будет обнаружена корреляция этих двух переменных. Ответ на вопрос, связаны ли они непосредственно, или связь обусловлена возрастом, позволяет дать частная корреляция. Если при фиксированных значениях возраста частная корреляция скорости чтения и зрелости моральных суждений приближается к нулю, то можно заключить, что связь между этими переменными обусловлена возрастом.
В меню Analyze (Анализ) выберите команду Correlate ► Bivariate (Корреляция ► Двумерная). На экране появится диалоговое окно Bivariate Correlations (Двумерные корреляции)
В группе Correlation Coefficients (Коэффициенты корреляции) по умолчанию установлен флажок Pearson (Пирсон). Если требуется вычислить ранговые корреляции, то следует установить флажок Spearman (Спирмен) и (или) Kendall's tau-b (Тау-би Кендалла). Можете установить все три флажка, чтобы иметь возможность сравнивать три коэффициента корреляции для различных распределений данных.
В группе Test of Significance (Тест значимости) по умолчанию установлен переключатель Two-tailed (Двусторонний). Если вы заранее уверены в направлении (знаке) корреляции, то можете установить переключатель One-tailed (Односторонний).
Флажок Flag significant correlations (Помечать значимые корреляции) по умолчанию установлен. Это означает, что корреляции, вычисленные с уровнем значимости от 0,01 до 0,05, будут помечены одной звездочкой (*), а от 0 до 0,01 — двумя звездочками (**). Вне зависимости от значимости в вывод включаются коэффициенты корреляции и р-уровни, вычисленные с точностью до 3 знаков после запятой, а также количество объектов, участвовавших в процедуре.
Кнопка Options (Параметры) позволяет задать дополнительные параметры корреляции. При щелчке на этой кнопке открывается диалоговое окно Bivariate Correlations: Options (Двухмерные корреляции: Параметры), представленное па рис. 9.2.
В группе Statistics (Статистики) имеется два флажка, управляющих отображением статистических величии: Means and standard deviations (Средние значения и стандартные отклонения) и Cross-product deviations and covariances (Произведения отклонений и ковариации). Группа Missing Values (Пропущенные значения) из двух переключателей позволяет выбрать способ исключения объектов, содержащих пропущенные значения. Установка переключателя Exclude cases pairwise (Попарное исключение объектов) означает, что если при вычислении корреляции между нарой переменных для какого-нибудь объекта обнаружится отсутствующее значение, то объект будет исключен из вычисления, но только для этой пары переменных. В результате может оказаться, что для разных пар переменных коэффициенты корреля-
ции будут вычислены с разным числом объектов. При установке переключателя Exclude cases listwise (Построчное исключение объектов) программа перед началом вычислительного процесса исключит из рассмотрения все объекты, содержащие хотя бы одно отсутствующее значение. В любом случае, разрешение проблемы отсутствующих значений лучше провести до начала анализа. О том, каким образом это можно сделать, рассказывается в главе 4.
С помощью команды Crosstabs (Таблицы сопряженности), описанной в главе 8, вычисляются частоты по градациям пеколичествеииых (номинативных) переменных. Таблицы сопряженности позволяют сравнивать частоты для разных подгрупп, которые соответствуют градациям номинативной переменной. Например, составив таблицу сопряженности полххобби, вы могли видеть, что среди девушек 15 увлекаются спортом, 27 — искусством и т. п. Команда Means (Средние) предназначена для сравнения подгрупп объектов по средним значениям количественных признаков. При этом предполагается, что в данных имеются не только количественные переменные, для которых вычисляются средние, но и номинативные переменные, разделяющие объекты на подгруппы. Команда Means (Средние) вполне применима и к данным файла exOi.sav, который мы рассматриваем в качестве примера. Так, при помощи этой команды можно сравнить средние значения успеваемости (отметка!, отметка2) юношей и девушек (пол), учащихся разных классов (класс) и т. д. Результаты вычислений представляются в виде таблиц, похожих па таблицы сопряженности при использовании команды Crosstabs (Таблицы сопряженности). Отличие заключается в том, что для каждой подгруппы вычисляется не только частота, по и среднее значение.
Команда Means (Средние) является одной из самых простых в SPSS. Для выбранных подгрупп она подсчитывает средние значения, стандартные отклонения и частоты. Кроме того, с помощью кнопки Options (Параметры) можно задать вывод результатов одпофакторпого дисперсионного анализа.
В меню Analyze (Анализ) выберите команду Compare Means ► Means (Сравнение средних ► Средние). На экране появится диалоговое окно Means (Средние),
В диалоговом окне Means (Средние) вам необходимо задать переменные, которые будут участвовать в процедуре. Список Dependent List (Зависимые переменные) в верхней части окна предназначен для количественных переменных, характеристики которых будут вычисляться. Например, в качестве зависимых переменных могут выступать переменные отметка1, отметка2, тест! и т. д. Список Dependent List (Зависимые переменные) может содержать несколько переменных, при этом для каждой из переменных можно задавать собственные наборы вычисляемых характеристик.
С помощью диалогового окна Means: Options (Средние1 Параметры) можно задать дополнительные параметры вывода для команды Means (Средние). Например, помимо величии, вычисляемых по умолчанию (среднего значения, стандартного отклонения и числа объектов), можно указать любую совокупность показателей, перечисленных в списке Statistics (Статистики). Для этого следует выделить нужный пункт списка, а затем щелчком на кнопке со стрелкой добавить его в список Cell Statistics (Статистики ячеек).
Как уже упоминалось, команда Means (Средние) позволяет выполнять одио-факюриый дисперсионный анализ. Для этого в группе Statistics for the First Layer (Статистики для первого слоя) нужно установить флажок ANOVA table and eta (Таблица ANOVA и коэффициент Эта). В процессе группировки зависимой переменной отметка2 по градациям независимой переменной класс программа путем одно-факторного дисперсионного анализа сравнит три средних значения для градаций переменной класс.