Коэффицент корреляции Спирмена

Коэффициент ранговой корреляции Спирмена используется в случаях, когда:
- переменные имеют ранговую шкалу измерения;
- распределение данных слишком отличается от нормального или вообще неизвестно;
- выборки имеют небольшой объём (N < 30).

Интерпретация рангового коэффициента корреляции Спирмена не отличается от коэффициента Пирсона, однако его смысл несколько отличен. Чтобы понять различие этих методов и логически обосновать области их применения сравним их формулы.

Коэффициент корреляции Спирмена:
Коэффицент корреляции Спирмена - student2.ru

11. Проверка выборки на наличие аномальных значений.

Существует множество различных способов проверки нормальности, из которых мы кратко опишем лишь некоторые, предполагая, что эти проверки читатель будет производить при помощи компьютерных программ.

Графический способ(Q-Q Plots, Р-Р Plots). Строят либо квантильные гра­фики, либо графики накопленных частот. Квантильные графики (Q-Q Plots) строятся следующим образом. Сначала определяются эмпирические значе­ния изучаемого признака, соответствующие 5, 10, ..., 95-процентилю. Затем по таблице нормального распределения для каждого из этих процентилей определяются z-значения (теоретические). Два полученных ряда чисел за­дают координаты точек на графике: эмпирические значения признака откладываются на оси абсцисс, а соответствующие им теоретические значе­ния — на оси ординат. Для нормального распределения все точки будут ле­жать на одной прямой или рядом с ней. Чем больше расстояние от точек до прямой линии, тем меньше распределение соответствует нормальному. Гра­фики накопленных частот (Р-Р Plots) строятся подобным образом. На оси абсцисс через равные интервалы откладываются значения накопленных от­носительных частот, например 0,05; 0,1; ...; 0,95. Далее определяются эмпи­рические значения изучаемого признака, соответствующие каждому значе­нию накопленной частоты, которые пересчитываются в z-значения. По таблице нормального распределения определяются теоретические накоп­ленные частоты (площадь под кривой) для каждого из вычисленных r-значений, которые откладываются на оси ординат. Если распределение со­ответствует нормальному, полученные на графике точки лежат на одной прямой.

Критерии асимметрии и эксцесса.Эти критерии определяют допустимую степень отклонения эмпирических значений асимметрии и эксцесса от нуле­вых значений, соответствующих нормальному распределению. Допустимая степень отклонения — та, которая позволяет считать, что эти статистики су­щественно не отличаются от нормальных параметров. Величина допустимых отклонений определяется так называемыми стандартными ошибками асим­метрии и эксцесса. Для формулы асимметрии (4.10) стандартная ошибка оп­ределяются по формуле:

Коэффицент корреляции Спирмена - student2.ru где N — объем выборки.

Выборочные значения асимметрии и эксцесса значительно отличаются от нуля, если не превышают значения своих стандартных ошибок. Это можно считать признаком соответствия выборочного распределения нормальному закону. Следует отметить, что компьютерные программы вычисляют показа­тели асимметрии, эксцесса и соответствующие им стандартные ошибки по другим, более сложным формулам.

Статистический критерий нормальности Колмогорова-Смирновасчитается наиболее состоятельным для определения степени соответствия эмпиричес­кого распределения нормальному. Он позволяет оценить вероятность того, что данная выборка принадлежит генеральной совокупности с нормальным распределением. Если эта вероятность р< 0,05, то данное эмпирическое распределение существенно отличается от нормального, а если р > 0,05, то делают вывод о приблизительном соответствии данного эмпирического рас­пределения нормальному.

Причины отклонения от нормальности.Общей причиной отклонения фор­мы выборочного распределения признака от нормального вида чаще всего является особенность процедуры измерения: используемая шкала может об­ладать неравномерной чувствительностью к измеряемому свойству в разных частях диапазона его изменчивости.

ПРИМЕР Коэффицент корреляции Спирмена - student2.ru Предположим, выраженность некоторой способности определяется количеством выполненных заданий за отведенное время. Если задания простые или время слиш­ком велико, то данная измерительная процедура будет обладать достаточной чув­ствительностью лишь в отношении части испытуемых, для которых эти задания достаточно трудны. И слишком большая доля испытуемых будет решать все или почти все задания. В итоге мы получим распределение с выраженной правосторон­ней асимметрией. Можно, конечно, впоследствии повысить качество измерения путем эмпирической нормализации, добавив более сложные задания или сократив время выполнения данного набора заданий. Если же мы чрезмерно усложним из­мерительную процедуру, то возникнет обратная ситуация, когда большая часть ис­пытуемых будет решать малое количество заданий и эмпирическое распределение приобретет левостороннюю асимметрию.

Таким образом, такие отклонения от нормального вида, как право- или левосторонняя асимметрия или слишком большой эксцесс (больше 0), связа­ны с относительно низкой чувствительностью измерительной процедуры в области моды (вершины графика распределения частот).

Последствия отклоненияот нормальности.Следует отметить, что задача получения эмпирического распределения, строго соответствующего нормаль­ному закону, нечасто встречается в практике исследования. Обычно такие случаи ограничиваются разработкой новой измерительной процедуры или тестовой шкалы, когда применяется эмпирическая или нелинейная норма­лизация для «исправления» эмпирического распределения. В большинстве случаев соответствие или несоответствие нормальности является тем свой­ством измеренного признака, который исследователь должен учитывать при выборе статистических процедур анализа данных.

В общем случае при значительном отклонении эмпирического распреде­ления от нормального следует отказаться от предположения о том, что при­знак измерен в метрической шкале. Но остается открытым вопрос о том, како­ва мера существенности этого отклоне­ния? Кроме того, разные методы ана­лиза данных обладают различной чувствительностью к отклонениям от нормальности. Обычно при обоснова­нии перспективности этой проблемы приводят принцип Р. Фишера, одного из «отцов-основателей» современной статистики: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для боль­ших выборок; сами по себе они вносят малое отличие в статистические критерии и другие вопросы». К примеру, при малых, но обычных для психологичес­ких исследований выборках (до 50 человек) критерий Колмогорова-Смирнова недостаточно чувствителен при определении даже весьма заметных «на глаз» отклонений от нормальности. В то же время некоторые процедуры анализа метрических данных вполне допускают отклонения от нормального распре­деления (одни — в большей степени, другие — в меньшей). В дальнейшем при изложении материала мы при необходимости будем оговаривать меру жесткости требования нормальности.

12. Характеристики рассеивания случайной величины (размах, дисперсия, стандартное отклонение, коэффициент вариации)

Дисперсия – мера изменчивости данных, пропорциональная сумме квадратных отклонений измеренных значений от их среднего арифметического.

Стандартное отклонение – положительное значение квадратного корня из дисперсии. Чем больше стандартное отклонение, тем больше значение признака отличается от среднего арифметического.

13. Асимметрия и эксцесс распределения случайной величины.

Асимметрия – степень отклонения графика распределения частот от симметричного вида относительно среднего значения. Для симметричного распределения Ас=0

Эксцесс – мера плосковершинности или остроконечности графика распределения измеряемого признака. Положительный эксцесс – острый график. Отрицательный – плосковершинный. Нулевой эксцесс – средневершинный график, нормальное распределение.

14. Коэффициент линейной корреляции Пирсона.

15. Свойства нормального распределения случайной величины.

Нормальное распределение характеризуется тем, что крайние значения признаков встречаются относительно редко, близкие к среднему арифметическому - относительно часто. Кривая нормального распределения имеет колокообразную форму. Это одномодальное распределение, значения медианы, моды и среднего арифметического которого совпадают между собой, коэффициенты ассиметрии и эксцесса лежат в промежутке от нуля до двух (допустимое), но в идеале равны нулю.

Рассмотрим его важные свойства.

· Единицей измерения единичного нормального распределения является стандартное отклонение.

· Кривая приближается к оси Z по краям асимптотически - никогда не касаясь её.

· Кривая симметрична относительно М=0. Её асимметрия и эксцесс равны нулю.

· Кривая имеет характерный изгиб: точка перегиба лежит точно на расстоянии в одну σ от М.

· Площадь между кривой и осью Z равна 1.

Итак, наиболее важным общим свойством разных кривых нормального распределения является одинаковая доля площади под кривой между одни­ми и теми же двумя значениями признака, выраженными в единицах стан­дартного отклонения.

16. Таблицы сопряжённости. Коэффициент четырёхклеточной сопряжённости Пирсона.

Таблицы сопряженности,или кросстабуляции — это таблицы совместного распределения частот двух и более номинативных признаков, измеренных на одной группе объектов. Эти таблицы позволяют сопоставить два или более распределения. Столбцы такой таблицы соответствуют категориям (градаци­ям) одного номинативного признака, а строки — категориям (градациям) другого номинативного признака. Если номинативные признаки внесены в электронную таблицу исходных данных, то таблицу сопряженности можно построить, воспользовавшись функцией «Кросстабуляция» одного из стан­дартных статистических пакетов (например, Crosstabs — в SPSS).

Формула расчета коэффициента четырехклеточной сопряженности Пирсона:

Коэффицент корреляции Спирмена - student2.ru

Приведенный коэффициент является ни чем иным, как модификацией коэффициента корреляции Пирсона, поэтому так же изменяется от - 1 до + 1 и критические значения этого коэффициента даны в таблице критических значений для коэффициента Пирсона.
Коэффициент четырехклеточной сопряженности часто применяется для коррелирования ответов на вопросы теста, закодированные в дихотомической шкале.

17. Генеральная совокупность и выборка.

Генеральная совокупность – всё множество объектов в отношение которых формулируется исследовательская гипотеза. Ген. сов. недоступна для сплошного исследования.

Выборка – ограниченная по численности группа объектов (испытуемых/респондентов) специально отбираемая из генеральной совокупности для изучения её свойств.

18. Точечно-бисериальный коэффицент корреляции.

ТОЧЕЧНО-БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - это коэффициент корреляции между двумя переменными, одна из которых измерена в дихотомической шкале, а другая – в интервальной шкале. Применяется в классической и современной тестологии как показатель качества тестового задания – надежности-согласованности с общим баллом по тесту.

Точечно-бисериальный коэффициент корреляции - это метод корреляционного анализа отношения переменных, одна из которых измерена в шкале наименований и принимает только 2 значения (к примеру, мужчины/женщины, ответ верный/ответ неверный, признак есть/признака нет), а вторая в шкале отношений или интервальной шкале. Формула расчета коэффициента точечно-бисериальной корреляции:

Коэффицент корреляции Спирмена - student2.ru

19. Основные способы формирования выборки.

Первый и основной прием — это простой случайный (рандомизированный) отбор.Он предполагает обеспечение таких условий, чтобы каждый член генеральной совокупности имел равные с другими шансы попасть в выборку. Слу­чайный отбор обеспечивает возможность попадания в выборку самых разных представителей генеральной совокупности. При этом принимаются специ­альные меры, исключающие появление какой-либо закономерности при отборе. И это позволяет надеяться на то, что в конечном итоге в выборке изу­чаемое свойство будет представлено если и не во всем, то в максимально воз­можном его многообразии.

Второй способ обеспечения репрезентативности — это стратифицирован­ный случайный отбор,или отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут вли­ять на изменчивость изучаемого свойства (это может быть пол, уровень дохо­да или образования и т. д.). Затем определяется процентное соотношение чис­ленности различающихся по этих качествам групп (страт) в генеральной совокупности и обеспечивается идентичное процентное соотношение соот­ветствующих групп в выборке. Далее в каждую подгруппу выборки испытуе­мые подбираются по принципу простого случайного отбора.

20. Х^2 критерий Пирсона. Оценка значимости отличия от нуля коэффициента сопряжённость «Фи», «Кч» и «С».

21. Виды статистических гипотез.

Выделяют два вида гипотез: нулевую и альтернативную.

1. Нулевая гипотеза формулируется как гипотеза об отсутствии различий.

2. Альтернативная противоположна по смыслу нулевой. Она утверждает наличие отличий в выборках и параметрах их распределения.

Нулевая и альтернативная гипотезы образуют полную группу несовместимых событий. Если принимается одна, то отклоняется другая.

Могут быть направленным и ненаправленными.

22. L-критерий Пейджа.

L-критерий Пейджа применяется для сопоставления показателей, измеренных в трех и более условиях на одной и той же выборке испытуемых. Критерий позволяет выявить тенденции в изменении величин признака при переходе от условия к условию

: Коэффицент корреляции Спирмена - student2.ru

где Ri – сумма рангов i-того столбца в упорядоченнойтаблице

i– порядковый номер столбца, получившийся в новойтаблице, упорядоченной по сумме рангов

с – число измерений.

23. Виды статистических критериев. Порядок проверки статистических гипотез с помощью статистических критериев.

t – критерий Стьюдента, используется для установления сходства-различия средних

арифметических значений в двух выборках или в более общем виде, для установления сходства-

различия двух эмпирических распределений;

F – критерий Фишера, используется для установления сходства-различия дисперсий в

двух независимых выборках;

Q – критерий Розенбаума, используется для оценки различий между двумя выборками по

уровню какого-либо признака, количественно измеренного.

T – критерий Вилкоксона, применяется для сопоставления показателей, измеренных в

двух разных условиях на одной и той же выборке испытуемых. Он позволяет установить

направленность изменений, и их выраженность.

χ2-критерий Пирсона, используется:

1) для сопоставления эмпирического распределения признака с теоретическим –

равномерным, нормальным или каким-то иным;

2) для сопоставления двух, трех или более эмпирических распределений одного и того же

признака.

Параметрические критерии – это некоторые функции от параметров совокупности, они

служат для проверки гипотез об этих параметрах или для их оценивания. Параметрические

критерии включают в формулу расчета параметры распределения, т.е. средние и дисперсии.

Непараметрические критерии – это некоторые функции от функций распределения или

непосредственно от вариационного ряда наблюдавшихся значений изучаемого случайного

явления. Они служат только для проверки гипотез о функциях распределения или рядах

наблюдавшихся значений.

Статистический критерий – это решающее правило, обеспечивающее надежное

поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью″

(Суходольский Г.В.). Статистические критерии обозначают также метод расчета определенного

числа и само это число.

Число степеней свободы. Число степеней свободы равно числу классов вариационного

ряда минус число условий, при которых он был сформирован. К числу таких условий относятся:

объем выборки, средние и дисперсии.

Когда расчеты производятся «вручную», исследователь совершает более сложную последовательность действий для проверки гипотезы, включающую применение специальных таблиц критических значений критерия:

Выбор критерия в зависимости от вида исходных данных и статистичес­
кой гипотезы: теоретического распределения, формул расчета эмпири­
ческого значения критерия и числа степеней свободы.

Расчет по исходным данным (или по имеющимся статистикам) эмпи­
рического значения критерия и числа степеней свободы.

Применение «Таблицы критических значений критерия» позволяет оп­
ределить значение p-уровня для данного числа степеней свободы.

Таблица критических значений содержит значения (квантили) теоретичес­кого распределения, соответствующие наиболее важным — критическим зна­чениям /ьуровня (0,1; 0,05; 0,01 и т. д.) для различных чисел степеней свободы. p-уровепь значимости по вычисленному эмпирическому значению критерия при помощи таких таблиц определяется следующим образом. Для данного числа степеней свободы по таблице определяются ближайшие критические значения и p-уровни, им соответствующие. Далее значение р-уровня опреде­ляется в виде неравенства по правилу, которое демонстрируется на рис. 7.2 (значимость возрастает слева направо, в соответствии с убыванием p-уровня):

24. Х^2 критерий Пирсона. Применение критерия для установления сходства/различия между эмпирическим и равномерным распределением.

25. Ошибки первого и второго рода. Доверительная вероятность.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Поскольку проверку производят статистическими методами, ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т. е. могут быть допущены ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Вероятность совершить ошибку первого рода принято обозначать через Коэффицент корреляции Спирмена - student2.ru ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0.05 или 0.01. Если, например, принят уровень значимости, равный 0.05, то это означает, что в пяти случаях из ста мы рискуем допустить ошибку первого рода (отвергнуть правильную гипотезу).

Доверительная вероятность - это интервал, построенный с помощью случайной выборки из распределения с неизвестным параметром, такой, что он накрывает данный параметр с заданной вероятностью. (вероятность того, что значение параметра генеральной совокупности

находится в построенном для него доверительном интервале)

26. Рангово-бисериальный коэффициент корреляции.

Рангово-бисериальный коэффициент корреляции, используемый в случаях, когда одна из переменных (Х) представлена в порядковой шкале, а другая (Y) – в дихотомической, вычисляется по формуле

. Коэффицент корреляции Спирмена - student2.ru

Здесь – средний ранг объектов, имеющих единицу по Y; – средний ранг объектов с нулем по Y, n – объем выборки.

27. Корреляционная матрица и корреляционный граф.

Корреляционная матрица.Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количествен­ной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно прово­дятся на компьютере, а результатом является корреляционная матрица.

Корреляционная матрица(Correlation Matrix) — это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, изме­ренных в количественной шкале на одной выборке.

Корреляционная плеяда может отра­жать все статистически значимые связи корреляционной матрицы (иногда называ­ется корреляционным графом) или только их содержательно выделенную часть (напри­мер, соответствующую одному фактору по результатам факторного анализа).

28. Х^2 критерий Пирсона. Применение критерия для установления сходства/различия между эмпирическим и нормальным распределением.

29. Корреляционная матрица и корреляционный граф.

См. 27 вопрос

30. Угловое преобразование Фишера.

F-критерий Фишера используется для:

1) установления сходства-различия дисперсий в двух независимых выборках (D1↔D2);

2) установления отличия от нуля коэффициента детерминации (η2 ↔"О");

3) установления наличия-отсутствия влияния фактора в дисперсионном анализе.

Случай 1

Эмпирическое значение F-критерия для сравнения двух дисперсий в независимых

выборках находят по очень простой формуле:

Коэффицент корреляции Спирмена - student2.ru

где D1 – большая дисперсия, D2 – меньшая дисперсия

Наши рекомендации