Коэффицент корреляции Спирмена
Коэффициент ранговой корреляции Спирмена используется в случаях, когда:
- переменные имеют ранговую шкалу измерения;
- распределение данных слишком отличается от нормального или вообще неизвестно;
- выборки имеют небольшой объём (N < 30).
Интерпретация рангового коэффициента корреляции Спирмена не отличается от коэффициента Пирсона, однако его смысл несколько отличен. Чтобы понять различие этих методов и логически обосновать области их применения сравним их формулы.
Коэффициент корреляции Спирмена:
11. Проверка выборки на наличие аномальных значений.
Существует множество различных способов проверки нормальности, из которых мы кратко опишем лишь некоторые, предполагая, что эти проверки читатель будет производить при помощи компьютерных программ.
Графический способ(Q-Q Plots, Р-Р Plots). Строят либо квантильные графики, либо графики накопленных частот. Квантильные графики (Q-Q Plots) строятся следующим образом. Сначала определяются эмпирические значения изучаемого признака, соответствующие 5, 10, ..., 95-процентилю. Затем по таблице нормального распределения для каждого из этих процентилей определяются z-значения (теоретические). Два полученных ряда чисел задают координаты точек на графике: эмпирические значения признака откладываются на оси абсцисс, а соответствующие им теоретические значения — на оси ординат. Для нормального распределения все точки будут лежать на одной прямой или рядом с ней. Чем больше расстояние от точек до прямой линии, тем меньше распределение соответствует нормальному. Графики накопленных частот (Р-Р Plots) строятся подобным образом. На оси абсцисс через равные интервалы откладываются значения накопленных относительных частот, например 0,05; 0,1; ...; 0,95. Далее определяются эмпирические значения изучаемого признака, соответствующие каждому значению накопленной частоты, которые пересчитываются в z-значения. По таблице нормального распределения определяются теоретические накопленные частоты (площадь под кривой) для каждого из вычисленных r-значений, которые откладываются на оси ординат. Если распределение соответствует нормальному, полученные на графике точки лежат на одной прямой.
Критерии асимметрии и эксцесса.Эти критерии определяют допустимую степень отклонения эмпирических значений асимметрии и эксцесса от нулевых значений, соответствующих нормальному распределению. Допустимая степень отклонения — та, которая позволяет считать, что эти статистики существенно не отличаются от нормальных параметров. Величина допустимых отклонений определяется так называемыми стандартными ошибками асимметрии и эксцесса. Для формулы асимметрии (4.10) стандартная ошибка определяются по формуле:
где N — объем выборки.
Выборочные значения асимметрии и эксцесса значительно отличаются от нуля, если не превышают значения своих стандартных ошибок. Это можно считать признаком соответствия выборочного распределения нормальному закону. Следует отметить, что компьютерные программы вычисляют показатели асимметрии, эксцесса и соответствующие им стандартные ошибки по другим, более сложным формулам.
Статистический критерий нормальности Колмогорова-Смирновасчитается наиболее состоятельным для определения степени соответствия эмпирического распределения нормальному. Он позволяет оценить вероятность того, что данная выборка принадлежит генеральной совокупности с нормальным распределением. Если эта вероятность р< 0,05, то данное эмпирическое распределение существенно отличается от нормального, а если р > 0,05, то делают вывод о приблизительном соответствии данного эмпирического распределения нормальному.
Причины отклонения от нормальности.Общей причиной отклонения формы выборочного распределения признака от нормального вида чаще всего является особенность процедуры измерения: используемая шкала может обладать неравномерной чувствительностью к измеряемому свойству в разных частях диапазона его изменчивости.
ПРИМЕР Предположим, выраженность некоторой способности определяется количеством выполненных заданий за отведенное время. Если задания простые или время слишком велико, то данная измерительная процедура будет обладать достаточной чувствительностью лишь в отношении части испытуемых, для которых эти задания достаточно трудны. И слишком большая доля испытуемых будет решать все или почти все задания. В итоге мы получим распределение с выраженной правосторонней асимметрией. Можно, конечно, впоследствии повысить качество измерения путем эмпирической нормализации, добавив более сложные задания или сократив время выполнения данного набора заданий. Если же мы чрезмерно усложним измерительную процедуру, то возникнет обратная ситуация, когда большая часть испытуемых будет решать малое количество заданий и эмпирическое распределение приобретет левостороннюю асимметрию.
Таким образом, такие отклонения от нормального вида, как право- или левосторонняя асимметрия или слишком большой эксцесс (больше 0), связаны с относительно низкой чувствительностью измерительной процедуры в области моды (вершины графика распределения частот).
Последствия отклоненияот нормальности.Следует отметить, что задача получения эмпирического распределения, строго соответствующего нормальному закону, нечасто встречается в практике исследования. Обычно такие случаи ограничиваются разработкой новой измерительной процедуры или тестовой шкалы, когда применяется эмпирическая или нелинейная нормализация для «исправления» эмпирического распределения. В большинстве случаев соответствие или несоответствие нормальности является тем свойством измеренного признака, который исследователь должен учитывать при выборе статистических процедур анализа данных.
В общем случае при значительном отклонении эмпирического распределения от нормального следует отказаться от предположения о том, что признак измерен в метрической шкале. Но остается открытым вопрос о том, какова мера существенности этого отклонения? Кроме того, разные методы анализа данных обладают различной чувствительностью к отклонениям от нормальности. Обычно при обосновании перспективности этой проблемы приводят принцип Р. Фишера, одного из «отцов-основателей» современной статистики: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для больших выборок; сами по себе они вносят малое отличие в статистические критерии и другие вопросы». К примеру, при малых, но обычных для психологических исследований выборках (до 50 человек) критерий Колмогорова-Смирнова недостаточно чувствителен при определении даже весьма заметных «на глаз» отклонений от нормальности. В то же время некоторые процедуры анализа метрических данных вполне допускают отклонения от нормального распределения (одни — в большей степени, другие — в меньшей). В дальнейшем при изложении материала мы при необходимости будем оговаривать меру жесткости требования нормальности.
12. Характеристики рассеивания случайной величины (размах, дисперсия, стандартное отклонение, коэффициент вариации)
Дисперсия – мера изменчивости данных, пропорциональная сумме квадратных отклонений измеренных значений от их среднего арифметического.
Стандартное отклонение – положительное значение квадратного корня из дисперсии. Чем больше стандартное отклонение, тем больше значение признака отличается от среднего арифметического.
13. Асимметрия и эксцесс распределения случайной величины.
Асимметрия – степень отклонения графика распределения частот от симметричного вида относительно среднего значения. Для симметричного распределения Ас=0
Эксцесс – мера плосковершинности или остроконечности графика распределения измеряемого признака. Положительный эксцесс – острый график. Отрицательный – плосковершинный. Нулевой эксцесс – средневершинный график, нормальное распределение.
14. Коэффициент линейной корреляции Пирсона.
15. Свойства нормального распределения случайной величины.
Нормальное распределение характеризуется тем, что крайние значения признаков встречаются относительно редко, близкие к среднему арифметическому - относительно часто. Кривая нормального распределения имеет колокообразную форму. Это одномодальное распределение, значения медианы, моды и среднего арифметического которого совпадают между собой, коэффициенты ассиметрии и эксцесса лежат в промежутке от нуля до двух (допустимое), но в идеале равны нулю.
Рассмотрим его важные свойства.
· Единицей измерения единичного нормального распределения является стандартное отклонение.
· Кривая приближается к оси Z по краям асимптотически - никогда не касаясь её.
· Кривая симметрична относительно М=0. Её асимметрия и эксцесс равны нулю.
· Кривая имеет характерный изгиб: точка перегиба лежит точно на расстоянии в одну σ от М.
· Площадь между кривой и осью Z равна 1.
Итак, наиболее важным общим свойством разных кривых нормального распределения является одинаковая доля площади под кривой между одними и теми же двумя значениями признака, выраженными в единицах стандартного отклонения.
16. Таблицы сопряжённости. Коэффициент четырёхклеточной сопряжённости Пирсона.
Таблицы сопряженности,или кросстабуляции — это таблицы совместного распределения частот двух и более номинативных признаков, измеренных на одной группе объектов. Эти таблицы позволяют сопоставить два или более распределения. Столбцы такой таблицы соответствуют категориям (градациям) одного номинативного признака, а строки — категориям (градациям) другого номинативного признака. Если номинативные признаки внесены в электронную таблицу исходных данных, то таблицу сопряженности можно построить, воспользовавшись функцией «Кросстабуляция» одного из стандартных статистических пакетов (например, Crosstabs — в SPSS).
Формула расчета коэффициента четырехклеточной сопряженности Пирсона:
Приведенный коэффициент является ни чем иным, как модификацией коэффициента корреляции Пирсона, поэтому так же изменяется от - 1 до + 1 и критические значения этого коэффициента даны в таблице критических значений для коэффициента Пирсона.
Коэффициент четырехклеточной сопряженности часто применяется для коррелирования ответов на вопросы теста, закодированные в дихотомической шкале.
17. Генеральная совокупность и выборка.
Генеральная совокупность – всё множество объектов в отношение которых формулируется исследовательская гипотеза. Ген. сов. недоступна для сплошного исследования.
Выборка – ограниченная по численности группа объектов (испытуемых/респондентов) специально отбираемая из генеральной совокупности для изучения её свойств.
18. Точечно-бисериальный коэффицент корреляции.
ТОЧЕЧНО-БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - это коэффициент корреляции между двумя переменными, одна из которых измерена в дихотомической шкале, а другая – в интервальной шкале. Применяется в классической и современной тестологии как показатель качества тестового задания – надежности-согласованности с общим баллом по тесту.
Точечно-бисериальный коэффициент корреляции - это метод корреляционного анализа отношения переменных, одна из которых измерена в шкале наименований и принимает только 2 значения (к примеру, мужчины/женщины, ответ верный/ответ неверный, признак есть/признака нет), а вторая в шкале отношений или интервальной шкале. Формула расчета коэффициента точечно-бисериальной корреляции:
19. Основные способы формирования выборки.
Первый и основной прием — это простой случайный (рандомизированный) отбор.Он предполагает обеспечение таких условий, чтобы каждый член генеральной совокупности имел равные с другими шансы попасть в выборку. Случайный отбор обеспечивает возможность попадания в выборку самых разных представителей генеральной совокупности. При этом принимаются специальные меры, исключающие появление какой-либо закономерности при отборе. И это позволяет надеяться на то, что в конечном итоге в выборке изучаемое свойство будет представлено если и не во всем, то в максимально возможном его многообразии.
Второй способ обеспечения репрезентативности — это стратифицированный случайный отбор,или отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут влиять на изменчивость изучаемого свойства (это может быть пол, уровень дохода или образования и т. д.). Затем определяется процентное соотношение численности различающихся по этих качествам групп (страт) в генеральной совокупности и обеспечивается идентичное процентное соотношение соответствующих групп в выборке. Далее в каждую подгруппу выборки испытуемые подбираются по принципу простого случайного отбора.
20. Х^2 критерий Пирсона. Оценка значимости отличия от нуля коэффициента сопряжённость «Фи», «Кч» и «С».
21. Виды статистических гипотез.
Выделяют два вида гипотез: нулевую и альтернативную.
1. Нулевая гипотеза формулируется как гипотеза об отсутствии различий.
2. Альтернативная противоположна по смыслу нулевой. Она утверждает наличие отличий в выборках и параметрах их распределения.
Нулевая и альтернативная гипотезы образуют полную группу несовместимых событий. Если принимается одна, то отклоняется другая.
Могут быть направленным и ненаправленными.
22. L-критерий Пейджа.
L-критерий Пейджа применяется для сопоставления показателей, измеренных в трех и более условиях на одной и той же выборке испытуемых. Критерий позволяет выявить тенденции в изменении величин признака при переходе от условия к условию
:
где Ri – сумма рангов i-того столбца в упорядоченнойтаблице
i– порядковый номер столбца, получившийся в новойтаблице, упорядоченной по сумме рангов
с – число измерений.
23. Виды статистических критериев. Порядок проверки статистических гипотез с помощью статистических критериев.
t – критерий Стьюдента, используется для установления сходства-различия средних
арифметических значений в двух выборках или в более общем виде, для установления сходства-
различия двух эмпирических распределений;
F – критерий Фишера, используется для установления сходства-различия дисперсий в
двух независимых выборках;
Q – критерий Розенбаума, используется для оценки различий между двумя выборками по
уровню какого-либо признака, количественно измеренного.
T – критерий Вилкоксона, применяется для сопоставления показателей, измеренных в
двух разных условиях на одной и той же выборке испытуемых. Он позволяет установить
направленность изменений, и их выраженность.
χ2-критерий Пирсона, используется:
1) для сопоставления эмпирического распределения признака с теоретическим –
равномерным, нормальным или каким-то иным;
2) для сопоставления двух, трех или более эмпирических распределений одного и того же
признака.
Параметрические критерии – это некоторые функции от параметров совокупности, они
служат для проверки гипотез об этих параметрах или для их оценивания. Параметрические
критерии включают в формулу расчета параметры распределения, т.е. средние и дисперсии.
Непараметрические критерии – это некоторые функции от функций распределения или
непосредственно от вариационного ряда наблюдавшихся значений изучаемого случайного
явления. Они служат только для проверки гипотез о функциях распределения или рядах
наблюдавшихся значений.
″Статистический критерий – это решающее правило, обеспечивающее надежное
поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью″
(Суходольский Г.В.). Статистические критерии обозначают также метод расчета определенного
числа и само это число.
Число степеней свободы. Число степеней свободы равно числу классов вариационного
ряда минус число условий, при которых он был сформирован. К числу таких условий относятся:
объем выборки, средние и дисперсии.
Когда расчеты производятся «вручную», исследователь совершает более сложную последовательность действий для проверки гипотезы, включающую применение специальных таблиц критических значений критерия:
Выбор критерия в зависимости от вида исходных данных и статистичес
кой гипотезы: теоретического распределения, формул расчета эмпири
ческого значения критерия и числа степеней свободы.
Расчет по исходным данным (или по имеющимся статистикам) эмпи
рического значения критерия и числа степеней свободы.
Применение «Таблицы критических значений критерия» позволяет оп
ределить значение p-уровня для данного числа степеней свободы.
Таблица критических значений содержит значения (квантили) теоретического распределения, соответствующие наиболее важным — критическим значениям /ьуровня (0,1; 0,05; 0,01 и т. д.) для различных чисел степеней свободы. p-уровепь значимости по вычисленному эмпирическому значению критерия при помощи таких таблиц определяется следующим образом. Для данного числа степеней свободы по таблице определяются ближайшие критические значения и p-уровни, им соответствующие. Далее значение р-уровня определяется в виде неравенства по правилу, которое демонстрируется на рис. 7.2 (значимость возрастает слева направо, в соответствии с убыванием p-уровня):
24. Х^2 критерий Пирсона. Применение критерия для установления сходства/различия между эмпирическим и равномерным распределением.
25. Ошибки первого и второго рода. Доверительная вероятность.
Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Поскольку проверку производят статистическими методами, ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т. е. могут быть допущены ошибки двух родов.
Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.
Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.
Вероятность совершить ошибку первого рода принято обозначать через ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0.05 или 0.01. Если, например, принят уровень значимости, равный 0.05, то это означает, что в пяти случаях из ста мы рискуем допустить ошибку первого рода (отвергнуть правильную гипотезу).
Доверительная вероятность - это интервал, построенный с помощью случайной выборки из распределения с неизвестным параметром, такой, что он накрывает данный параметр с заданной вероятностью. (вероятность того, что значение параметра генеральной совокупности
находится в построенном для него доверительном интервале)
26. Рангово-бисериальный коэффициент корреляции.
Рангово-бисериальный коэффициент корреляции, используемый в случаях, когда одна из переменных (Х) представлена в порядковой шкале, а другая (Y) – в дихотомической, вычисляется по формуле
.
Здесь – средний ранг объектов, имеющих единицу по Y; – средний ранг объектов с нулем по Y, n – объем выборки.
27. Корреляционная матрица и корреляционный граф.
Корреляционная матрица.Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количественной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно проводятся на компьютере, а результатом является корреляционная матрица.
Корреляционная матрица(Correlation Matrix) — это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, измеренных в количественной шкале на одной выборке.
Корреляционная плеяда может отражать все статистически значимые связи корреляционной матрицы (иногда называется корреляционным графом) или только их содержательно выделенную часть (например, соответствующую одному фактору по результатам факторного анализа).
28. Х^2 критерий Пирсона. Применение критерия для установления сходства/различия между эмпирическим и нормальным распределением.
29. Корреляционная матрица и корреляционный граф.
См. 27 вопрос
30. Угловое преобразование Фишера.
F-критерий Фишера используется для:
1) установления сходства-различия дисперсий в двух независимых выборках (D1↔D2);
2) установления отличия от нуля коэффициента детерминации (η2 ↔"О");
3) установления наличия-отсутствия влияния фактора в дисперсионном анализе.
Случай 1
Эмпирическое значение F-критерия для сравнения двух дисперсий в независимых
выборках находят по очень простой формуле:
где D1 – большая дисперсия, D2 – меньшая дисперсия