Анализ связи ранговых признаков
Ряд объектов, упорядоченных в соответствии со степенью проявления некоторого свойства, называют ранжированным;каждому числу такого ряда присваивается ранг.Будем обозначать ранги порядковыми числительными 1, 2, ..., п, где п—количество объектов. Таким образом, если какой-либо объект после ранжирования занимает третье место в ряду, ему присваивается ранг 3.
Меры взаимосвязи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции.Эти коэффициенты строятся на основе следующих трех свойств:
а) если ранжированные ряды по обоим признакам полностью совпадают (т. е. каждый объект занимает одно и то же место в обоих рядах), то коэффициент ранговой корреляции должен быть равен + 1, что означает полную положительную корреляцию;
б) если объекты в одном ряду расположены в обратном порядке по сравнению со вторым, коэффициент равен —1, что означает полную отрицательную корреляцию;
в) в остальных ситуациях значения коэффициента заключены в интервале [—1, 1]; возрастание модуля коэффициента от 0 до +1 характеризует увеличение соответствия между двумя ранжированными рядами.
Указанными свойствами обладают коэффициенты ранговой корреляции Спирмена р и Кендалла т.
Коэффициент ранговой корреляции Спирменавычисляется по формуле
где dl— разность между парами рангов для 1-го объекта, п — число сопоставляемых пар рангов (объектов)
Пример 6.Поясним технику вычисления коэффициента r на следующем иллюстративном примере.
В 3-м столбце табл 5 приводятся значения рангов по признаку «сословие владельца», а в четвертом — значения рангов, полученных при ранжировке средних размеров имений Подставляя промежуточные величины, вычисленные в табл 5, в формулу (8 16), получим
т.е. связь между данными признаками прямая и довольно высокая.
Коэффициент ранговой корреляции Кендаллавычисляется по формуле
где S определяется таким образом, как показано в примере 7.
Пример 7. Обратимся вновь к данным табл 5 Таблица упорядочена так, что в столбце «Ранг I» ранги расположились в порядке возрастания их значений (это существенно для вычисления S) Первые четыре столбца табл 5 при вычислении t такие же, как и при вычислении r, а последние два столбца здесь заменяются следующими
Эти два столбца заполняются на основе расположения рангов в столбце «Ранг II». Берем значение ранга, стоящего в столбце «Ранг II» на первом месте, 1, все три расположенных ниже данного ранга значения его превышают, поэтому в первую строку столбца Si+ заносим число 3. Для второго ранга (со значением 3) аналогичный подсчет дает число 1, и т.д. Для заполнения столбца 5 определяем для каждого ранга, сколько из расположенных ниже его рангов имеют значение меньше данного Так, для первого ранга (1) ни один из нижерасположенных рангов не имеет значения меньше 1, поэтому в первую строку столбца 5,- заносится 0 Аналогичный подсчет для второго ранга со значением 3 дает число 1 и т д Таким образом, суммы по этим столбцам равны S+ = 5 и S- = l, а число S = S+—S- = 5— 1 =4 Подставив это значение в формулу (8 17) для коэффициента Кендалла, получим
Коэффициент Кендалла t дает более осторожную оценку корреляции, чем коэффициент Спирмена r (числовое значение t всегда меньше, чем r) Хотя вычисление коэффициента r менее трудоемко, чем вычисление коэффициента t, последний легче пересчитать, если к ряду добавляется новый член
Важное достоинство коэффициента т состоит в том, что с его помощью можно определить коэффициент частнойранговой корреляции, позволяющий оценить степень «чистой» взаимосвязи двух ранговых признаков, устранив влияние третьего.
При ранжировании объектов нередко возникает ситуация, когда два (или большее число) объектов получают одинаковые ранги (такие объекты называют связанными).Расположение студентов в соответствии с их экзаменационными оценками является известным примером такого рода связей. В этом случае значение ранга связанных объектов берется равным среднему значению тех рангов, которые имели бы эти объекты, если они были бы различны.
Например, если связанными оказались 3-й и 4-й объекты в ранжированном ряду, то каждому из них приписывается ранг 3 1/2, а если связываются все объекты от 2-го до 6-го, то каждый получает ранг (2 + 3 + 4 + 5 + 6)/5 = 4. Если число связанных рангов невелико, то при вычислении ранговой корреляции можно пользоваться введенными здесь, формулами для коэффициентов r и t; в противном случае эти формулы несколько усложняются.
Пример 8. Пусть по небольшой выборке, включающей 7 хозяйств, изучается взаимосвязь между размером имения и сословием владельца, приведенными в табл. 6.
В этой таблице имения упорядочены по размеру, а среди рангов сословия владельцев имеются связанные рангиВычислив значения Si+ и Si-, определим коэффициент ранговой корреляции:
Значимость коэффициентов ранговой корреляции.При определении силы ранговой корреляции на основе выборочных данных необходимо рассмотреть следующий вопрос: с какой степенью надежности можно полагаться на заключение о том, что в генеральной совокупности существует корреляция, если получен некоторый выборочныйкоэффициент ранговой корреляции. Другими словами, следует проверить значимость наблюдавшихся корреляций рангов исходя из гипотезы о статистической независимости двух рассматриваемых ранжировок.
При сравнительно большом объеме п выборки проверка значимости коэффициентов ранговой корреляции может осуществляться с помощью таблицы нормального распределения (табл. 1 приложения). Для проверки значимости коэффициента Спирмена r (при n>20) вычисляют значение
а для проверки значимости коэффициента Кендалла t (при n>10) вычисляют значение
Далее задаются уровнем значимости а, определяют по табл. 1 приложения критическое значение tкр и сравнивают с ним вычисленное значение (ts) или (tK).
Пример 9. Проверим значимость коэффициента t для данных табл 6 (вычисления проделаем лишь для иллюстрации, так как объем выборки здесь меньше 10, п = 7) По формуле:
При малых выборках проверка значимости коэффициентов ранговой корреляции проводится с помощью специальных таблиц, построенных на основе более сложных критериев.