Измерения для порядковых переменных
Когда мы имеем дело с данными порядкового уровня, у нас несколько больше информации, поскольку коды представляют не только категоризацию, но и относительные позиции, или ранжирование. Выбор способа измерения средней тенденции и дисперсии должен как отражать этот факт, так и использовать его возможности. Наиболее подходящий способ измерения средней тенденции для порядковых данных – медиана. Медиана – это просто [c.398]значение среднего признака в упорядоченном ряду, признака, до и после которого находится равное количество признаков. Вычисление медианы, таким образом, требует лишь того, чтобы отсчитать с обоих концов частотного распределения равное количество признаков, до тех пор пока не доберемся до срединного, и определить затем его значение. Там, где имеется нечетное количество признаков, можно определить единственный срединный признак (например, для 99 признаков 50-я от любого конца частотного распределения единица будет иметь 49 единиц как до, так и после себя). Значение этого признака и будет медианой. Если же N (количество единиц) – четное число, появятся две срединных единицы (например, для 100 единиц 50-я и 51-я вместе составят середину распределения). Если обе эти единицы имеют одно и то же значение, оно и будет медианой. Если у них разные значения, медианой будет среднее арифметическое междуними. Поясним на примере. Давайте рассмотрим распределение уровней образования по трем массивам данных (см. табл. 14.2).
Таблица 14.2.
Уровни образования по трем массивам
Код | Значение | Массив 1 (N) | Массив 2 (N) | Массив 3 (N) |
1 2 3 4 5 Общее количество | Начальная школа Незаконченное среднее Законченное среднее Высшее Наличие ученой степени | 25 23 22 20 9 99 | 25 23 22 20 10 100 | 10 40 35 10 5 100 |
В первом массиве выделяется один срединный случай (50-й с обоих концов), определяется его значение и выясняется, таким образом, что медианный уровень образования – 3, или “законченное среднее”. Во втором массиве выделяется два срединных случая (50-й и 51-й с обоих концов), определяется, что каждый принимает одно и то же значение и выясняется, что медиана – опять 3. В третьем [c.399]же массиве срединные случаи включают две категории – “незаконченное среднее” и “законченное среднее”. Здесь медианой является среднее арифметическое между этими величинами, т.е. (2+3)/2=2,5. Поскольку дробные значения не имеют смысла в порядковом измерении, эта цифра просто говорит нам, что середина распределения лежит примерно между 2 и 3.
Любой из нескольких способов измерения дисперсии для порядковых переменных, называемыйквантильным рангом, показывает, насколько плотно различные значения группируются вокруг медианы, или опять насколько типична или репрезентативна медиана для распределения в целом. Квантиль – это мера положения внутри распределения. Например, персентиль делит совокупность на 100 равных частей так, что первый персентиль – это такая точка или значение в этой совокупности (считая от меньшего значения вверх), ниже которой находится 1% всех случаев, второй персентиль – такая точка или значение, ниже которой находятся 2% всех признаков, и т. д. Или, используя более знакомый пример, будущий студент колледжа, достигший 85-го персентиля в тесте на эрудицию, дошел до уровня более высокого, чем уровни 85% всех, кто проходил тест. Точно так же дециль делит совокупность на десятки (например, третий дециль – это точка, ниже которой находятся 30% случаев), квантиль – на пятые доли, квартиль – на четвертые. Любой из них может быть использован для определения дисперсии вокруг медианы, хотя децильные и квантильные ранги наиболее часто встречаются в литературе.
Давайте проиллюстрируем эту процедуру на примере квантильных рангов. Квантильный ранг (q) определяется следующим образом:
q = q4 – q1,
где q4 – четвертый квантиль (значение, ниже которого находится 4/5,или 80% всех признаков);
q1– первый квантиль (значение, ниже которого находится 1/5 или 20% всех признаков).
Чем меньше степень разброса величин между этими двумя точками совокупности, тем плотнее сгруппированы случаи вокруг медианы и тем точнее представляет медиана всю совокупность. В массиве 2 табл. 14.2, например, [c.400]где N=100, можно подсчитать q, определив 81 признак (ниже которого расположено 80% признаков) и 21 признак (ниже которого расположены 20% признаков), начиная наш счет внутри частотного распределения с наименьших значений. Затем мы вычитаем значение 21-го признака из значения 81-го (q=q4–q1=4–1=3) и получаем квантильный ранг. В массиве 3 подобные вычисления выделяют квантильный ранг, равный единице (q=3–2=1), показывающий при сравнении, что это распределение лучше представлено своей медианой, равной 2,5, чем второй массив – своей медианой, равной 3. Внимательное изучение этих двух частотных распределений подтвердит обоснованность нашего вывода.
Одна из трудностей интерпретации квантильных рангов состоит в том, что они чрезвычайно чувствительны к изменениям в количестве градаций самой переменной. Чем больше градаций, тем вероятнее большой разброс. Поэтому квантильные ранги не всегда поддаются интерпретации в случаях сравнений переменных с разным количеством градаций. Для переменных же с примерно равным количеством градаций для построчного или постолбцового сравнения значений одной переменной или для какого-либо абсолютного измерения разброса вокруг медианы они вполне подходят. [c.401]