Разные способы расчета медианы и предполагаемые ими модели
Опишем разные способы расчета медианы на примере.
Предположим, что для 10 школьников значения коэффициента IQ, определенные с помощью шкалы интеллекта Стенфорда-Бине, оказались равными:
113, 120, 119, 115, 122, 126, 120, 112, 120, 119.
Известно, что значением коэффициента может быть любое целое число от 0 до 150. Покажем, каким способами можно рассчитать медиану этого распределения.
Прежде всего необходимо определить тип используемой шкалы. Учитывая, что множество шкальных значений велико и что пороги различимости различий между соседними шкальными значениями для человека (и для респондента, и для социолога) достаточно велики, будем считать, что равенства типа 128-127=113-112 отражают реальность. Поэтому будем считать шкалу интервальной (полагаем очевидным то, что отношения равенства и порядка между шкальными значениями тоже отражают одноименные эмпирические отношения).
Способ расчета медианы и, как следствие, получаемое значение искомой величины определяется модельными соображениями, интерпретацией исходных данных (связанной в первую очередь с нашими представлениями о порождении данных и о соотнесении выборки и генеральной совокупности). Рассмотрим возможные варианты.
а) Выборка – это и есть генеральная совокупность. Кроме названных чисел у нас в принципе ничего нет. Тогда медиану целесообразно найти с помощью вариационного ряда:
112, 113, 115, 119, 119, 120, 120, 120, 122, 126
Ме = 119,5
В таком случае естественной будет следующая функция распределения.
Рис. 1. Вид функции распределения при отождествлении выборки с генеральной совокупности
Однако более отвечающей реальности (хотя и опирающейся на непроверяемые модельные соображения) представляется другая функция распределения. В ее основе лежат два предположения. Первое состоит в том. что, вообще говоря, в качестве значения нашей переменной может служит любое действительное число из рассматриваемого диапазона. Подчеркнем, что здесь фактически две посылки: первая состоит в том, что в принципе нам могут встретиться любые целочисленные значения; против нее вряд ли кто-либо будет возражать; вторая же – говорит о возможности встретить нецелочисленные значения. Последняя посылка обычно по вполне понятным причинам вызывает сомнения. Принять ее – значит полагать, что в принципе измеряемая переменная непрерывна, что к ее дискретности приводит несовершенство используемого способа измерения и отсутствие более адекватных измерительных алгоритмов. После принятия указанного предположения функцию распределения естественно представлять следующим образом (отрезки построенной ломаной линии соединяют левые концы стрелок с предыдущего рисунка).
Второе предположение есть предположение о постепенности, равномерности накопления объектов в каждом заданном выборкой интервале. Так, если в процессе построения графика накопленных частот (выборочного аналога функции распределения) в точке Х = 115 у нас “накопилось” 30% объектов, а в точке 119 – уже 50%, то мы считаем, что 20% объектов, попавших в интервал (115, 119), равномерно распределены в этом интервале и что, вследствие этого, соответствующий фрагмент функции распределения есть отрезок прямой, соединяющий точки (115, 30) и (119, 50). Заметим, что здесь у нас не встает вопрос о том, к какому из двух соседних интервалов относить точку их “стыка”.
Медиана в таком случае находится традиционным способом, отраженном на рисунке. Заметим, что в рассматриваемой ситуации она равна 119 (а не 119,5, как выше).
Рис. 2. Вид функции распределения при предположениях (а) о непрерывности рассматриваемой случайной величины и (б) равномерном накоплении единиц совокупности в каждом заданном выборкой интервале. Ме = 119
На деле социолог обычно пользуется еще более сильным предположением. А именно, при высказанных выше предположениях он задает некоторое разбиение диапазона изменения рассматриваемого признака на интервалы (о встающих здесь проблемах мы говорили в п. 1.1.2) и полагает, что в действительности для него при рассмотрении какого-либо конкретного объекта имеет смысл не то, какое именно значение признака этому объекту отвечает, а то, в какой интервал это значение попадает. При построении выборочного представления функции распределения доля объектов, отвечающих какому-либо интервалу, откладывается, вообще говоря, от любой точки последнего. На следующих двух рисунках отражены наиболее распространенные варианты: на первом – указанная доля откладывается от середины интервала, на втором – от его правого конца. Значения медиан обозначены на рисунках.
Рис. 3. Вид функции распределения при предположениях (а) о непрерывности рассматриваемой случайной величины и (б) заданном априори разбиении на интервалы диапазона ее изменения; (в) отнесении точки “стыка” двух интервалов направо; (г) равномерном накоплении единиц совокупности в промежутке от середины одного интервала до середины другого. Ме = 117,5.
Рис. 4. Вид функции распределения при предположениях (а) о непрерывности рассматриваемой случайной величины и (б) заданном априори разбиении на интервалы диапазона ее изменения; (в) отнесении точки “стыка” двух интервалов направо; (г) равномерном накоплении единиц совокупности в каждом интервале. Ме = 119
Приложение 2