Проблема разбиения диапазона изменения признака на интервалы
При определении способа разбиения встает целый ряд взаимосвязанных вопросов: какова величина интервалов? Сколько их? Каково соотношение между ними? И т.д.
Мы не будем подробно рассматривать эти вопросы. Лишь коротко заметим, что их решение в первую очередь должно опираться на содержание задачи. Так, при изучении типов личности, вполне возможно, что нас удовлетворит разбиение всех возрастов от 15 до 100 лет на равные интервалы: (15-20), (20-25), (25-30) и т.д. Если же одной из решаемых нами задач будет изучение выбора молодежью жизненного пути, то мы, вероятно отдельно рассмотрим интервалы (15-17), поскольку в 17 лет человек кончает школу; (17-18), поскольку в 18 лет юношей забирают в армию; (18-22), поскольку в 22 года большинство поступивших после школы в институт получают дипломы о высшем образовании и т.д. Если нас интересует лишь производственная деятельность людей, то всех лиц старше 60 лет мы будем считать одинаковыми по возрасту (в анкете одним из вариантов ответа на вопрос о возрасте будет вариант “старше 60”). Если нас будут интересовать какие-то аспекты геронтологии, то, возможно мы выделим интервалы (70-72), (72-74) и т.д. [Пасхавер, 1972; Сиськов, 1971]
Конечно, какую-то роль при выборе интервалов разбиения может сыграть желание исследователя иметь возможность сравнивать свои результаты с результатами других социологов - в таком случае способы разбиения диапазонов изменения тех признаков, по которым совокупности сравниваются, должны быть одинаковыми. В свое время были выдвинуты предложения по унификации разбиения на интервалы диапазонов тех признаков, которые обычно входят в стандартную “паспортичку” анкеты. Однако это не прижилось, поскольку все же разные задачи диктуют разные разбиения [Петренко, Ярошенко, 1979].
Существуют и математические методы, помогающие разбить диапазон изменения признака на интервалы [Орлов, 1977]. Однако при этом речь идет о достаточно тонких и сложных моделях того, что происходит в сознании респондента, дающего нам информацию. Здесь мы их рассматривать не будем.
Разбив на интервалы, мы ставим другие вопросы. Рассмотрим наиболее часто встающие.
К какому интервалу относить объект, для которого значение рассматриваемого признака лежит на “стыке” двух интервалов? Ответом на него обычно служит соглашение: скажем, все “стыки” считать принадлежащими правому интервалу (используя известные математические обозначения, можно сказать, например, что при разбиении диапазона изменения возраста на равные интервалы по 5 лет, мы в действительности будем рассматривать полуинтервалы: [15, 20), [20, 25) и т.д. Последним полуинтервалом может быть, например, [60, 65). Заметим, что фактически используемая нами при этом модель (мы уже неоднократно подчеркивали, что какая-то модель всегда стоит за любым, даже самым простым, математическим методом, и что для социолога раскрытие смысла подобных моделей является первоочередной задачей) изучаемого явления может привести к неоправданному (хотя вряд ли большому, особенно для многочисленной выборки) сдвигу массива данных вправо. Это скажется, например, при расчете мер средней тенденции (их определение см. ниже).
Как в только что описанной ситуации поступать с правым концом самого правого интервала? Прибегая к только что приведенному примеру, переформулируем вопрос: что делать с возрастом 25 лет? Ответы могут быть разными: например, вместо полуинтервала [60,65) использовать отрезок [60,65]; ввести дополнительный полуинтервал [65,70). При достаточно репрезентативной выборке принятие любого из них приведет примерно к одному и тому же результату (точнее, результаты не будут статистически значимо отличаться друг от друга).
При построении полигонов и гистограмм встают свои вопросы.
От какой точки интервала проводить вертикаль, на которой будет откладываться величина процента при построении полигона? На этот вопрос мы ответили в работе [Толстова, 1998] (см. также Приложение 1). Там соответствующая ситуация рассмотрена очень подробно. Здесь же лишь отметим, что вертикаль может начинаться в любой точке интервала (хотя на практике из иллюстративных соображений чаще всего используют его середину).
Конечно, при выборе разных точек, в процессе дальнейшего анализа данных, вообще говоря, будут получаться разные результаты. Однако если считать, что мы работаем в рамках интервальной шкалы, то соответствующее различие будет именно таким, которое с точки зрения теории измерений для этой шкалы вполне допустимо.
Чем отличаются друг от друга модели, которые мы фактически используем, строя, с одной стороны, - полигон, а, с другой, - гистограмму распределения?
В обоих случаях мы в процессе построения закономерности (коей является частотное распределение) теряем информацию о том, каким образом распределены объекты внутри каждого интервала, и восполняем эту потерю путем введения модельных предположений об этом распределении. Обычно считают, что полигон отвечает кусочно-линейной плотности распределения. При использовании же гистограммы полагают, что объекты равномерно распределены внутри каждого интервала.
Напомним, что в соответствии с известными положениями теории вероятностей, площадь фигуры, лежащей под кривой функции плотности над каким-либо интервалом равна вероятности попадания объекта в этот интервал. Особенное внимание ниже будет обращено на то, как это свойство проявляется в случае гистограммы (здесь оно превращается в то обстоятельство, что вероятность попадания значения признака на тот или иной отрезок равна площади соответствующего отрезку прямоугольника гистограммы), поскольку площади прямоугольников легко вычисляются.
Как строить гистограмму с неравными интервалами?
Способ построения такой гистограммы опирается на только что сформулированное положение о площадях составляющих гистограмму прямоугольников. На примере опишем соответствующий алгоритм.
Предположим, что частотная таблица, на базе которой мы хотим построить гистограмму, отвечающую распределению нашей совокупности респондентов по возрасту, имеет вид, отраженный в таблице 2. .
Таблица 2