Частотное распределение респондентов по возрасту
Интервал изменения возраста | [15 - 20) | [20 - 50) | [50 - 55) | [55 - 80) |
Количество респондентов, попавших в интервал |
Рис. 7 . Гистограмма, построенная на основе частотной таблицы 2
Подчеркнем, что предлагаемое разбиение на интервалы представляется нам разумным для некоторых задач - скажем, в том случае, если мы особенно интересуемся категориями женщин, с одной стороны, думающих о вступлении в фазу трудовой деятельности и вступающих в нее (15 - 20 лет) и, с другой стороны, - собирающихся покинуть эту фазу (50-55 лет) (заметим, что людей старше 80-ти лет в нашей совокупности нет).
Итак, алгоритм состоит в следующем. Выбираем какой-то интервал диапазона изменения возраста за единицу и считаем, что на нем высота столбца гистограммы равна проценту людей, попавших в этот интервал. Для гистограммы, изображенной на рис. 7 - это интервалы [15 - 20) и [50 - 55). Другими словами, мы выбрали за единицу интервал длиной в 5 лет. Для интервалов, имеющих другую длину, высоту столбца гистограммы будем полагать равной результату деления величины процента попавших в него людей на длину интервала. Так, интервал [50 - 55) имеет длину в 6 наших единиц. В него попали 45% респондентов. Поделим 45 на 6 . Получится 7,5%. Именно такой высоты столбец и будет отвечать рассматриваемому интервалу. Так же поступим с интервалом [55 - 80). В него попало 5% респондентов, а длина его равна 5 единицам. Значит, высота соответствующего столбца равна 50:5 = 1 %.
Нетрудно проверить, что при описанном подходе площадь каждого столбца будет равной проценту респондентов, возраст которых попал в интервал, лежащий в его основании.
Социологу необходимо приучить себя правильно интерпретировать гистограмму и сразу, в результате беглого взгляда на нее, оценивать содержательную суть представленного ею распределения: эта оценка должна базироваться на анализе не высоты столбцов, а их площади! (Роль беглой визуальной оценки графических данных в процессе формирования научных взглядов на изучаемый предмет, анализируется наукой. Соответственно, изучаются разные способы визуализации данных с точки зрения наиболее эффективного воздействия на сознание исследователя, наиболее адекватного улавливания им сути отраженных в “картинках” явлений. Об этом см., например (Плотинский, 1994)).
Именно при описанном подходе к построению гистограммы ее можно считать выборочным представлением того, что в математической статистике называется функцией плотности распределения. Только в этом случае гистограммы, представляющие, скажем, функцию плотности нормального распределения, будут в совокупности по своей форме напоминать известную форму "колокола" и при увеличении дробности интервалов все больше приближаться к идеальной “гладкой” кривой соответствующего вида.
Кумулята
Выборочным представлением собственно функции распределения (а не плотности) случайной величины, “стоящей” за рассматриваемым признаком, служит т.н. кумулята распределения, или график накопленных частот. Она обычно представляется в виде полигона, каждая вершина которого отвечает относительной частоте того, что признак принимает значение, не превышающее того, над которым эта вершина находится. Нетрудно понять, что кумулята получается из описанного выше полигона распределения путем последовательного суммирования определяющих его частот. Так, полигону, изображенному на рис. 6, будет отвечать следующая кумулята (рис.8):
Так, полуинтервалу (25, 30] будет отвечать частота 80%, складывающаяся из отраженных на рис. 3 частот, соответствующих полуинтервалам (15, 20], (20, 25] и (25, 30]. Выборочное представление функции распределения может быть задано и в виде гистограммы (рис. 9).
Теперь вспомним, что непрерывные интервальные шкалы - не самые важные для социолога виды шкал (даже возраст социологом часто рассматривается как номинальная или порядковая переменная: выделяются классы работающих и пенсионеров, молодежи и людей более старших возрастов, репродуктивный возраст и нерепродуктивный и т.д.). Перейдем к рассмотрению номинального и порядкового уровней измерения. Шкалы соответствующих типов в социологии обычно бывают дискретными: в анкете используется конечный набор значений (например, удовлетворенность работой может измеряться по семибалльной порядковой шкале; для измерения профессии можно использовать
Рис. 8. Кумулята распределения, отвечающего выборочной функции плотности, изображенной на рисунке 3
Рис. 9. Кумулята распределения, отраженного на рисунках 3 и 8, заданная в виде гистограммы
номинальную шкалу, определяемую, скажем, 30-ю конкретными наименованиями), и встает вопрос о том, как здесь строить полигоны, гистограммы, кумуляты.
Сразу отметим, что говорить о кумуляте для номинальной шкалы в принципе невозможно, поскольку для значений признака, полученных по этой шкале, теряет смысл понятие “больше” или “меньше”. Полигон, как мы уже говорили (см. рис.2), построить можно. Но отрезки, связывающие отдельные точки, мы никак не можем интерпретировать. Они проведены лишь для наглядности и график на рис.2 эквивалентен картине, изображенной на рис. 1. То же можно сказать и о гистограмме.
Относительно специфики построения полигонов и гистограмм для порядковых шкал заметим следующее. Кумуляту для таких шкал строить можно. Но интерпретация полигонов и гистограмм (и для кумуляты, и для выборочной оценки функции плотности распределения) может быть двоякой. Поясним на примере рассмотрения функции плотности.
Возможны два варианта интерпретации результатов измерения по порядковой шкале.
1) Полагаем, что в принципе наш признак непрерывен, а наблюдаемая дискретность (наблюдаемая совокупность значений любого признака всегда дискретна хотя бы в силу своей конечности) объясняется
· либо только конечностью выборки, а в принципе мы можем получить в качестве наблюдаемого значения любое действительное число рассматриваемого отрезка числовой оси;
· либо (что обычно более отвечает реальности) тем, что мы не умеем достаточно точно измерять наш признак; рассматриваем лишь несколько его уровней; измерение же состоит в том, чтобы каждый измеряемый объект отнести к одному из этих уровней.
2) Считаем, что признак дискретен по своей природе, т.е. что для него не имеют смысла числа, лежащие между используемыми шкальными значениями.
В первом случае мы вполне можем интерпретировать полигон и гистограмму так же, как это делали для интервального признака. Во втором же случае построение и того, и другого рассматривается как чисто иллюстративный прием - так же, как это имело место для номинального признака.