Анализ одномерных распределений

Главная цель эмпирических наблюдений состоит в том, чтобы проверить гипотезы об интересующих нас общественных явлениях или закономернос­тях в поведении людей. Однако перед тем как исследователи начинают про-

Подробнее об этом см.: Ядов В.А. Социологическое исследование: методология, программа, мето­ды. С. 208.

См.: Анурин В.Ф. Политическая стратификация: содержательный аспект//Социологические иссле­дования. 1996. № 12.

верить свои гипотезы, они обычно бросают предварительный общий взгляд на свои данные и пытаются резюмировать или описать их по каждой из пе­ременных. При резюмировании измерений одной переменной использует­ся так называемая описательная статистика. Соответствующие такому ана­лизу таблицы называют линейными10 или одномерными распределениями.

В курсе математической статистики можно познакомиться с некоторыми примерами анализа одномерных данных анализ одномерных распределений - student2.ru и описательной статистики. Например, средний оценочный балл группы — это описательная статистика, которая описывает и суммирует экзаменационные ведомости как отражение курса оценок. Если мы вычертим график того, как изменяется со временем коэффициент безработицы в данном регионе, то это позволит увидеть, возрастает он или падает — это и будет анализ одномерных данных, где в качестве предмета описательной статистики выступает коэффи­циент безработицы.

Обычно для обобщенного описания того, что является наиболее характер­ным для наблюдаемых нами явлений, используют два основных типа анали­за^ 1) измерение центральной тенденции (т.е. выявление того, какие из значе­ний переменных встречаются в линейных распределениях наиболее часто, а значит, определяют общую или центральную закономерность); (2) измерение разброса или дисперсии (т.е. показывает, насколько плотно или слабо распре­деляются все зафиксированные значения данной переменной вокруг наибо­лее общего, среднего или центрального значения). При обработке эмпиричес­ких данных и анализе полученных результатов мы должны, разумеется, при­нимать во внимание шкалу, с помощью которой производилось измерение той или иной переменной. Способы измерений, т.е. те алгоритмы, по которым производится отображение изучаемых социальных объектов в ту или иную числовую математическую систему, различаются по степени своей сложнос­ти и по объему тех математических действий, которые можно производить с полученными в результате наблюдений значениями переменных. В зависимо­сти от того, насколько широк круг математических операций, допустимых для обработки и получения содержательных выводов, в социологии чаще всего используют шкалы следующих типов (если расположить их в порядке возрас­тания соответствующего уровня^' измерений): номинальные, ранговые, интер­вальные, пропорциональные. Все эти шкалы были разработаны и введены в научный оборот американским исследователем С. Стивенсом.

Номинальная шкала

С помощью номинальной шкалы мы измеряем такие переменные, которые в принципе не могут количественно отличаться друг от друга. Другое название этого уровня измерений — шкала наименований, что довольно точно отражает его сущность: каждое значение здесь представляет собою отдельную категорию, и значение является просто своего рода ярлыком или именем. Значения при-

Поэтому на профессиональном жаргоне социологов это иногда называется просто «линейкой». Чем выше уровень, тем больше математических действий можно совершать с соответствующими числовыми значениями.

сшиваются переменной безотносительно купорядочиванию или установлению какой-то дистанции между категориями, их невозможно сравнивать между со­бою по принципу «больше-меньше», «выше-ниже» и т.п. Так, если бы мы захо­тели рассчитать средние значения переменных, измеренных по номинальной шкале, то это было бы пустой тратой времени. В самом деле, можно ли рассчи­тать среднее значение пола? Или рода занятий? В измерениях номинального уровня отсутствуют те свойства, которыми обладают реальные числа, и такие переменные невозможно складывать, вычитать, умножать и делить12.

Поэтому данные, полученные по номинальной шкале, обычно резюми­руются с помощью простого частотного распределения так, как показано в табл. 5 и 6.

Таблица 5 Распределение респондентов по полу

Пол Частота Процент
Мужчины 44,3
Женщины 55,0
Всего 100,0

Источник: Аналитический отчет об опросе избирателей округа № 14 г. Нижнего Новгорода, проведенного 12—13 марта 1998 г.

Таблица 6 Распределение респондентов по социально-профессиональному статусу

Социально-профессиональный статус Частота Процент
Руководители предприятий 1,8
Предприниматели 5,8
ИТР 9,3
Непроизводственная интеллигенция 9,9
Служащие без специального образования 5,4
Квалифицированные рабочие 10,4
Рабочие средней и низкой квалификации 11,4
Неработающие пенсионеры 25,3
Прочие 20,8
Всего 100,0

Источник: Аналитический отчет об опросе 12—13 марта 1998 г.

Мы видим, что в таблицах, помимо указания частоты в абсолютных цифрах, приведены данные в процентах (что указывает на удельный вес каждого из зна­чений определяемой переменной). Пропорции и процентные доли в процессе

12 Это справедливо и в том случае, когда в качестве наименования используются числа. В самом деле, если вы ждете на остановке автобуса, идущего по маршруту № 36, вряд ли вас удовлетворит, если мимо остановки пройдут подряд два автобуса маршрута № 18.

анализа предпочтительнее частотных распределений вследствие того, что они облегчают процесс сравнения двух популяций различных размеров. Например, в табл. 7 показаны две гипотетические студенческие популяции различных раз­меров, но с одинаковыми пропорциями выбора дисциплин, которые представ­ляются им предпочтительными для изучения. Вы можете прикрыть полоской бумаги столбцы, содержащие проценты, и убедиться, что непосредственно из частотного распределения (без указания процентов) выявить этот факт было бы довольно трудно. Проценты же раскрывают эту информацию немедленно, по­этому нередко, в целях экономии места, особенно в достаточно больших по размерам таблицах, показывают только проценты. Частотные распределения в абсолютном выражении опускаются, однако при этом желательно приводить общее число наблюдений и тем самым давать возможность читателю в случае необходимости вычислить соответствующее частотное распределение.

Таблица 7 Распределение предпочтений, отдаваемых различным учебным дисциплинам

Учебная дисциплина Экономический факультет Коммерческий факультет
  частота процент частота процент
Маркетинг 25,9 25,9
Социология 22,2 22,2
Английский язык 33,3 33,3
Математика 18,5 18,5
Всего 100,0 100,0

Источник: Гипотетические данные.

В табл. 8 представлен пример частотного распределения, пропорций и про­центов голосов делегатов Национальной конвенции Демократической партии США, поданных в 1984 г. за выдвижение трех главных кандидатов в президен­ты от этой партии — Уолтера Мондейла, Гэри Харта и Джесси Джексона.

Таблица 8 Частотное распределение, пропорции и проценты голосов делегатов Национальной демократической конвенции 1984 г.

Категория (значение переменной) Частота Пропорция Процент
Мондейл 0,568 56,8
Харт 0,311 31,1
Джексон 0,121 12,1
Всего 1,000 100,0

Источник: New York Times, July 20. 1984. A12.

Из этой таблицы, конечно, и так видно, что абсолютное число голосов, поданных за Мондейла (2191), больше, нежели число голосов, поданных за других кандидатов; однако, благодаря использованию пропорций и процен­тов, сопоставление различных значений переменных становится более рель­ефным и отчетливым, что, конечно же, облегчает анализ. Преимущество

становится особенно бесспорным при необходимости последовательного сравнения достаточно длинных рядов распределений.

Для данных номинального уровня измерение центральной тенденции производится с помощью определения моды. Модой, или модальной катего­рией, называется то значение переменной, которое встречается среди данных наиболее часто. В табл. 5 модальную категорию представляют собою женщи­ны. В табл. 6 — это категория неработающих пенсионеров, которых среди респондентов оказалось большинство.

Помимо центральной тенденции измеряют и дисперсию данных. Дисперсия характеризует разброс значений переменной. Для данных номинального уров­ня наибольшая дисперсия проявляется в тех случаях, когда наблюдения рас­пределены поровну между категориями. Данные табл. 5 весьма дисперсны, по­скольку имеется почти одинаковое число мужчин и женщин. Полное отсут­ствие дисперсии проявляется в тех случаях, когда все наблюдаемые значения переменной совершенно однородны, т.е. попадают в одну и ту же категорию.

При проведении одномерного анализа могут обнаружиться такие характе­ристики данных, которые представляют собой существенные препятствия для дальнейшего анализа. Представьте, например, что вы намереваетесь изучить взаимосвязь между полом и родом занятий и обнаружили, что в выборке оп­роса оказались одни лишь мужчины. Поскольку налицо отсутствие дисперсии (т.е. нет вариаций по одной из ключевых переменных — по полу), сравнение провести нельзя. Урок, который необходимо из этого усвоить, состоит в сле­дующем: нет изменения — нет сравнения.А процедура сравнения являет собою, по сути, ядро анализа. При отсутствии изменений вы можете обнаружить ка­кое-то интересное единообразие, но не сможете изучить связей между пере­менными, т.е. выявить, что же происходит с одной из них, когда другая варь­ирует (изменяется). Самый простой одномерный анализ, проведенный в ходе сбора данных, поможет вам вовремя скорректировать выборку.

Выявляя центральную тенденцию, следует сразу обращать внимание на максимальные и минимальные значения изучаемой переменной. Другими словами, когда вы имеете дело с переменной, принимающей целый ряд зна­чений, анализ следует начинать с акцента на самом большом и самом малень­ком значении — это сразу дает вам представление о масштабах изменения рассматриваемой переменной..

Не менее, а нередко и более удобным средством анализа служит графичес­кое отображение рядов распределений. На рис. 23 в виде столбчатой диаграм­мы13 изображено распределение, представленное в табл. 6. Одного общего взгляда на эту диаграмму достаточно, чтобы оценить соотношение численно­сти представителей различных социально-профессиональных групп в выбо­рочном массиве; при взгляде на таблицу это нельзя увидеть столь отчетливо.

На рис. 24 мы видим другую форму графического представления данных. Здесь приведена круговая диаграмма14 реестра голосов, поданных на выдви­жении кандидатов в президенты демократами в 1984 г. (табл. 8).

Столбчатая (иногда говорят — столбиковая) диаграмма представляет собой ряд столбцов; каждый столбец — это процент или частота данного значения переменной.

Это одна из разновидностей круговых диаграмм — та, что в англоязычной социологической литера­туре называется pie-diagram («пирожковая диаграмма») — объемное изображение, действительно напоминающее своей формой пирог (или торт).

анализ одномерных распределений - student2.ru

Рис. 23. Социально-профессиональный статус опрошенных

анализ одномерных распределений - student2.ru

Рис. 24. Распределение голосов за выдвижение кандидатов в Президенты США от Демократической партии на выборах 1984 г.

Ранговая шкала

Данные рангового уровня измерений включают в себя категории наблю­дения, которые размещены по порядку15 (от большего значения какого-то признака к меньшему его значению или, наоборот, — от меньшего к боль-

Поэтому иногда такие шкалы называют также порядковыми или ординальными (от англ." ordinal — «порядковый»).

шему). Здесь методы описательной статистики более информативны, неже­ли методы, используемые для измерений номинального уровня. Для изме­рений порядкового уровня центральную тенденцию частотного распределе­ния можно оценить с помощью как моды, так и медианы. Тогда как для из­мерений порядкового уровня разброс можно выявить с помощью не только дисперсии, но и среднеквадратического отклонения. Для измерений номи­нального уровня разброс частотного распределения можно только «ощутить», просматривая все категории. Медиана — это категория, к которой принад­лежит серединное наблюдение.

Можно посмотреть, как определяется медиана на примере распределений ответов на вопрос о том, какова частота использования различных источников информации о работе городской администрации (табл. 9).

Таблица 9 Источники информации о работе городской администрации

Источники информации Частота/ранг
часто регулярно иногда никогда не дали ответа
встречи с мэром и работниками администрации
газеты
общение с коллегами по работе
общениес родными, соседями, друзьями
радио
телевидение

Источник: Аналитический отчет об опросе жителей г. Нижнего Новгоро­да, декабрь 1998 г.

Здесь значения переменных — частоты использования того или иного источника — соотнесены с ранговой шкалой, значения которой меняются от категории «часто» (которой присвоен ранг 4) до «не дали ответа» (ранг 0). Учи­тывая, что общее число опрошенных (или число наблюдений) равно 426, половина наблюдений составит 213. Это означает, что медиана для такого ис­точника информации, как «встречи с мэром и работниками администра­ции»16, приходится на категорию с рангом 1 (никогда); для четырех после­дующих переменных — на категорию с рангом 2 (иногда); для последней пе­ременной — «телевидение» — медиана приходится на категорию 4 (часто).

Наши рекомендации