Анализ двумерных распределений: выявление связей между переменными

Одной из важных задач любого анализа данных является проверка гипо­тез, сформулированных в программе исследования. В гипотезе, как прави­ло, высказывается предположение о наличии связи между двумя и более переменными. И на определенном этапе анализа следует заняться поиском таких связей. Чтобы проделать это, в идеале необходимо найти ответ на пять основных вопросов:

1. Существует ли обозначенная в гипотезе связь между независимой и за­висимой переменными?

2. Каково направление этой связи?

3. Насколько сильна связь?

4. Является ли связь статистически значимой!

5. Является ли связь каузальной!

Начнем с поисков ответа на первый вопрос. Мы можем утверждать, что связь существует, если наблюдаемые значения независимой переменной ас­социируются с наблюдаемыми значениями зависимой переменной. Предпо­ложим, мы сформулировали гипотезу: «чем старше избиратели, тем больше вероятность того, что они примут участие в выборах». При анкетировании мы задаем прямой вопрос с предлагаемыми вариантами ответов:

Принимали ли Вы участие в последних выборах главы городского самоуп­равления?

1 — да;

2 — нет;

3 — не помню.

При обработке данных опроса нам для проверки гипотезы необходимо сопоставить значения независимой переменной (возраст) с соответствующи­ми им значениями зависимой переменной (участие или неучастие в выбо­рах). С целью такого сопоставления мы после соответствующей обработки данных (вручную или с помощью компьютерного пакета SPSS) составляем табл. 17.

Такая таблица называется «кросстаб»™, а процесс ее создания — «кросста-буляция». Это один из основных способов анализа, используемых для того, чтобы увидеть, какую связь переменные имеют друг с другом. Вообще гово­ря, категории независимой переменной могут размещаться как по строкам, так и по столбцам (или, что то же самое, — графам) кросстаба. Обычно неза­висимую переменную помещают в верхней части кросстаба, формируя таким образом столбцы из значений зависимой переменной. Однако на практике — чаще всего из соображений удобства — для наглядности и для того, чтобы

От английского crosstab (cross — крест и tab — сокращение от table — таблица); дословно — «кресто­образная таблица», имея в виду перекрестное наложение значений двух переменных.

уместить кросстаб на одной странице, его иногда конструируют так, чтобы сверху вниз шла переменная с большим числом категорий (т.е. значений, кото­рые может принимать переменная). Реально, конечно, не имеет значения, как будет сконструирован кросстаб: имея независимую переменную в верх­ней части таблицы (по горизонтали) или сверху вниз (по вертикали). Глав­ное — соблюсти правило: когда выбор сделан, процентные отношения в таб­лице должны вычисляться таким образом, чтобы проверить наличие связи Давайте на примере кросстаба 17 посмотрим, как производится чтение таб­лицы — процесс, в ходе которого и выявляется наличие или отсутствие свя­зи между переменными и ее параметры.

Таблица 1', Участие в выборах избирателей различных возрастов

Возраст, годы   Участие в голосовании    
нет ответа да нет не помнят Всего
18-24
Процент по строке 34,8 58,7 6,5 9,2
Процент по столбцу 5,3 17,4 7,9  
25—29
Процент по строке 54,5 32,7 12,7 11,0
Процент по столбцу 10,0 11,6 18,4  
30—39
Процент по строке 3,1 59,8 27,8 9,3 19,4
Процент по столбцу 50,0 19,3 17,4 23,7  
40—49
Процент по строке 0,9 65,2 27,8 6,1 23,0
Процент по столбцу 16,7 24,9 20,6 18,4  
50—59
Процент по строке 64,9 27,0 8,1 14,8
Процент по столбцу 15,9 12,9 15,8  
60—70
Процент по строке 70,0 25,7 4,3 14,0
Процент по столбцу 16,3 11,6 7,9  
Старше 70
Процент по строке 4,7 58,1 30,2 7,0 8,6
Процент по столбцу 33,3 8,3 8,4 7,9  
Всего
Процент 1,2 60,2 31,0 7,6 100,0

Прежде всего обратим внимание на крайний правый столбец и две ниж ние строки. Здесь сведены контрольные суммы. Смысл приведенных циф таков: число в верхней правой ячейке говорит о том, что общее число опро шенных в возрасте от 18 до 24 лет составляет 46 человек; цифра в ячейке ниж сообщает, что это составляет 9,2% общей численности выборочного масси ва (500 человек, которые и принимаются за 100%, — данные в клетках в пра вом нижнем углу таблицы); общее число опрошенных в возрасте от 25 до 2 лет — 55 человек, это составляет 11,0% общей численности выборочног массива и т.д. В самой нижней строке приведены контрольные суммы коли

чества тех, кто дал различные ответы об участии в голосовании по всем воз­растным группам. Так, общее число принимавших участие в голосовании («да») — 301 человек, что составляет 60,2% общего объема выборочного мас­сива; тех, кто не принимал участие («нет»), было в выборочном массиве 155, или 31 %, и т.д. Две ячейки в нижнем правом углу указывают на общую чис­ленность участников опроса, которая принимается за 100% для обеих иссле­дуемых переменных. Контрольные суммы позволяют убедиться, что в про­цессе обработки были учтены ответы всех без исключения категорий респон­дентов.

Отметим также, что в этой таблице мы привели для максимальной пол­ноты распределение по возрастам и тех, кто вообще не дал в анкете ответа на данный вопрос (столбец под заголовком «нет ответа»), а также тех, кто не смог точно вспомнить факта своего участия или неучастия (столбец «не помнят»). Вообще говоря, содержимое этих столбцов не очень информативно, и в ито­говом отчете их можно опустить (здесь они нужны скорее для того, чтобы убедиться, что сошлись контрольные суммы). Хотя порой знание о том, ка­кое число (и какой процент) респондентов не дали ответа или в той или иной форме уклонились от него, бывает достаточно полезным — например, при анализе осведомленности респондентов или степени заинтересованности их в какой-то проблеме. Кроме того, следовало бы подвергнуть особому анали­зу обе категории (тех, кто не дал ответа, и тех, кто не помнит), если бы чис­ленность их оказалась статистически значимой.

Анализ проводят, отслеживая изменения значений зависимой перемен­ной при переходе ее от одного значения к другому. В данном примере в ка­честве независимой переменной выступает возраст респондентов, в качестве зависимой — их электоральная активность (выражаемая участием либо не­участием в голосовании). Процедуру отслеживания изменений значения за­висимой переменной можно проводить как по строкам, так и столбцам. Двигаясь по строкам, мы начинаем с первого значения независимой пере­менной (возраст) — 18—24 года. Мы видим, что здесь число принимавших уча­стие в выборах заметно — более чем в 1,5 раза — меньше числа тех, кто не уча­ствовал. Перейдя к следующей строке — 25—29 лет, мы убеждаемся, что в этой возрастной категории соотношение между числом участвовавших и не уча­ствовавших противоположное: первых уже более чем в 2 раза больше. Это соотношение еще более возрастает при переходе к следующим возрастным категориям, хотя и несколько снижается для самой старшей группы избира­телей (старше 70 лет). Это позволяет нам сделать выводы: (1) о наличии свя­зи между независимой (возраст) и зависимой (участие в выборах) перемен­ными; (2) о направлении этой связи, которая в данном случае является пря­мой или положительной, поскольку ее можно выразить следующим простым описанием: чем больше значения независимой переменной (возраст), тем больше значения зависимой переменной (процент участия в выборах).

Фактически, как мы видим, непосредственному анализу здесь подверга­лись далеко не все цифры, а лишь некоторые из них — те, которые можно было бы свести в сокращенном варианте в виде табл. 17а.

Данные, приведенные в табл. 17 и 17а и отраженные в виде графика на рис. 25, позволяют нам сделать следующие основные выводы: (1) существу­ет отчетливо выраженная связь между возрастом избирателей и их электо­ральной активностью; (2) эта связь в основном положительная — чем боль-

ше возраст, тем выше процент участия представителей этой возрастной груп­пы в голосовании; исключение составляет лишь самая верхняя возрастная группа, где электоральная активность по вполне понятным причинам сни­жается. Второй из указанных выводов основан на правиле, определяющем на­правление связи: когда низкие значения одной переменной ассоциируются с низкими значениями другой переменной (и наоборот), имеет место поло­жительная связь; например, «чем выше уровень образования у кого-то тем выше уровень его политического интереса». Когда низкие значения одной переменной ассоциируются с высокими значениями другой, между двумя пе­ременными существует отрицательная связь; например, «чем выше чей-то до­ход, тем менее он либерален».

Таблица 17а Соотношения участия в выборах и абсентеизма20 в различных возрастных группах

Возраст,годы Участвовали меУчаствовали
18—24 34,8 58,7
25—29 54,5 32,7
30—39 59,8 27,8
40—49 65,2 27,8
50—59 64,9 27,0
60—70 70,0 25,7
Старше 70 58,1 30,2

анализ двумерных распределений: выявление связей между переменными - student2.ru

Рис. 25. Участие в выборах избирателей различных возрастов

Мы могли бы построить графическое отображение и несколько иным спо­собом — в виде распределения, нормированного на 100 %, где в столбцах диа­граммы отражена доля каждой из категорий в общей сумме (рис. 26).

I ермин, принятый в политологии для обозначения такого типа электорального поведения, которое характеризуется отказом от участия в голосовании (от английского absent— отсутствовать).

анализ двумерных распределений: выявление связей между переменными - student2.ru анализ двумерных распределений: выявление связей между переменными - student2.ru

Рис. 26. Участие в выборах избирателей различных возрастов (гистограмма, нормированная на 100%)

Иногда для большей наглядности и убедительности анализа используют различные индексы. Это специально создаваемые показатели, с помощью ко­торых связь между переменнными проявляется более зримо и отчетливо. Здесь должны прийти на помощь воображение и опыт. Мы могли бы, напри­мер, сконструировать по данным табл. 17а «индекс электорального участия», равный частному от деления числа принимавших участие в каждой из воз­растных групп на число тех, кто не голосовал. Результаты отражены в табл. 176 и на рис. 27.

Таблица 176 Индекс электорального участия в различных возрастных группах

Возраст, годы Индекс участия
18—24 0,592845
25—29 1,666667
30—39 2,151079
40—49 2,345324
50—59 2,403704
60—70 2,723735
Старше 70 1,923841

Нетрудно убедиться, что формы кривых на рис. 25 и 27 совершенно иден­тичны (та же зависимость), хотя значения на оси ординат иные. Мы могли бы построить индекс иначе (скажем, не разделив, а вычтя одно из другого) и убедиться, что результат был бы таким же.

анализ двумерных распределений: выявление связей между переменными - student2.ru

Рис. 27. Индексы электорального участия различных возрастных групп

Теперь представим себе, что данные опроса были бы принципиально ины­ми, такими, например, как это представлено в гипотетической табл. 17в.

Таблица 17в Соотношения участия в выборах и абсентеизма в различных возрастных группах (в процентах к численности каждой возрастной группы)

Возраст, годы Участвовали Не участвовали
18—24 59,8 27,8
25—29 59,8 27,8
30—39 59,8 27,8
40—49 59,8 27,8
50—59 59,8 27,8
60—70 59,8 27,8
Старше 70 59,8 27,8

Источник: Гипотетические данные.

Вывод, который мы могли бы сделать из такого рода данных, сомнения не вызывает: связи между возрастом и электоральной активностью не наблю­дается. При этом мы опираемся на правило, сформулированное в предыду­щей главе: нет изменения — нет связи.

Понятие силы связи имеет отношение к тому, насколько существенно различаются наблюдаемые значения зависимой переменной при изменении значений независимой переменной. Если, предположим, характер голосова­ния одной категории избирателей (к примеру, мужчин) значительно от­личается от характера голосования другой категории (женщин), тогда мы можем утверждать, что имеет место сильная связь между двумя перемен­ными. Если степень различия в характере их голосования мала, имеет ме­сто слабая связь.

Наиболее сильная из возможных связей между двумя переменными — это такая связь, при которой значение зависимой переменной для каждого случая в одной категории независимой переменной отличается от каждого из случаев в

другой категории. Такую связь называют совершенной, потому что зависимая пе­ременная абсолютно ассоциируется с независимой переменной, не допуская никаких исключений. Совершенная связь между независимой и зависимой пе­ременными дает исследователю возможность точно предсказать значение лю­бого из случаев зависимой переменной, если известно значение независимой. Пример совершенной связи для гипотетического случая различий в голосова­нии приведен в табл. 17г. Между переменными может существовать как совер­шенная положительная, так и совершенная отрицательная связь, поскольку направление и сипа — это разные свойства связи.

Таблица 17г Различия в голосовании за различных кандидатов в зависимости от пола избирателей

Кандидат   Голосование(%)
  Мужчины   Женщины
Иванов  
Петрова  
Всего  

Источник: Гипотетические данные.

Строго говоря, в реальных распределениях социологических данных крайне редко встречаются как совершенная связь, так и абсолютно полное отсутствие связи. Фактически отсутствие связи выражается в слабости свя­зи. Слабой можно было бы считать такую связь, при которой различия на­блюдаемых значений зависимой переменной для различных категорий не­зависимой переменной незначительны. Фактически наиболее слабая связь — это такая, в которой распределение было бы идентично для всех категорий независимой переменной — другими словами, связь просто от­сутствует.

Пример из социологической практики.Американские социологи Раймонд Уолфингер и Стивен Розенстоун в своем анализе причин, по которым люди голосуют, использовали анализ кросстаба для проверки гипотезы, что чем выше уровень образования индивида, тем с большей вероятностью он при­мет участие в голосовании. Табл. 18 позволяет прийти к следующим выво­дам: (1) связь между образованием и явкой избирателя на выборы реально существует; (2) направление ее таково, как определяет гипотеза; (3) связь довольно сильная. Это хороший пример кросстаба с независимой перемен­ной, размещенной сверху вниз таблицы, поскольку она включает много ка­тегорий. В этом случае процентные отношения размещаются по строкам, а сравнение проводится вниз по столбцам.

Довольно часто используемым показателем силы связи выступают раз­личные коэффициенты корреляции21. Корреляция указывает на степень ста­тистической взаимосвязи признаков. Одним из индексов такого рода при использовании порядковой шкалы измерения выступает коэффициент ран­говой корреляции Спирмена, названный так по имени американского пси-

От английского correlation — связь, соотношение, корреляция. Подробнее об использовании корре­ляционного анализа см.: Яшин В.П. Корреляционный анализ в социологических и психологичес­ких исследованиях. — Н.Новгород: Изд-во НКИ, 1999.

холога Чарльза Спирмена, который использовал его в своих исследовани­ях вместо обычных коэффициентов корреляции. Формула расчета его имеет следующий вид:

анализ двумерных распределений: выявление связей между переменными - student2.ru (4)

где d. — разность рангов; / — общее число сопоставляемых пар.

Понятно, что коэффициент ранговой корреляции Спирмена будет ра­вен +1 (абсолютная положительная связь), если ответы респондентов анали­зируемых групп будут в точности совпадать; он будет равен -1 (абсолютная отрицательная связь), если ответы всех респондентов обеих анализируемых групп будут прямо противоположны; если rs = 0, то это означает полное от­сутствие всякой связи.

Таблица 18 Связь между образованием и явкой на выборы

Число лет образования (независимая переменная) Явка на выборы (зависимая переменная)
Голосовали(%) Не голосовали(%) Общая доля в выборке (%)
0-4 года
5-7лет
8 лет
9-11 лет
12 лет
1-3 года колледжа
4 года колледжа
5 лет колледжа

Источник: Wolfmger E.R. and Rosenstone S .G. Who Votes? Yale: Yale University Press, 1980. P. 17.

Строго говоря, коэффициент ранговой корреляции показывает, насколь­ко одинаковыми или различными оказываются ответы на один и тот же воп­рос со стороны двух сравниваемых между собою групп респондентов. Рассмот­рим процедуру расчета г на примере данных исследования о стереотипах сек­суального поведения. Респондентов просили высказать степень своего согласия (выразив это в баллах от 5 — «полностью согласен», до 1 — «совершенно не согласен») с целым рядом суждений, связанных с теми или иными сторонами интимной жизни. После расчетов среднего значения были получены следую­щие результаты (табл. 19).

После ранжировки по степени согласия с тем или иным суждением таб­лица приобретет несколько иной вид (табл. 19а). Рассчитав величину для каж­дого из значений, возведя ее в квадрат, а затем сложив, мы можем проделать в соответствии с формулой (4) следующую процедуру для расчета коэффи­циента корреляции:

анализ двумерных распределений: выявление связей между переменными - student2.ru

анализ двумерных распределений: выявление связей между переменными - student2.ru Это довольно высокий уровень корреляции, указывающий на относи­тельную близость взглядов мужчин и женщин по всему комплексу приве­денных суждений (несмотря на существенные расхождения по отдельным позициям).

Логическая схема обработки и анализа данных приведена в приложении 2.

Таблица 19 Степень согласия с суждениями (в средних значениях по 5-балльной шкале)

Суждение Мужчины Женщины
Инициатива в интимных отношениях должна принадлежать юношам 3,42 3,55
Если девушка в 18—20 лет невинна, то, скорее всего, она никому не нужна 1,58 1,57
Без секса жизнь неинтересна 3,77 3,03
Любовь бывает исключительно в книгах, в фильмах, а в жизни —только секс 2,12 1,76
Верю, что в жизни у меня будет (есть) настоящая любовь 3,88 3,91
Девушка, ведущая беспорядочную половую жизнь, останется несчастной V' ОДИНОКОЙ 3,04 3,03
Курение и алкоголь — злейшие враги сексуальности 3,42 3,79
Прежде чем вступить в брак, надо проверить, подходит ли тебе человек в сексуальном отношении 4,19 3,33
Без любви не стоит заниматься сексом 2,75 3,45
Наличие денег играет большую роль в выборе сексуального партнера 2,37 2,64
Интимная близость — это соединение, в первую очередь, не половых органов, а любящих душ 3,62 4,22

Таблица 19а

Суждение Мужчины Женщины d d2
Интимная близость — это соединение, в первую очередь, не половых органов, а любящих душ
Верю, что в жизни у меня будет (есть) настоящая любовь
Курение и алкоголь — злейшие враги сексуальности
Инициатива в интимных отношениях должна принадлежать юношам
Без любви не стоит заниматься сексом
Прежде чем вступить в брак, надо проверить, подходит ли тебе человек в сексуальном отношении -5
Без секса жизнь неинтересна
Девушка, ведущая беспорядочную половую жизнь, останется несчастной и одинокой -1
Наличие денег играет большую роль в выборе сексуального партнера
Любовь бывает исключительно в книгах, в фильмах, а в жизни — только секс
Если девушка в 18-20 лет невинна, то, скорее всего, она никому не нужна

анализ двумерных распределений: выявление связей между переменными - student2.ru

ВВОА И АНАЛИЗ ДАННЫХ С ПОМОЩЬЮ SPSS 8.01

SPSS 8.0 представляет собой один из лучших прикладных пакетов для обработки социологической и статистической информации. Преимущества SPSS 8.0:

1) возможность работать с емкими базами данных;

2) широкий набор статистических показателей, необходимых для анализа;

3) конвертация данных в прикладные пакеты Microsoft Word и Microsoft Excel в том виде, в котором эти данные выводятся на экран;

4) возможность графического представления данных;

5) высокая скорость обработки больших массивов информации.

В этой главе рассматривается часть основных возможностей пакета, наиболее необходимых для анализа данных исследований.

Наши рекомендации