Выделение двух основных групп методов анализа номинальных данных. Место рассматриваемых подходов в этой группировке
Специфичность настоящего параграфа состоит в том, что мы попытаемся достичь сформулированной цели с помощью установления связи между идеями математики и теоретической социологии. Говоря подробнее, мы на примере покажем, что математик зачастую ставит перед собой те же вопросы, что и социолог, но специфика ответов у каждого специалиста (понятия "математик" и "социолог" мы здесь интерпретируем как некоторые идеальные типы, как отражение разницы видения мира разными исследователями, разницы, обусловленной различием их природных данных, склада ума, той среды, в которой они формировались как ученые и т.д.) своя.
"Математик" в большей мере умеет вычленить в реальности какие-то поддающиеся формализации, строгому описанию фрагменты. При этом может не только использовать известный математический язык, но и создавать новый (достаточно формализованное, строгое описание каких-то аспектов реальности, по определению, называется математическим). Ясно, что строгость описания реальности сопряжена со сравнительной ограниченностью, бедностью описываемого. "Социолог" дает более расплывчатое описание увиденного. Но расплывчатость эта зачастую обусловливается более широким кругозором, пониманием того, что отнюдь не все важные для социологии аспекты реальности поддаются формализации, по крайней мере, при современном развитии науки (в свете сказанного представляется очевидной причина того, почему Конт в своей известной классификации наук самой простой наукой назвал математику, а самой сложной – социологию).
Два слова о том, почему мы сочли нужным включить в книгу настоящий параграф. Задуматься о глубинных связях социологии и математики автора побудила необходимость решить известную проблему преподавания студентам-социологам дисциплин, связанных с использованием математического аппарата. Как мы уже отмечали, студенты часто отторгают такие дисциплины, полагая, что они являются чужеродными для социолога. "Противоядием" против такого отторжения обычно служит демонстрация студентам многочисленных примеров использования в эмпирической социологии методов анализа данных (либо методов математического моделирования разного рода социальных явлений и процессов). "Хорошие" студенты начинают понимать, что математика необходима им для будущей практической работы с эмпирическими данными. Однако при этом никакой глубинной связи между социологией и математикой не усматривается. Само собой разумеющимися обычно считаются следующие положения.
(1) Да, математика помогает социологу охватить единым взором огромные массивы, коротко выразить суть содержащихся в них статистических закономерностей, взаимосвязей между отдельными явлениями и т.д. (2) Но к получению наиболее интересных для социолога фактов эмпирической социологии, связанных с серьезным анализом причинно-следственных отношений математика имеет слабое отношение, поскольку она использует методы, разработанные в основном для естественных наук и поэтому позволяет улавливать зависимости, хотя и важные для социолога, но не носящие специфически социологического характера. (3) Более того, к поиску закономерностей, касающихся глубокого анализа сознания респондента, математика вообще не имеет отношения. Этот более глубокий анализ связывается обычно с пониманием, а не с объяснением. Соответствующее знание можно получить только с помощью т.н. качественных методов. (4) Тем более математика далека от того, с чем имеет дело т.н. теоретическая социология.
Определенные размышления позволили нам придти к несогласию с положениями (2), (3), (4). На наш взгляд, связь между математикой и социологией гораздо глубже, чем это принято считать. То, что студенты ее не видят, представляется естественным. Изучением такой связи наша наука практически не занималась. Лишь в самые последние годы в работах специалистов по теоретической социологии стали появляться параграфы с названиями: "Программа статистически-вероятностно ориентированной науки об обществе" (о творчестве Кондорсе), "Идея инкорпорирования учения о социальном прогрессе в математическое естествознание" (о творчестве И.Канта) [Давыдов, 1995]. Однако соответствующий контекст наводит на мысль о том, что эти словосочетания отражают скорее некие интуитивные догадки, пожелания на будущее, чем конструктивный подход к изучению общественных закономерностей с помощью математического аппарата. Ниже мы по существу попытаемся внести некоторый элемент конструктивности в понимание связи идей математики и теоретической социологии.
Перейдем к выделению интересующих нас групп методов.
Во Введении мы уже предложили некоторую группировку (классификацию) методов анализа данных - деление их на методы дескриптивной статистики, анализа связей между признаками, классификации объектов и поиска латентных переменных. Однако эта классификация является довольно грубой, носит весьма относительный характер и в весьма слабой мере опирается на более или менее серьезные (с точки зрения глубинных моментов, мешающих адекватности использования математики в социологии) модельные предпосылки.
Выделим в огромной совокупности методов анализа номинальных данных два мощных направления, стихийно сложившихся в мировой науке. За каждым из них стоит своя методологическая концепция, свой круг решаемых задач. Глубинные методологические предпосылки, лежащие в основании такого выделения, касаются рефлексии социолога по поводу процесса формирования используемых в исследовании понятий, связаны, в частности, с известным многовековым обсуждением вопросов о номинализме и реализме в социологии. Напомним, о чем идет речь.
Начало упомянутых рассмотрений относится к известному спору об "универсалиях" средневековых схоластов (спор об отношении общего к единичному) [Краткий очерк …, 1960. С.111]. "Реалисты" полагали, что "универсалии" (общие роды) существуют реально, независимо от человеческой мысли и речи. "Номиналисты" – что "универсалии" не существуют реально, не зависимо от человека. Они суть только общие имена (например, "человек вообще", как родовая общность, не существует; реально существуют только отдельные люди; "человек" – лишь общее имя, которым называется каждый конкретный человек).
Среди авторов методов анализа данных также можно выделить своеобразных "реалистов" и "номиналистов". И показать это можно, обратившись к анализу выделяемых нами направлений.
Предлагаемая классификация опирается на некоторые фундаментальные модельные предположения о характере используемых номинальных признаков. Имеется в виду возможность различной интерпретации номинальных данных. Речь идет о том, считаем ли мы, что значения каждого номинального признака являются самостоятельными сущностями, отвечающими разным качествам изучаемых объектов (что часто отождествляется с "превращением" каждого значения в автономный дихотомический признак; о такой дихотомизации пойдет речь в п. 2.6.3), или же полагаем, что за этими значениями (сочетаниями таких значений) стоит некоторая непрерывная (случайная) величина. В последнем случае мы опираемся на предположение о том, чтономинальность наблюдаемого признака объясняется нашим неумением точно измерить "стоящую" за признаком переменную (заметим, что здесь мы не касаемся затронутой выше проблемы, связанной с возможностью рассмотрения каждого найденного с помощью некоторых приемов анализа данных сочетания значений каких-либо признаков как значения строящегося одномерного индекса, см. начало п.2.2.1).
Так, можно рассматривать профессию как единое целое, а можно отдельно рассмотреть свойство "Быть учителем", или свойство "Иметь профессию, представителей которой относят к интеллигенции" т.д.
Выделение указанных подходов к интерпретации номинальных данных представляется достаточно принципиальным по крайней мере по двум причинам.
Первую причину можно назвать гносеологической. Именно анализируя возможность усматривать за наблюдаемым признакам некоторую скрытую непрерывную переменную, мы попадаем в самую гущу интересующего нас спора между сторонниками социологического реализма и социологического номинализма Если мы полагаем, что отдельные градации какого-либо признака представляют собой самостоятельные сущности, т.е. отказываемся пользоваться предположением о существовании некоторой переменной, стоящей за ними, то тем самым встаем на сторону номинализма. В таком случае мы полагаем, например, что существуют люди-учителя, люди – токари, а вот понятие "профессия человека" – это лишь некоторое введенное для удобства и лишенное всякого онтологического содержания название совокупности людей, рассматриваемых как носителей указанных свойств. В такой ситуации столь же бессодержательной будет фраза: "пол и профессия статистически связаны друг с другом". Но вполне осмыслено высказывание: "почти все учителя – женщины".
Если же мы считаем, что наблюдаемые значения – это лишь разные проявления некоторой объективно существующей непрерывной латентной переменной, т.е. некоторого общего для всех людей (системного) качества, то тем самым переходим на позиции социологического реализма (во всяком случае, относительно рассматриваемых качеств отдельных людей).
Представляется возможным также связать первую интерпретацию с гуманитарным подходом к измерению, а вторую – с естественно-научным подходом (об этих подходах см. [Чесноков, 1986]; теория гуманитарных измерений принимает как фундаментальный факт способность людей различать образы и поименовывать их).
Таким образом, мы видим, что одна из актуальных для социологии проблем своеобразно, в каком-то узком своем аспекте, рассматривается математикой
Вторая причина выделения названных подходов к интерпретации номинальных данных – чисто практическая. Разные интерпретации приводят к возможности постановки разных задач и, соответственно, – к возникновению (и использованию) разных методов анализа данных.
Первая интерпретация обусловливает то, что во главу угла исследователь ставит поиск сочетаний значений признаков, детерминирующих "поведение" (по-разному понимаемое) респондента, т.е. поиск взаимодействий. Соответствующим методам мы уделим большое внимание.
При второй интерпретации действия исследователя, как правило, бывают направлены на то, чтобы “вытащить” из исходной информации "стоящую за кадром" латентную переменную, найти “истинное” ее значение для каждого респондента. Часто при этом используются идеи т.н. "оцифровки", т.е. приписывания каждой градации любого номинального (порядкового) признака определенного числа, отвечающего искомому "истинному" значению соответствующей латентной переменной. Речь идет о широком круге родственных друг другу статистических методов, активно применяющихся в западной социологии (особенно во Франции, где совокупность этих методов зачастую отождествляется с методами анализа данных), но слабо известных российским социологам. Это анализ соответствий [Адамов, 1991; Дидэ, 1979, 1985; Жамбю, 1978, 1988; Клишина, 1991; Benzecri, 1973; Clausen, 1998], канонический анализ [Интерпретация и анализ…, 1987; Thompson, 1984], конджойнт-анализ [Louvier, 1988], латентно-структурный анализ (ссылки см. в сноске 6 к части I), собственно алгоритмы оцифровки [Интерпретация и анализ…, 1987; Айвазян и др., 1983] и т.д. Сюда же с определенной оговоркой можно отнести методы многомерного шкалирования [Интерпретация и анализ…, 1987, гл. 8; Клигер и др., 1978, гл.4; Kruscal, Wish, 1978]. Эти методы, как известно, работают не с матрицами типа "объект-признак", а с матрицами близостей между шкалируемыми объектами; но интересующее нас положение остается в силе: предполагается, что респондент, так или иначе дающий оценку объектам, мыслит последние как точки в некотором пространстве восприятия, оси которого – непрерывные числовые переменные; задача же состоит в нахождении этих переменных (т.е. в определении того, какова их суть, каковы их значения для каждого респондента). Сюда же можно отнести и многие известные методы построения социологических индексов, например, известные способы одномерного шкалирования, связываемые обычно с именами Терстоуна, Лайкерта, Гуттмана. Перечисленные методы нами рассматриваться не будут.
Однако в рамках второго подхода находятся и некоторые методы другого рода, в том числе методы, позволяющие искать взаимодействия (CHAID) и измерять связь как между номинальными признаками в целом (Хи-квадрат), так и между отдельными группами альтернатив, отвечающих таким признакам (анализ фрагментов таблицы сопряженности). Эти методы будут подробно рассмотрены ниже, а CHAID будет сравнен с теми методами поиска взаимодействий, которые не опираются на существование упомянутой латентной переменной.
2.3. Анализ связей типа "признак-признак"
Для измерения связи между двумя номинальными признаками в литературе предлагается более сотни коэффициентов. Это является следствием того, что интересующее нас явление - указанную связь (еще раз подчеркнем, что мы говорим о статистической связи, хотя в действительности нас, как правило, интересуют соответствующие причинно-следственные отношения) – оказывается возможным формализовать по-разному. И каждому способу формализации отвечает свое понимание сути искомой связи, своя априорная модель того, что мы хотим изучить.
Мы не будем описывать все известные из литературы коэффициенты рассматриваемого характера. Коснемся лишь трех подходов к измерению парной связи между номинальными признаками. Эти подходы являются наиболее употребительными на практике. Надеемся, что их анализ, осуществленный ниже, заставит читателя "почувствовать" ту сложность социальной реальности, которая обусловливает возможность выделения в ней разных сторон, каждая из которых по-своему "представляет" изучаемое явление, по-своему формализуется.
2.3.1. Коэффициенты связи, основанные на критерии "хи-квадрат"