Метод уточнения в анализе связи между переменными
Обнаружив наличие взаимосвязи между двумя переменными и оценив интенсивность этой связи с помощью какого-либо коэффициента, исследователь стремится проинтерпретировать эту взаимосвязь в терминах причин и следствий. Иными словами, конечной целью измерения взаимосвязи между переменными является подтверждение (или опровержение) каких-то содержательных предположений, касающихся причинного механизма, порождающего найденную взаимосвязь. Однако, как уже говорилось, само по себе наличие связи между двумя переменными еще не доказывает, что эта связь может быть описана моделью «причина — следствие». (А нулевой коэффициент сопряженности — еще не свидетельство отсутствия всякой причинной зависимости.)
Необходимо, во-первых, найти подтверждения того, что связь не является обратной. Если, например, мы обнаружили высокую корреляцию между полученным образованием и престижностью профессии или между алкоголизмом у родителей и алкоголизмом у детей, то таким подтверждением служит естественная упорядоченность событий: обучение обычно предшествует работе, а проблемы родителей — проблемам детей. Во-вторых, нужно исключить альтернативные объяснения обнаруженной взаимосвязи. Во многих случаях существуют вполне правдоподобные гипотезы, объясняющие найденную зависимость воздействием третьей переменной (или нескольких переменных). Возможно, например, что на избирательную активность влияет не столько пол избирателя, сколько его доход. Так как оплата труда женщин в среднем ниже, чем мужчин, женщины реже проявляют политическую активность. Соответственно сравнение женщин, имеющих высокооплачиваемую работу, и мужчин в этом случае не выявит никаких различий в отношении к выборам.
Рис. 19. Модель «ложной взаимосвязи»
Возьмем другой пример. В исследовании было показано, что существует сильная взаимосвязь между престижностью учебного заведения, где было получено высшее образование, и престижностью работы. Значит ли это, что при найме на работу потенциальные работодатели принимают во внимание рейтинг вуза, в котором проходил обучение соискатель? Вполне возможно. Но даже основываясь исключительно на здравом смысле, легко найти и другие объяснения обнаруженному факту. Может быть, шансы окончить престижное учебное заведение во многом зависят от социально-экономического статуса родителей? Не исключено также, что при устройстве на работу «папины связи» играют столь же существенную роль. В этом случае исходная простая модель «престижное образование ® престижная работа» требует уточнения и дополнения: и качество образования, и успешность карьеры зависят от социально-экономического статуса родителей. Заметьте, что такое уточнение вовсе не отменяет исходного факта — эмпирической взаимосвязи между образованием и карьерой, — оно лишь вводит более сложную модель причинной связи, показывая механизм воздействия третьей переменной (статуса родителей).
Классический подход к анализу взаимосвязи с введением дополнительных, контрольных переменных в социологии и сопредельных дисциплинах получил название метода уточнения. Метод уточнения был детально разработан в 1940—1950-е гг. П. Лазарсфельдом, С. Стауффером, П. Кендалл и их сотрудниками для анализа элементарных таблиц сопряженности и взаимосвязей номинальных признаков[36]. Однако общая логика этого подхода используется, как мы увидим позднее, и в более сложных техниках статистического анализа, и при изучении количественных данных.
Для того чтобы произвести уточнение причинной модели, нужно сделать какие-то содержательные предположения о том, является ли контрольная (третья) переменная предшествующей либо опосредующей. Если контрольная переменная предшествует во времени и независимой и зависимой переменным, то она воздействует на них как общая причина, порождая эмпирическую взаимосвязь между переменными. Эта взаимосвязь, однако, не является причинной связью, так как объясняется влиянием третьей, контрольной переменной. Причинная модель для этого случая, часто обозначаемого как «ложная взаимосвязь», приведена на рисунке 19.
Таблица 8.10
Зависимость общего самочувствия от лечения при контроле хронической заболеваемости (N = 1000 чел.), %
Самооценка общего самочувствия | Больные | Здоровые | ||
регулярно посещают врача | редко посещают врача | регулярно посещают врача | редко посещают врача | |
хорошее плохое | 20% | 18% | 88% | 87% |
80% | 82% | 12% | 13% |
Предположим, что нам удалось установить, что 79% людей, регулярно посещающих врача, оценивают свое самочувствие как «плохое», тогда как среди людей, посещающих врача реже одного раза в год, доля оценивших таким образом свое самочувствие составила 15%. Если принять установленную взаимосвязь за собственно причинную, мы придем к несколько необычному выводу: чем чаще человек посещает докторов, тем хуже он себя чувствует. Предположим, однако, что мы имеем возможность проверить альтернативную гипотезу: люди, страдающие хроническими болезнями, и чаще обращаются за медицинской помощью, и больше подвержены плохому самочувствию. Для того чтобы узнать, сохранится ли исходная взаимосвязь «регулярные посещения врача ® плохое самочувствие» при введении контрольной переменной, нам нужно построить так называемые условные (иногда — частные) таблицы сопряженности, где разные группы сравнивались бы при одном (постоянном) уровне объясняющего фактора. Иными словами, нужно построить одну условную таблицу «посещение х самочувствие» для людей, страдающих хроническими болезнями, и другую таблицу — для здоровых. В каждой из этих таблиц объясняющая переменная будет поддерживаться на постоянном уровне. Пусть, например, мы получим две частные таблицы, объединенные в таблицу 8.10.
Анализ этих двух частных таблиц показывает, что частота посещений врача не оказывает сколько-нибудь заметного влияния на общую оценку самочувствия. Иными словами, метод уточнения в данном примере позволил продемонстрировать, что исходно установленная эмпирическая сопряженность признаков является ложной и может получить объяснение при введении контрольной переменной.
В том случае, когда контрольная переменная опосредует исходное взаимоотношение[37] двух переменных, метод уточнения позволяет выявить собственно механизм влияния независимой переменной на зависимую (см. рис. 20).
Рис. 20.Модель с опосредующей переменной
В таких случаях говорят о том, что контрольная переменная интерпретирует исходную взаимосвязь. Например, исследователь, установивший влияние образовательного уровня родителей на успехи детей в учебе, должен показать, каков механизм такого влияния. В частности, он может предположить, что образованные родители внимательнее следят за интеллектуальным развитием своих детей, активнее стимулируют любые успехи в этой сфере. Если же сравнить учебные успехи тех детей, родители которых занимают «активно-стимулирующую» позицию, то различия в успеваемости между детьми более образованных и менее образованных родителей будут несущественными. Заметим, однако, что здесь исходное отношение не исчезает (как в случае ложной взаимосвязи), а лишь проясняется, получает дополнительную интерпретацию в терминах опосредующей переменной. Для «стимулируемых» детей учебные успехи не зависят от уровня образования родителей. То же отношение верно и для «нестимулируемых» детей.
Иногда в результате уточнения исходной модели в одной из частных таблиц сохраняется высокий уровень взаимосвязи двух переменных, а в другой таблице взаимосвязь уменьшается или исчезает, т. е. коэффициент сопряженности приближается к нулю. В этом случае говорят о спецификации исходной модели: введение третьей переменной позволяет определить специфические условия, при которых наблюдается установленное ранее отношение двух переменных. Например, исследователь может обнаружить, что в центральноафриканских деревенских общинах частота коллективных жертвоприношений местным духам зависит от среднемесячного количества осадков. Очевидное объяснение заключается в том, что люди тем чаще обращаются за помощью к сверхъестественным силам, чем больше они нуждаются в дожде. Можно также предположить, что исходная взаимосвязь «засуха — коллективные жертвоприношения» будет менее значительной для тех традиционных сообществ, которые располагают устойчивыми ресурсами пресной воды (например, водой из близлежащей реки или озера) и, следовательно, не испытывают столь сильной зависимости от атмосферных осадков. В этом случае частная таблица сопряженности для деревенских общин, живущих вдали от постоянных источников пресной воды, покажет исходный или более высокий уровень взаимосвязи между засухами и жертвоприношениями, тогда как во второй частной таблице, построенной для речных или приозерных деревень, эта взаимосвязь окажется нулевой.
Анализ таблиц сопряженности и метод уточнения — это наглядные и достаточно эффективные средства, используемые в проверке гипотез о взаимозависимости переменных. Однако этим подходам присущи определенные ограничения. Самые существенные из таких ограничений связаны, во-первых, с тем, что проводя перегруппировку количественных переменных в номинальные или ординальные (т. е. разбивая доход на «высокий» и «низкий», а интеллект — на «средний» и «выше среднего»), мы теряем существенную информацию о вариации признака внутри качественных градаций, внутри клеточек таблицы сопряженности, хотя эта информация содержится в «сырых» данных. Кроме того, для уточнения исходной причинной модели нам может потребоваться не одна, а две или четыре дополнительные переменные. Однако с введением новых контрольных переменных число частных таблиц сопряженности будет возрастать по степенному закону. Даже если все наши переменные будут иметь лишь две градации, общее количество клеток в частных таблицах сопряженности будет возрастать как степень двух, т. е., скажем, при четырех контрольных дихотомических переменных нам придется иметь дело с 64-клеточной общей таблицей сопряженности. Соответственно число наблюдений, «случаев», приходящихся на каждую клетку таблицы, будет уменьшаться, а получаемые нами результаты окажутся более подверженными влиянию случайной ошибки выборки.
По этим причинам многие исследователи используют несколько более сложные статистические методы анализа, свободные от описанных ограничений.