Статистика iii: изучение взаимосвязей между несколькими переменными
Одномерный и двумерный статистический анализ, описанный в предыдущих главах, часто бывают совершенно необходим для понимания объекта, который мы изучаем. Однако одномерный и двумерный анализ почти никогда не обеспечивает убедительной проверки гипотез или теорий, из которых они были извлечены. Для того чтобы проверить какую-либо гипотезу, необходимо исключить главную альтернативную конкурирующую гипотезу. И хотя четко поставленные исследовательские задачи иногда позволяют нам не принимать во внимание альтернативную гипотезу, обычно предпочитают проверять справедливость конкурирующей гипотезы, опираясь на анализ данных, а не на постановку задач исследования. А это требуетмногомерного анализа, т.е. одновременного анализа взаимосвязей между тремя и более переменными.[c.438]
АНАЛИЗ ТАБЛИЦ
Многие из статистических методов, уже описанных нами, могут применяться в многомерном анализе1.
Для иллюстрации мы можем использовать очень упрощенный пример и предложить метод, которым таблицы корреляции и бипараметрическая статистика могут быть адаптированы для проведения многомерного статистического анализа. Предположим, что мы хотим исследовать, какая связь существует между политическим мировоззрением и получением образования в колледже. Мы можем , предположить, что обучение в колледже дает людям некую опору для поддержания статус-кво и подготавливает их к относительно хорошему функционированию в рамках существующей социоэкономической системы. Тогда возможно мы начнем с гипотезы, что те, кто окончил колледж, будут более консервативны, чем те, кто не имел такой возможности. Чтобы проверить эту гипотезу, нам надо протестировать выборку из 50 респондентов, окончивших колледж и еще 50 таковых, в колледже не учившихся.[c.438]
Таблица 16.1.
Соотношение между получением образования в колледже и политическим мировоззрением
Образование в колледже | Мировоззрение | ||
Либералы (%) | Консерваторы (%) | Общее число респондентов | |
Получили Не получили Всего: | 40 (20) 60 (30) 100 (50) | 60 (30) 40 (20) 100 (50) | (50) (50) (100) |
Наши гипотетические результаты представлены в табл. 16.1. Диагональное “распределение” случаев в этой таблице показывает, что можно более или менее характеризовать как консерваторов прежде всего тех, кто учился в колледже. Подсчитав критерий “хи-квадрат” для этой таблицы, мы выясним, что отношения между посещением колледжа и политическим мировоззрением статистически значимы на уровне 0,01. Все это совпадает с нашей первоначальной гипотезой.
Тем не менее, прежде чем мы рискнем представлять полученные данные в American Political Science Review, нам необходимо проверить некоторые альтернативные конкурирующие гипотезы, чтобы удостовериться, что наши результаты обоснованны. Сделать это можно несколькими способами. Один из них – это расширить наш бипараметрический анализ до многомерного анализа, который позволит нам “проконтролировать” влияние других переменных на отношение между получением образования в колледже и мировоззрением. Например, одна альтернативная конкурирующая гипотеза, достойная изучения, вытекает из наблюдения, что мужчины обычно более консервативны, чем женщины. Если в нашей выборке больше мужчин, чем женщин, то результат, представленный в табл. 16.1 может отражать различия мнений по половому признаку, а не действительное влияние образования на политические мнения.
Чтобы исследовать эту возможность, мы можем проверить отношения между образованием и воззрениями отдельно для мужчин и женщин. Тогда мы построим две табл. сопряженности – 16.2 и 16.3. Если альтернативная конкурирующая гипотеза обоснованна, то статистические отношения между этими признаками, показанные в [c.439]табл. 16.1, не будут показаны в новых таблицах, так как влияние “мужского” или “женского” начала будет исключено. Такой процесс поддержки постоянного влияния третьей переменной на отношения между двумя другими переменными отсылает нас к процедуре контролирования и является важным шагом во всех формах многомерного анализа.
В нашем случае табл. 16.2 и 16.3 на самом деле показывают, что отношения между получением образования в колледже и мировоззрением по существу одинаковы и для мужчин и для женщин. Хотя женщины в нашей выборке, как и было предсказано, не так консервативны, как мужчины, “распределение” в этих двух таблицах практически одинаково, и вычисление “хи-квадрат” критерия для каждой из них показывает, что те отношения, которые они представляют, статистически значимы. В такой ситуации исследователи говорят, что первоначально предположенные отношения “проконтролированы” и что альтернативная конкурирующая гипотеза как объяснение первоначальных данных может быть “исключена”. Если отношения достаточно хорошо выдерживают такое контролирование, они принимаются как обоснованные. Важно помнить, что мы могли бы найти такой пример, когда отношения, представленные в табл. 16.1, стали бы статистически незначимыми, и тогда мы создали бы отдельные таблицы сопряженности для мужчин и женщин. В таком случае исследователь может сказать, что первоначально предложенные отношения не прошли процедуры контроля и что альтернативная конкурирующая гипотеза не может быть исключена.
Таким образом, мы провели простейший многомерный анализ, используя технику, предназначенную для бипараметрического анализа. Мы можем продолжить эту логическую цепочку и оценить другие альтернативные конкурирующие гипотезы, применив для контролирования две или более дополнительные переменные одновременно. Чтобы проиллюстрировать это, в качестве альтернативной конкурирующей гипотезы предположим, что расовые различия между белыми и небелыми (и с точки зрения политического уровня, и с точки зрения вероятности посещения колледжа) несомненно формируют указанные в табл. 16.1 отношения между посещением колледжа и мировоззрением. Чтобы одновременно проверить влияние расовых различий и различий по половому [c.440]признаку на указанные отношения, мы должны будем составить четыре таблицы сопряженности, представляющие эти отношения для: белых мужчин, белых женщин, небелых мужчин и небелых женщин.
Таблица 16.2.
Гипотетические отношения между получением образования в колледже и политическим мировоззрением для мужчин
Образование в колледже | Мировоззрение | ||
Либералы (%) | Консерваторы (%) | Общее число респондентов | |
Получили Не получили Всего: | 33 (5) 67 (10) 100 (15) | 57 (20) 43 (15) 100 (35) | (25) (25) (50) |
Таблица 16.3.
Гипотетические отношения между получением образования в колледже и политическим мировоззрением для женщин
Образование в колледже | Мировоззрение | ||
Либералы (%) | Консерваторы (%) | Общее число респондентов | |
Получили Не получили Всего: | 43 (15) 57 (20) 100 (15) | 67 (10) 33 (5) 100 (15) | (25) (25) (50) |
При условии правильной обработки, такой подход к многомерному анализу может очень хорошо помочь в оценке гипотез. Однако у него есть существенные ограничения. Во-первых, он очень громоздкий, и получаемые результаты трудно интерпретировать, если используемые переменные имеют много возможных уровней. Именно поэтому непрактично применять это метод для анализа интервальных переменных; его также трудно использовать для многих номинальных и одноуровневых переменных. Например, чтобы сравнить независимую и зависимую переменную, каждая из которых содержит 5 уровней, и при этом проконтролировать их с помощью третьей переменной с 10 уровнями, потребуется анализ 10 таблиц по [c.441]25 ячеек в каждой. И хотя в нашем распоряжении может иметься исключительно большая и разнообразная выборка, множество ячеек в таблицах останется незаполненным, что может сделать невозможным вычисление некоторых мер связи и значимости. Мы могли бы попытаться избежать этого путем объединения определенных категорий переменных, чтобы уменьшить число уровней и сократить число необходимых таблиц и ячеек (как в том случае, когда мы сократили меру “годы учения” до дихотомии “менее 12 лет” и “12 лет и более”). Тем не менее, это означает, что имеющаяся в первоначальных данных часть информации, которая может оказаться важной, будет потеряна, что может привести к искажению результатов. Более того, с такой же проблемой мы можем столкнуться даже и после того, как мы объединили категории, – в том случае, если мы попытаемся сразу добавить для контроля несколько переменных, чтобы проверить комбинированный эффект различных переменных. Во-вторых, даже если мы можем выполнить такой анализ, его результаты трудно будет ввести в оборот, так как модель выглядит достаточно сложно, и кроме того, не существует обобщающей статистики, позволившей бы суммировать полученные в итоге данные.
К счастью, существует ряд статистических приемов, которые предназначены специально для многомерного анализа и которые можно использовать для решения широкого круга задач; их результаты сравнительно легко интерпретируются. Они особенно ценны, так как обладают возможностями проверки гипотез (позволяют анализировать взаимосвязи двух переменных с учетом воздействия других переменных на каждую константу), но главное их достоинство заключено в тех способах, которыми они помогают нам уяснить сложную и хрупкую сеть взаимосвязей, в которую вплетены социальные явления. В этой главе мы познакомим вас с тремя наиболее часто используемыми способами многомерного анализа, с тем чтобы вы знали, когда и как применять их в своих исследованиях, и, читая научные труды, могли судить о том, как их применяют другие. Мы выбрали эти методы из всего множества возможных потому, что (1) они широко применяются, (2) они иллюстрируют некоторые основные принципы многомерного анализа и (3) все они основаны на [c.442]одних и тех же базовых математических приемах и могут быть поэтому объяснены легче, чем те, которые требуют привлечения разных математических приемов.[c.443]
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Все, что говорилось о двумерной корреляции и регрессии в гл.15, может быть распространено на те случаи, когда вы хотите изучить взаимосвязи между одной независимой (НП) и несколькими зависимыми переменными (ЗП). Цель множественной регрессии – обеспечить (1) подсчет независимого воздействия изменений в значениях каждой ЗП на значения НП и (2) эмпирический базис, чтобы предсказать значения зависимой переменной на основе знания совместного влияния НП.
Анализ начинается с составления уравнения, которое, на ваш взгляд, точно описывает исследуемые вами причинные связи. Поскольку это уравнение можно рассматривать какмодель исследуемого процесса, это шаг расценивается как построение модели. Оно заключается в переводе вашей вербальной теории явления на язык математических уравнений. Общая формула множественной регрессии такова:
Y’ = а0 + b1X1 + b2X2… +…bnXn + e.
В ней вы можете узнать несколько расширенное уравнение двумерной регрессии, описанной в гл.15. Понимание этого уравнения может облегчить конкретный пример.
Скажем, мы заинтересованы в проверке верности заявления, что выборы в сенат США могут быть “куплены” путем вклада средств в кампанию в прессе. Для этого попытаемся объяснить процент полученных кандидатом голосов следствием (1) количества средств, вложенных в рекламу в средствах массовой информации, и (2) долей среди всех имеющих право выбора людей той же партийной принадлежности, что и кандидат. Начнем со следующей простой модели процесса выборов:
Y’ = а0 + b1X1 + b2X2 + e,
где Y’ – предполагаемая доля голосов, полученных кандидатом;
а0 – среднее значение Y, если каждая независимая переменная равна 0;[c.443]
b1 – среднее изменение Y на единицу измерения Х (количество средств, вложенных в рекламу), когда воздействия остальных переменных постоянны;
X1 – количество средств, вложенных кандидатом в рекламу (в 1000 долларов);
b2 – среднее изменение Y' на единицу изменения X2(доля выборщиков той же партийной принадлежности, что и кандидат), когда воздействия остальных переменных постоянны;
X2 – доля выборщиков той же партийной принадлежности, что и кандидат;
е – погрешность, означающая любое колебание Y1, не вызванное изменением независимой переменной в модели.
Можно попытаться проверить точность этой модели, собрав достоверные данные о борьбе за 100 мест в сенате США. Однако для того, чтобы применение методики множественной регрессии к этой или любой другой задаче оказалось удачным, необходимо, чтобы наша модель, а также данные, с помощью которых мы хотим проверить все это, удовлетворяли пяти требованиям, которые лежат в основе применения регрессии.
1. Модель должна точно соответствовать (точно описывать реальные исследуемые взаимосвязи). Для этого необходимо, чтобы (а) связь между переменными была линейна, (б) ни одна важная независимая переменная не была исключена и (в) ни одна не имеющая отношения к делу переменная не была включена.
2. Не должно быть ошибок в измерении переменных.
3. Переменные должны быть измерены в интервальной шкале.
4. Для погрешности необходимы следующие условия:
а) ее среднее геометрическое (предположительное значение для каждого наблюдения) равно 0;
б) погрешности для каждого наблюдения не коррелируют,
в) НП не коррелируют с погрешностью;
г) отклонение погрешности всегда постоянно для всех значений НП; это условие называется гомоскедастичностью;
д) погрешность имеет нормальное распределение.
5. Ни одна из НП не коррелирует четко с любой другой НП или с любой линейной комбинацией других НП. Если [c.444]это так, то говорят, что нет четкой мультиколлинеарности2.
Если наше исследование достаточно полно удовлетворяет этим условиям3, мы можем подставить вместо Y’, X1 и X2 наши конкретные значения и решить уравнение регрессии, описывающее предположения относительно неизвестных значений a1, b1 и b2 используя метод подсчета наименьших квадратов. Вот один из гипотетических результатов такого решения:
Y = 10 + 0,1 X1 + 1 X2.
[c.445]