Анализ связи между двумя переменными

Хотя результаты одномерного анализа данных часто имеют самостоятельное значение, большинство исследователей уделяют основное внимание анализу связей между переменными. Самым простым и типичным является случай анализа взаимосвязи (сопряженности) двух переменных. Используемые здесь ме­тоды задают некоторый логический каркас, остающийся почти неизменным и при рассмотрении более сложных моделей, включающих множество перемен­ных. Устойчивый интерес социологов к двумерному и многомерному анализу данных объясняется вполне понятным желанием проверить гипотезы о при­чинной зависимости двух и более переменных. Ведь утверждения о причин­ных взаимосвязях составляют фундамент не только социальной теории, но и социальной политики (по крайней мере, так принято считать). Так как возмож­ности социологов проверять причинные гипотезы с помощью эксперимента, как уже говорилось, ограниченны, основной альтернативой является статистический анализ неэкспериментальных данных.

В общем случае для демонстрации причинно-следственного отношения между двумя переменными, скажем, X и Y, необходимо выполнить следующие требо­вания:

1) показать, что существует эмпирическая взаимосвязь между переменными;

2) исключить возможность обратного влияния Y на Х;

3) убедиться, что взаимосвязь между переменными не может быть объяснена зависимостью этих переменных от какой-то дополнительной переменной (или переменных).

Первым шагом к анализу взаимоотношений двух переменных является их пе­рекрестная классификация, или построение таблицы сопряженности. Речь идет о таблице, содержащей информацию о совместном распределении переменных. Допустим, в результате одномерного анализа данных мы установили, что люди сильно различаются по уровню заботы о своем здоровье: некоторые люди регу­лярно делают физические упражнения, другие — полностью пренебрегают за­рядкой. Мы можем предположить, что причина этих различий — какая-то дру­гая переменная, например, пол, образование, род занятий, доход и т. п.

Пусть мы располагаем совокупностью данных о занятиях физзарядкой и обра­зовании для выборки горожан. Для простоты мы предположим, что обе пере­менные имеют лишь два уровня: высокий и низкий. Так как данные об образо­вании исходно разбиты на большее количество категорий, нам придется их пе­регруппировать, разбив весь диапазон значений на два класса. Предположим, мы выберем в качестве граничного значения 10 лет обучения, так что люди, получившие неполное среднее и среднее образование, попадут в «низкую» гра­дацию, а остальные — в «высокую». (Это, конечно, большое огрубление, но мы используем его из соображений простоты.) Для занятий физическими упраж­нениями мы соответственно воспользуемся двумя категориями — «делают физ­зарядку» и «не делают физзарядку». Таблица 8.3 показывает, как могло бы выг­лядеть совместное распределение этих двух переменных.

Таблица 8.3

Взаимосвязь между уровнем образования и занятиями физкультурой

Занятия физкультурой Уровень образования Всего
низкий высокий
делают зарядку
не делают зарядку
всего

В таблице 8.3 два столбца (для образования) и две строки (для занятий физ­культурой), следовательно, размерность этой таблицы 2x2. Кроме того, име­ются дополнительные крайний столбец и крайняя строка (маргиналы табли­цы), указывающие общее количество наблюдений в данной строке или в столб­це. В правом нижнем углу указана общая сумма, т. е. общее число наблюдений в выборке. Не давшие ответа уже исключены (для реальных данных их число также стоит указать, но не в таблице, а в подтабличной сноске). Заметим здесь, что многие исследователи при построении таких таблиц пользуются неписа­ным правилом: для той переменной, которую полагают независимой, отводит­ся верхняя строка (горизонталь), а зависимую располагают «сбоку», по верти­кали (разумеется, соблюдение этого правила не является обязательным и ниче­го с точки зрения анализа не меняет).

Обычно характер взаимоотношений между переменными в небольшой табли­це можно определить даже «на глазок», сравнивая числа в столбцах или стро­ках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в про­центы, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал столбца, мы получим процент по столбцу. Например, Анализ связи между двумя переменными - student2.ru %, т. е. 19,6% имеющих низкий уровень образования делают зарядку (но не наоборот!). Если делить на маргинал строки, то мы получим другую величину — процент по строке. В частности, можно заметить, что 80% делающих зарядку, составляют люди с высоким уровнем образования Анализ связи между двумя переменными - student2.ru Деление на общую численность выборки дает общий процент. Так, всего в выборке 50% людей, делающих зарядку.

Так как вывод о наличии взаимосвязи между переменными требует демонстра­ции различий между подгруппами по уровню зависимой переменной, при ана­лизе таблицы сопряженности можно руководствоваться простыми правилами. Во-первых, нужно определить независимую переменную и, в соответствии с принятым определением, пересчитать абсолютные частоты в проценты. Если независимая переменная расположена по горизонтали таблицы, мы считаем проценты по столбцу; если независимая переменная расположена по вертика­ли, проценты берутся от сумм по строке. Далее сравниваются процентные по­казатели, полученные для подгрупп с разным уровнем независимой перемен­ной, каждый раз внутри одной категории зависимой переменной (например, внутри категории делающих зарядку). Обнаруженные различия свидетельству­ют о существовании взаимосвязи между двумя переменными. (В качестве упражнения примените описанную процедуру к таблице 8.3, чтобы убедиться в наличии связи между уровнем образования и занятиями физкультурой.)

Отметим специально, что элементарная таблица сопряженности размерности 2x2 — это минимально необходимое условие для вывода о наличии взаимосвязи двух переменных. Знания о распределении зависимой переменной недоста­точно. Нельзя, например, утверждать, будто из того, что 75% детей-первенцев имеют интеллект выше среднего, а 25% — средний и более низкий, следует зависимость между порядком рождения и интеллектом. Необходимо проанали­зировать и распределение показателей интеллекта для детей-непервенцев. Ва­рьировать должна не только зависимая, но и независимая переменная.

Для таблиц размерности 2 х 2 и более можно рассчитать специальные показате­ли (статистики), дающие суммарное выражение степени взаимосвязи, ассоциа­ции между двумя переменными. Таких мер связи довольно много. Для случая двух номинальных переменных существуют два основных подхода к подсчету коэффициентов взаимосвязи. Проанализировав их общую логику, мы получим возможность ориентироваться в многообразии конкретных показателей, пред­лагаемых прикладными программами анализа данных. Первый подход базиру­ется на статистике, называемой «хи-квадрат». На ее основе можно рассчитать несколько коэффициентов взаимосвязи. Рассмотрим в качестве примера коэф­фициент «фи» (греч.j), формула для которого была впервые предложена сэром Карлом Пирсоном в 1901 году специально для того, чтобы сделать возможным анализ взаимосвязи между двумя переменными, измеренными на неколичествен­ном уровне.

Таблица 8.4

Наши рекомендации