Общая форма таблицы сопряженности размерности 2x2

Переменная Y Переменная X
Всего
А b a + b
С d c + d
Всего а + с b + d N

Предположим, мы располагаем таблицей сопряженности для двух переменных-признаков X и Y, каждая из которых принимает лишь два значения, которые мы условно обозначим как «0» и «1». В каждой из четырех клеток таблицы содер­жатся абсолютные частоты, т. е. число случаев для каждого из возможных соче­таний значений признаков (т. е. для сочетаний «0—1», «1—1», «0—0», «1—0»). Обозначим частоты в каждой из клеток таблицы латинскими буквами а, b, с и d. В такой общей форме таблица сопряженности для двух дихотомических при­знаков будет выглядеть как на таблице 8.4.

Для расчета коэффициента сопряженности «фи» используют формулу:

j Общая форма таблицы сопряженности размерности 2x2 - student2.ru

Эта простая в вычислительном отношении формула получается в результате ряда преобразований исходной формулы для вычисления величины «хи-квад­рат» (c2). Эта исходная формула позволяет лучше понять общую идею оценки связи качественных признаков, которую мы опишем, не вдаваясь в статисти­ческие детали. Исходная формула для величины «хи-квадрат» выглядит так:

Общая форма таблицы сопряженности размерности 2x2 - student2.ru

Понятно, что наблюдаемые частоты мы можем найти в клетках таблицы сопря­женности. Но что понимается под ожидаемыми, точнее, теоретически ожидае­мыми частотами? Ожидаемые частоты — это те частоты, которые должны были бы стоять в клетках той же таблицы сопряженности, если бы две интересую­щие нас переменные были бы независимы, т. е. расслоение наблюдений по од­ному признаку оставалось бы пропорциональным для разных подгрупп, выде­ленных по другому признаку.

Пусть, например, данные относительно участия в парламентских выборах для 1000 опрошенных позволили построить таблицу 8.5.

Таблица 8.5

Участие в выборах и пол

Участие в выборах Женщины   Мужчины   Всего  
Участвовали 700 (70%)
не участвовали 300 (30%)
Всего 1000(100%)

Для приведенных в таблице 8.5 данных гипотеза (или модель) независимого поведения признаков предполагала бы, что в мужской и женской подгруппах пропорция участия и неучастия в выборах должна была бы сохраняться такой же, как и для всей выборки в целом (разумеется, в пределах выборочной ошиб­ки). Например, для женщин число участвовавших в выборах, с учетом их доли в выборке (равной 400/1000) составило бы Общая форма таблицы сопряженности размерности 2x2 - student2.ru , т. е. 280 проголосовавших. Отсюда автоматически следует, что до избирательных участков не дошли бы 120 дам (т. е. 400 - Общая форма таблицы сопряженности размерности 2x2 - student2.ru 280). Ожидаемая частота голосования для мужчин составила бы Общая форма таблицы сопряженности размерности 2x2 - student2.ru Соответственно не проголосовали бы 180 мужчин. Для модели независимости признаков таблица сопряженности выглядела бы так:

Таблица 8.6

Ожидаемые частоты для распределения участия в

выборах по полу (рассчитанные в соответствии с моделью независимости признаков)

Участие в выборах Женщины Мужчины Всего
участвовали
не участвовали
Всего

Сравнив таблицы 8.5 и 8.6, мы видим, что многое во второй из них «осталось как было». Маргиналы таблицы, т. е. общее количество мужчин и женщин, про­голосовавших и не проголосовавших, остались, естественно, неизменными. Отличаются лишь теоретически ожидаемые частоты в клетках таблицы 8.6. «Хи-квадрат» как раз и оценивает суммарную величину отклонения наблюдае­мых значений от ожидаемых («взвешенную» относительно ожидаемых частот). Для данных таблицы 8.5 величина «хи-квадрат» составит 136,128 (проверьте самостоятельно, используя данные табл. 8.6). Это явно много, но, чтобы оце­нить существенность, значимость полученной величины, следует воспользо­ваться специальными таблицами[32]. Отметим, что для того чтобы найти таблич­ное значение, нужно определить так называемое число степеней свободы. В рассматриваемом примере оно равно единице, так как все теоретически ожи­даемые частоты в таблице 8.5 — при заданных маргиналах — можно получить, вычислив лишь одну из них. Если бы размерность таблицы была бы 4x4 (по четыре номинальные градации для каждого признака), то оценка «хи-квадрат» производилась бы для (4 - 1)(4 - 1) = 9, т. е. 9 степеней свободы. Обсуждавший­ся выше коэффициент j — это просто квадратный корень нормированного относительно численности выборки «хи-квадрата». Удобства коэффициента j оче­видны: его легче вычислить, не прибегая к расчету ожидаемых частот, к тому же его величина меняется в пределах от 0 до 1 . (Попробуйте рассчитать значе­ние для данных таблицы 8.5.) Существуют и другие коэффициенты взаимосвя­зи (сопряженности) признаков, основанные на величине «хи-квадрат», напри­мер, V Крамера, Т Чупрова.

Таблица 8.7

Наши рекомендации