Анализ таблиц сопряженности
Анализ таблиц сопряженности применяется для решения задач, которые могут быть сформулированы следующим образом:
1. Необходимо сравнить два или более распределения между собой. Например: разли- чаются ли мужчины и женщины по распределению предпочтений пяти политических лидеров?
2. Необходимо определить связь между двумя номинативными признаками (между классификациями объектов по двум разным основаниям). Например: связано ли соотноше- ние предпочтений трех групп напитков (соки, лимонады, минеральные воды) с сезонностью (зима, весна, лето, осень)?
В подобных случаях подразумевается анализ таблиц сопряженности, в которых столбцы соответствуют сравниваемым распределениям (градациям одной номинативной пе- ременной), а строки соответствуют градациям сравниваемых распределений (градациям дру- гой номинативной переменной).
Формулировка проверяемой Н0: классификация объектов (людей, событий) по одному основанию не зависит от их классификации по другому основанию.
Исходные данные: определена принадлежность каждого объекта выборки к одной из градаций одной номинативной переменной и к одной из градаций второй номинативной пе- ременной. Иными словами, две номинативные переменные измерены на выборке объектов. Строки таблицы сопряженности соответствуют градациям одной номинативной пере- менной, столбцы – градациям другой номинативной переменной.
Если проверка содержательной гипотезы предполагает анализ таблиц сопряженности, то принципиальным является вопрос о размерности таблицы. Различаются два случая:
1. Общий случай (число градаций хотя бы одного из признаков больше двух).
2. Частный случай: таблицы сопряженности 2×2 (по две градации для каждой пере- менной).
Эти случаи различаются как порядком расчетов, так и особенностями интерпретации.
Число градаций больше 2
По сравнению с анализом классификаций, специфика применения критерия χ2- Пирсона к таблицам сопряженности заключается в том, что теоретические частоты рассчи-
тываются отдельно для каждой ячейки таблицы. Таким образом, число слагаемых в формуле данного критерия равно количеству ячеек таблицы сопряженности и равно Р= k× l, где k – число строк, а l – число столбцов.
(2.7)
Формула для расчета теоретической частоты для ячейки i – строки и j – столбца:
fij = (fi × fj) / N,
где fi – сумма частот во всех ячейках i – строки; fj – сумма частот во всех ячейках j – столбца; N – сумма частот всей таблицы сопряженности.
Таблицы сопряженности 2×2
Существует большое разнообразие различных ситуаций, когда по результатам иссле- дования может быть построена таблица сопряженности 2×2. Их объединяет то, что объекты (испытуемые, события) классифицированы по двум основаниям, каждое из которых пред- ставляет собой дихотомию. Важно различать два варианты такой классификации объек- тов:
1. По двум различным дихотомическим основаниям – случай независимых выборок. Для этого случая применяется критерий χ2-Пирсона.
2. По одному и тому же дихотомическому основанию дважды (например, до и после воздействия) – случай зависимых выборок. Во втором случае более адекватным является критерий Мак-Нимара.
Независимые выборки
Это наиболее часто встречающаяся ситуация применения таблиц 2×2, когда одна группа объектов классифицируется по двум дихотомическим основаниям и проверяется ги- потеза о связи этих двух оснований классификации.
По сравнению с другими таблицами сопряженности особенность таблиц 2×2 проявля- ется в нескольких отношениях:
1. Эти таблицы могут быть построены разными способами, но только один из них яв- ляется правильным в отношении применимости критерия χ2-Пирсона (см.формулу 2.7).
2. Допустима проверка направленных альтернатив. Соответственно меняется способ определения р-уровня значимости, он делится на 2.
3. В некоторых случаях при расчете χ2-Пирсона необходимо введение поправки на не- прерывность Йетса (см. формулу 2.8). χ2-Пирсона с поправкой на непрерывность применим для анализа таблиц сопряженности 2×2, когда N≥20, а если хотя бы одна из теоретических частот меньше 5, то при N≥40. Такая поправка используется в большинстве случаев для про- верки направленных альтернатив.
(2.8)
Зависимые выборки
Структура исходных данных соответствует ситуации, когда одна выборка объектов классифицирована на две группы дважды по одному и тому же основанию. В таких ситуаци- ях применяется критерий Мак-Нимара, который позволяет сопоставить долю тех, кто не об- ладал некоторой характеристикой до воздействия (0), но стал обладать ею после воздействия (1), с долей тех, кто обладал этой характеристикой до воздействия (1) и перестал обладать ею после воздействия (0). Иначе говоря, метод позволяет сопоставить диагональные элементы таблицы сопряженности 2×2, построенной непосредственно по дважды проведенной дихо- томической классификации одной и той же выборки:
После | До | |
а | b | |
с | d |
Проверка гипотезы проводится по z-критерию по формулам для эмпирического зна-
чения:
(2.9)
где с и b – одна пара диагональных элементов таблицы, для проверки одной гипотезы; а и d – другая пара диагональных элементов для проверки другой гипотезы.
Для определения р-уровня значимости эмпирическое значение Zэ сравнивается с тео- ретическим – единичным нормальным распределением (Приложение 1).
Ограничение: сумма сравниваемых частот не должна быть меньше 10.