Анализ таблиц сопряженности

Анализ таблиц сопряженности применяется для решения задач, которые могут быть сформулированы следующим образом:

1. Необходимо сравнить два или более распределения между собой. Например: разли- чаются ли мужчины и женщины по распределению предпочтений пяти политических лидеров?

2. Необходимо определить связь между двумя номинативными признаками (между классификациями объектов по двум разным основаниям). Например: связано ли соотноше- ние предпочтений трех групп напитков (соки, лимонады, минеральные воды) с сезонностью (зима, весна, лето, осень)?

В подобных случаях подразумевается анализ таблиц сопряженности, в которых столбцы соответствуют сравниваемым распределениям (градациям одной номинативной пе- ременной), а строки соответствуют градациям сравниваемых распределений (градациям дру- гой номинативной переменной).

Формулировка проверяемой Н0: классификация объектов (людей, событий) по одному основанию не зависит от их классификации по другому основанию.

Исходные данные: определена принадлежность каждого объекта выборки к одной из градаций одной номинативной переменной и к одной из градаций второй номинативной пе- ременной. Иными словами, две номинативные переменные измерены на выборке объектов. Строки таблицы сопряженности соответствуют градациям одной номинативной пере- менной, столбцы – градациям другой номинативной переменной.

Если проверка содержательной гипотезы предполагает анализ таблиц сопряженности, то принципиальным является вопрос о размерности таблицы. Различаются два случая:

1. Общий случай (число градаций хотя бы одного из признаков больше двух).

2. Частный случай: таблицы сопряженности 2×2 (по две градации для каждой пере- менной).

Эти случаи различаются как порядком расчетов, так и особенностями интерпретации.

Число градаций больше 2

По сравнению с анализом классификаций, специфика применения критерия χ2- Пирсона к таблицам сопряженности заключается в том, что теоретические частоты рассчи-

Анализ таблиц сопряженности - student2.ru тываются отдельно для каждой ячейки таблицы. Таким образом, число слагаемых в формуле данного критерия равно количеству ячеек таблицы сопряженности и равно Р= k× l, где k – число строк, а l – число столбцов.

(2.7)

Формула для расчета теоретической частоты для ячейки i – строки и j – столбца:

fij = (fi × fj) / N,

где fi – сумма частот во всех ячейках i – строки; fj – сумма частот во всех ячейках j – столбца; N – сумма частот всей таблицы сопряженности.

Таблицы сопряженности 2×2

Существует большое разнообразие различных ситуаций, когда по результатам иссле- дования может быть построена таблица сопряженности 2×2. Их объединяет то, что объекты (испытуемые, события) классифицированы по двум основаниям, каждое из которых пред- ставляет собой дихотомию. Важно различать два варианты такой классификации объек- тов:

1. По двум различным дихотомическим основаниям – случай независимых выборок. Для этого случая применяется критерий χ2-Пирсона.

2. По одному и тому же дихотомическому основанию дважды (например, до и после воздействия) – случай зависимых выборок. Во втором случае более адекватным является критерий Мак-Нимара.

Независимые выборки

Это наиболее часто встречающаяся ситуация применения таблиц 2×2, когда одна группа объектов классифицируется по двум дихотомическим основаниям и проверяется ги- потеза о связи этих двух оснований классификации.

По сравнению с другими таблицами сопряженности особенность таблиц 2×2 проявля- ется в нескольких отношениях:

1. Эти таблицы могут быть построены разными способами, но только один из них яв- ляется правильным в отношении применимости критерия χ2-Пирсона (см.формулу 2.7).

2. Допустима проверка направленных альтернатив. Соответственно меняется способ определения р-уровня значимости, он делится на 2.

3. Анализ таблиц сопряженности - student2.ru В некоторых случаях при расчете χ2-Пирсона необходимо введение поправки на не- прерывность Йетса (см. формулу 2.8). χ2-Пирсона с поправкой на непрерывность применим для анализа таблиц сопряженности 2×2, когда N≥20, а если хотя бы одна из теоретических частот меньше 5, то при N≥40. Такая поправка используется в большинстве случаев для про- верки направленных альтернатив.

(2.8)

Зависимые выборки

Структура исходных данных соответствует ситуации, когда одна выборка объектов классифицирована на две группы дважды по одному и тому же основанию. В таких ситуаци- ях применяется критерий Мак-Нимара, который позволяет сопоставить долю тех, кто не об- ладал некоторой характеристикой до воздействия (0), но стал обладать ею после воздействия (1), с долей тех, кто обладал этой характеристикой до воздействия (1) и перестал обладать ею после воздействия (0). Иначе говоря, метод позволяет сопоставить диагональные элементы таблицы сопряженности 2×2, построенной непосредственно по дважды проведенной дихо- томической классификации одной и той же выборки:

После До
а b
с d

Проверка гипотезы проводится по z-критерию по формулам для эмпирического зна-

Анализ таблиц сопряженности - student2.ru чения:

(2.9)

где с и b – одна пара диагональных элементов таблицы, для проверки одной гипотезы; а и d – другая пара диагональных элементов для проверки другой гипотезы.

Для определения р-уровня значимости эмпирическое значение Zэ сравнивается с тео- ретическим – единичным нормальным распределением (Приложение 1).

Ограничение: сумма сравниваемых частот не должна быть меньше 10.

Наши рекомендации