Анализ фрагментов таблицы сопряженности

Первая задача, которую мы рассмотрим, состоит в своего рода "анатомировании" величины статистики Анализ фрагментов таблицы сопряженности - student2.ru , вычисленной для нашей исходной таблицы (будем такую статистику называть "большим" Анализ фрагментов таблицы сопряженности - student2.ru ). Попытаемся разложить эту статистику на части, отвечающие каким-то подтаблицам исходной таблицы сопряженности, и понять, какая из этих подтаблиц вносит наибольший вклад в общий Анализ фрагментов таблицы сопряженности - student2.ru . Математическая статистика дает нам возможность это сделать.

(Надо сказать, что математика предлагает бесконечное количество различных разложений Хи-квадрата. И отдельные элементы этих разложений совсем не обязательно отвечают каким-то подтаблицам исходной таблицы сопряженности. Разложение может строиться совсем по другому принципу. Но в любом случае за каждым членом разложения стоит какой-то определенный аспект, срез некоторого общего понятия связи. Здесь мы не имеем возможности объяснить это более подробно. Отметим лишь то, что в более полном курсе мы рассматриваем метод канонического анализа таблиц сопряженности, который, в частности, включает в себя разложение Анализ фрагментов таблицы сопряженности - student2.ru , не отвечающее разбиению исходной таблицы на части.)

Существует возможность такого разложения исходной частотной таблицы на четырехклеточные подтаблицы, что исходный "большой" Хи-квадрат будет приблизительно равен сумме "четырехклеточных" Хи-квадратов. При этом количество упомянутых подтаблиц равно числу степеней свободы исходной таблицы. Другими словами, при использовании рассматриваемого подхода будет иметь место приблизительное равенство

Анализ фрагментов таблицы сопряженности - student2.ru (5)

где Анализ фрагментов таблицы сопряженности - student2.ru отвечает i-й четырехклеточной компонентной подтаблице (т.е. подтаблице, являющейся одной из компонент разложения исходной таблицы сопряженности). Чтобы понять смысл такого разложения, вспомним, что величина Хи-квадрат есть величина отклонения теоретических частот (т.е. тех, которые должны были бы иметь место при условии статистической независимости рассматриваемых признаков, при пропорциональности столбцов (строк) таблицы сопряженности) от эмпирических. При расчете этого показателя мы как бы суммируем, усредняем отдельные "клеточные" отклонения. А ведь они могут быть разными: в одних клетках наблюдаемые частоты могут совпадать с теоретическими, в других - сильно от них отличаться. Соответственным образом могут отличаться друг от друга не только отдельные клетки, но и другие фрагменты исходной таблицы сопряженности. В интересующем нас случае рассматриваются не произвольные фрагменты, а лишь четырехклеточные. И соотношение (5) говорит о том, какой именно вклад в общее отклонение частот от условия статистической независимости дают фрагменты такого рода.

Что же практически нам дает разложение (5)? Ничего, если все "четырехклеточные" Хи-квадраты превышают (или все – не превышают) соответствующие табличные критические значения (т.е. если для всех наших компонентных подтаблиц мы должны отвергнуть (или для всех же – принять) нуль-гипотезу о независимости соответствующих пар альтернатив друг от друга. Очевидно, что в таком случае и исходный "большой" Хи-квадрат превышает (не превышает) отвечающее ему табличное значение (напомним, что подобные критические значения будут разными у исходной таблицы и у рассматриваемых компонентных подтаблиц, поскольку они имеют разное число степеней свободы) и мы можем считать, что отвержение (принятие) соответствующей нуль-гипотезы как бы равномерно опирается на все значения рассматриваемых признаков. Считаем, что в таком случае никаких интересующих нас подсвязей исходная таблица сопряженности не содержит.

Другое дело, если одни "четырехклеточные" Хи-квадраты будут превышать соответствующие критические значения, а другие – не будут. Скажем, если окажется, что из десяти полученных компонентных подтаблиц только для трех имеются основания отвергнуть отвечающую им нуль-гипотезу, то это будет означать, что наш исходный "большой" Хи-квадрат отличается от нуля (показывает отклонение ситуации от состояния статистической независимости признаков) за счет наличия связи именно в этих трех подтаблицах, остальные же подтаблицы к наличию связи не имеют отношения.

Прежде, чем привести конкретный пример того, какую прибавку к нашим знаниям о взаимосвязях изучаемых признаков может дать использование рассматриваемого подхода, коротко опишем, каким образом должно строиться интересующее нас разложение исходной таблицы сопряженности. Но сначала отметим, что термин "подтаблица" в данном случае понимается своеобразно. А именно, подтаблица может получаться не только за счет буквального "вырезания" соответствующего фрагмента из исходной матрицы сопряженности, но и в результате суммирования определенных строк и столбцов последней. Примером может служить то, как выше мы для изучения связи свойств "быть учителем" и "читать Учительскую газету" получали из исходной таблицы (табл. 16) четырехклеточную таблицу сопряженности (табл. 17): в клетке, отвечающей сочетанию "не учитель, читает УГ" стояла частота, полученная из исходной таблицы путем суммирования всех респондентов, читающих УГ, но имеющих профессии, отличные от профессии учителя и т.д. Схематично соответствующую таблицу можно изобразить так:

Таблица 19.

Наши рекомендации