Условия и ограничения применения критерия хи-квадрат Пирсона
1. Сопоставляемые показатели должны быть измерены в номинальной шкале(например, пол пациента - мужской или женский) или в порядковой(например, степень артериальной гипертензии, принимающая значения от 0 до 3).
2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара(при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена(в случае сравнения трех и более групп).
4. При анализе четырехпольных таблиц ожидаемые значенияв каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса. Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.
5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.
Как рассчитать критерий хи-квадрат Пирсона?
Для расчета критерия хи-квадрат необходимо:
1. Рассчитываем ожидаемое количество наблюденийдля каждой из ячеек таблицы сопряженности (при условии справедливости нулевой гипотезы об отсутствии взаимосвязи) путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений. Общий вид таблицы ожидаемых значений представлен ниже:
Исход есть (1) | Исхода нет (0) | Всего | |
Фактор риска есть (1) | (A+B)*(A+C) / (A+B+C+D) | (A+B)*(B+D)/ (A+B+C+D) | A + B |
Фактор риска отсутствует (0) | (C+D)*(A+C)/ (A+B+C+D) | (C+D)*(B+D)/ (A+B+C+D) | C + D |
Всего | A + C | B + D | A+B+C+D |
Таблица 5. Таблица ожидаемых значений
2. Находим значение критерия χ2по следующей формуле:
где i– номер строки (от 1 до r), j– номер столбца (от 1 до с), Oij– фактическое количество наблюдений в ячейке ij, Eij – ожидаемое число наблюдений в ячейке ij.
В том случае, если число ожидаемого явления меньше 10 хотя бы в одной ячейке, при анализе четырехпольных таблиц должен рассчитываться критерий хи-квадрат с поправкой Йейтса. Данная поправка позволяет уменьшить вероятность ошибки первого типа, т.е обнаружения различий там, где их нет. Поправка Йейтса заключается в вычитании 0,5 из абсолютного значения разности между фактическим и ожидаемым количеством наблюдений в каждой ячейке, что ведет к уменьшению величины критерия хи-квадрат.
Формула для расчета критерия χ2 с поправкой Йейтса следующая:
3. Определяем число степеней свободыпо формуле: f = (r – 1) × (c – 1). Ссответственно, для четырехпольной таблицы, в которой 2 ряда (r = 2) и 2 столбца (c = 2), число степеней свободы составляет f2x2 = (2 - 1)*(2 - 1) = 1.
4. Сравниваем значение критерия χ2с критическим значениемпри числе степеней свободы f (по таблице).
Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.