Задача №2. Вычисление достоверности различий в группах с использованием критерия Колмогорова-Смирнова.
Условие: были изучены сроки гибели подопытных крыс (в минутах) после введения токсического вещества. Ряд X – контрольная группа, в которой лечение не проводилось; ряд Y – опытная группа, где проводилось определенное лечение
X | Y |
n=7 | n=8 |
Задание: определить, существенны ли различия в сроках гибели подопытных крыс.
Критерий Колмогорова-Смирнова наиболее мощный критерий из серии непараметрических критериев, применяемых при сопоставлении двух различных групп наблюдений.
Задача его та же, что и всех предыдущих.
Последовательность обработки данных:
1. объединяются в один ряд в возрастающем порядке все варианты, встречающиеся в сравниваемых группах наблюдений.
2. записываются частоты вариант для одной и другой групп.
3. проставляются частоты в накопленном порядке.
4. накопленные частоты делятся на число наблюдений в соответствующих группах.
5. вычисляются разности накопленных частот по группам X и Y без учета знаков.
6. находится максимальная разность D.
7. по формуле определяется критерий l2
l=D
8. сравнивается полученное значение l с граничными значениями: 0,05 и 0,01. Если l<l0,05, то различия между сравниваемыми группами признаются существенными. Таблица приведена в приложении 4.
9. по формуле рассчитывается l
Учитывая, что максимальная разность равняется 0,49, получаем:
l=
Варианты X и Y в последовательно возрастающем порядке | Частоты вариант по группам | Накопленные частоты по группам | Sx/nx | Sy/ny | Разности Sx/nx - Sy/ny | ||
Px | Py | Sx | Sy | nx ny, без учета знаков | |||
- | 0,14 | 0,14 | |||||
- | 0,14 | 0,125 | 0,015 | ||||
- | 0,43 | 0,125 | 0,302 | ||||
0,57 | 0,25 | 0,32 | |||||
- | 0,57 | 0,37 | 0,20 | ||||
- | 0,71 | 0,37 | 0,34 | ||||
- | 0,86 | 0,37 | 0,49 | ||||
- | 0,86 | 0,62 | 0,24 | ||||
- | 1,00 | 0,62 | 0,38 | ||||
- | 1,00 | 0,75 | 0,25 | ||||
- | 1,00 | 0,88 | 0,12 | ||||
- | 1,00 | 1,00 | |||||
nx=7 ny=8 |
По таблице в приложении 4 определяем, что l, равной 0,94, соответствует 0,35266, что существенно выше 0,05. Следовательно, еще раз подтверждается вывод о том, что сроки гибели животных в опытной и контрольной группах существенно не отличаются друг от друга, и различия, которые имеют место, случайны.
Задания для самостоятельной работы
Вариант№1
После футбольного матча Спартак – Ювентус, завершившегося со счётом 3:0 в пользу итальянской команды, был изучен уровень общего белка крови у основных составов двух футбольных команд. Из анонимного источника стало известно, что игроки команды Ювентус до игры использовали допинг. Данные представлены в таблице. Определите, достоверна ли разница в уровне общего белка в крови у футболистов обеих команд.
Уровень белка (г/л). команда Спартак | Уровень белка (г/л). команда Ювентус |
- |
Вариант№2
Была изучены данные частоты сердечных сокращений у студентов до и после экзамена. Сведения представлены в таблице. Ряд X – показатели пульса у группы студентов до экзамена, ряд Y – после экзамена. Определите, достоверна ли разница в показаниях ЧСС у студентов до и после экзамена.
X | Y |
Вариант№3
При проведении гистологического исследования биоптатов печени были получены следующие данные, представленные в таблице. Ряд X количество гепатоцитов печени в одном поле зрения у здоровых людей. Ряд Y – количество гепатоцитов у лиц, страдающих хроническим алкоголизмом. Определите, достоверна ли разница количества гепатоцитов печени в обеих группах.
X | Y |
Применение непараметрических критериев для определения существенности различий любых совокупностей
Критерий соответствия (χ2) – «хи-квадрат»
Условие: при изучении организации специализированной помощи больным системной красной волчанкой были проанализированы сроки постановки диагноза с момента обращения в поликлинику (менее 20 дней, 20 дней и более) 73 пациента поликлиники №1, где прием больных вел специалист в ревматологическом кабинете (у 54 пациентов диагноз был поставлен менее, чем за 20 дней), и 21 пациент поликлиники №2, где специализированного кабинета не было (прием вел терапевт), только у 7 больных диагноз был поставлен до 20 дней.
Задание: определить, существенно ли различаются группы больных СКВ по срокам постановки диагноза с момента обращения в поликлинику в зависимости от наличия в поликлинике ревматологического кабинета.
1-й вариант решения:
1 этап: распределение фактических данных (P) по всем группам, суммирование 61+33=94
2 этап: определение величин (P1) на основе нулевой гипотезы (Н0). Согласно ей допускают, что наличие или отсутствие в поликлинике ревматологических кабинетов не влияет на сроки постановки диагноза СКВ. В ходе решения задачи необходимо подтвердить или опровергнуть нулевую гипотезу и сделать соответствующие выводы.
В соответствии с нулевой гипотезой распределение двух групп больных, обслуживаемых с участием специалистов ревматологического кабинета и без него, по срокам постановки диагноза должно быть одинаковым и соответствовать итоговому фактическому распределению всех наблюдаемых больных, т.е. 61 и 33. При таком условии в первой группе (где есть ревматологический кабинет) «ожидаемое» число больных со сроком установления диагноза менее 20 дней определяется по следующей пропорции:
94-61
73-x x=47,4
«Ожидаемое» число больных со сроком установления диагноза 20 дней и более получается путем вычисления 73-47,4=25,6
Подобным же образом рассчитывают «ожидаемые» числа больных второй группы.
94-61
21-x x=13,6
21-13,6=7,4
Полученные числа по всем группам заносят в таблицу.
3 этап: определяют разность между фактическими и «ожидаемыми» числами (P-P1) = 54-47,7=+6,6; 19-25,6=6,6. Вторая группа больных (P-P1) = 7-13,6=-6,6; 14-7,4=+6,6 (в числовом отношении разность между фактическими и «ожидаемыми» числами (P-P1) одинакова, что позволяет проверить правильность расчетов).
4 этап: определяют квадрат разностей (P-P1)2 по всем группам.
5 этап: квадрат разности делят на ожидаемое число во всех группах и результаты заносят в таблицу, например, 47,56/47,4=0,9 и т.п.
6 этап: критерий соответствия определяется путем суммирования результатов (P-P1)2/P1 по всем группам:
χ2 = ∑ (P-P1)2/P1=0,9+1,7+3,2+5,9=11,7.
Ревмат. Кабинет | Число б-ных | 1 этап | 2 этап | 3 этап | 4 этап | 5 этап | |||||
P | P1 | P-P1 | (P-P1)2 | (P-P1)2/P1 | |||||||
<20 дней | 20 и >дней | <20 дней | 20 и >дней | <20 дней | 20 и >дней | <20 дней | 20 и >дней | <20 дней | 20 и >дней | ||
Есть | 47,4 | 25,6 | +6,6 | -6,6 | 43,56 | 43,56 | 0,9 | 1,7 | |||
Нет | 13,6 | 7,4 | -6,6 | +6,6 | 43,56 | 43,56 | 3,2 | 5,9 | |||
Итого |
Величина критерия χ2 зависит от величины разности между фактическими и «ожидаемыми» числами и от числа слагаемых (т.е. числа сравниваемых групп по графам и строкам). Чем больше разность, тем больше критерий. Если бы фактические данные были бы равны «ожидаемым», то χ2 был бы равен нулю и «нулевую гипотезу» надо было бы признать существенной. И, наоборот, чем больше величина критерия, тем «нулевая гипотеза» становится менее вероятной, несущественной.
Для оценки критерия учитывают число рядов (R) и число строк (S) распределения фактических чисел (без итоговых) и на основании этих данных вычисляют так называемое число степеней свободы, которое необходимо нам для определения величины χ2 по специальной таблице (см. приложение 5).
Число степеней свободы рассчитывается следующим образом:
n=(R-1)*(S-1)
n=(2-1)*(2-1)=1.
Для того, чтобы опровергнуть «нулевую гипотезу», вычисленный критерий соответствия должен быть равен или больше табличного (критического) значения χ2 при уровне вероятности «нулевой» гипотезы p=5%.
В нашем случае, учитывая, что число степеней свободы равно 1, по таблице видим, что уровень критического значения χ2 (при p=5%) равен 3,8. Но в ходе решения задачи получаем χ2=11,7. Этот показатель больше табличного, в связи с чем «нулевую гипотезу» отвергаем. Т.о., необходимо признать существенными различия в распределении по срокам постановки диагноза двух сравниваемых групп (обследованных специалистом, работающим в ревматологическом кабинете, и при отсутствии такого специалиста).
2-й вариант решения:
При альтернативном распределении применяется упрощенная формула расчета χ2 на основе таблицы взаимной сопряженности, т.н. четырехпольной таблице.
p2 | q2 | всего | |
p1 | a | c | a+c |
q1 | b | d | b+d |
всего | a+b | c+d | a+b+c+d |
Где p и q – значения альтернативных признаков в обеих группах;
a, b, c, d – абсолютные величины в клетках таблицы.
χ2=
Согласно «нулевой гипотезе» допускаем, что наличие или отсутствие ревматологических кабинетов не влияет на сроки постановки диагноза у больных СКВ.
Далее составляем четырехпольную таблицу
p2-срок постановки диагноза менее 20 дней | q2-срок постановки диагноза 20 дней и более | всего | |
p1-есть кабинет | a-54 | c-19 | |
q1-кабинета нет | b-7 | d-14 | |
всего | a+b | c+d |
χ2= = =11,8
Оцениваем число степеней свободы. В нашем примере имеется только одно число степеней свободы n=1.
Полученную величину критерия χ2 при n=1 оценивают по специальной таблице (см. приложение 5). Вычисленная нами величина χ2=11,8 больше критического значения χ2, при котором уровень ее вероятности подтверждения «нулевой гипотезы» будет равен 0,1% (т.е.>10,8). Это дает основание опровергнуть «нулевую гипотезу» и признать существенными различия в распределении по срокам постановки диагноза двух сравниваемых групп (обследованных специалистом, работающим в ревматологическом кабинете, и при отсутствии такого специалиста).
Следовательно, на основании проведенного исследования можно утверждать, что организация специализированных ревматологических кабинетов в поликлиниках позволяет снизить сроки обследования больных СКВ.
3-й вариант решения:
Величину χ2 можно оценить и без таблицы, по упрощенной формуле. Но по этой формуле можно только опровергнуть или доказать «нулевую гипотезу». Величина χ2 и число степеней свободы вычисляются по приведенным выше схемам.
Если χ2-n/√2n больше 3, то «нулевая гипотеза» отвергается.
В нашем случае: 11,7-1√2·1 = 10,3
Таким образом, в очередной раз подтверждается тот факт, что организация специализированных кабинетов позволяет снизить сроки обследования больных.
Задания для самостоятельной работы
Вариант№1
При изучении организации помощи онкологическим больным были проанализированы сроки постановки онко-диагноза с момента обращения в поликлинику (менее 30 дней, более 30 дней) 85 пациентов поликлиники №1, где прием вел специалист-онколог (диагноз был выявлен у 73 пациентов), а в поликлинике №2, где не было специалиста онколога, из 63 пациентов диагноз был выявлен только у 24 пациентов. Определить, существенно ли различаются группы онкологических больных по срокам постановки диагноза с момента обращения в поликлинику в зависимости от наличия в поликлинике специалиста онколога.
Вариант №2
Были проанализированы данные по срокам выявления беременности в зависимости от наличия или отсутствия диагностической возможности. В поселке А, где имеется ФАП и участковая больница, где прием ведет врач-гинеколог, из 224 женщин беременность до 12 недель была выявлена у 200 женщин, а в поселке В, где имеется только ФАП из 180 женщин беременность была выявлена у 115. Определить, существенно ли различаются сроки выявления беременности до 12 недель в двух поселках в зависимости от наличия или отсутствия участковой больницы.
Вариант №3
При изучении организации помощи хирургически больным были проанализированы следующие данные: в одной и той же больнице, где оперировал хирург с высшей категорией, должный эффект достигнут у 135 пациентов из 143. А у 117 пациентов, которых оперировал хирург без категории, должный эффект достигнут у 102 пациентов. Определить, существенно ли различаются результаты лечения в зависимости от наличия категории у хирургов.
СПИСОК ЛИТЕРАТУРЫ
1. Гланц С. Медико-биологическая статистика. Пер. с англ. — М.: Практика, 1998. - С. 36-44, 81-104, 193-220.
2. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. –СПб: ООО «Издательство Фолиант», 2003. -432с.
3. Калиниченко А.В., Чебыкин Д.В., Аверьянова Т.А. Общая теория медицинской статистики / учебное пособие. –Новосибирск: Сибмедиздат, 2006. -139с.
4. Кучеренко В.З., Агарков Н.М. и др. Социальная гигиена и организация здравоохранения. / учебное пособие). — М., 2000 — 432 с. Тестовые задания по общественному здоровью и здравоохранению. — М.: ММА им. ИМ. Сеченова, -2002г.
5. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2002. - 520 с.
6. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии. Прикладная статистика здоровья. Руководство в 2-ух томах. Москва. «Медицина», 2001.
7. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению. Часть I. Общественное здоровье -М.: Медицина, 2003. -368 с.
8. Общественное здоровье и здравоохранение. Учебник для студентов / Под ред. В.А. Миняева, Н.И. Вишнякова. — М.: Мед пресс-информ, -2002. -528 с.
9. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения / Под.ред. чл.корр. Рамн, проф. В.З.Кучеренко. –М.: ГЭОТАР-МЕД, 2004. 192с.
10. Сборник задач по общей теории статистики. Учебное пособие. Изд. 2-е, под ред.Серга Л.К. –М.: Информационно-издательский дом «Филинъ», Рилант, 2001г.
11. Сидоренко Е.В. Методы математической обработки в психологии. –СПб.: ООО «Речь», 2003. 350с.
12. Статистика. Курс лекций/ Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др., Новосибирск: Изд-во НГАЭиУ, М.:ИНФРА-М, 1997г.
13. Юрьев В.К. Здоровье населения и методы его изучения Учебное пособие. С.-Петербург, 1993.
ПРИЛОЖЕНИЯ
Приложение 1
Критические значения Z-критерия знаков (число знаков, менее часто встречающихся) по Ван дер Вардену
Число парных наблюдений (n) | Уровни значимости | Число парных наблюдений (n) | Уровни значимости | ||
5% | 1% | 5% | 1% | ||
Приложение 2
Критические значения критерия Вилкоксона (Т) для уровней статистической значимости. t≤0,05 и p≤0,05.
p | p | ||||
n | 0,05 | 0,01 | n | 0,05 | 0,01 |
- | |||||
- | |||||
Приложение 3
n / n | |||||||||||||
0,05 | 0,05 | 0,01 | 0,05 | 0,01 | 0,05 | 0,01 | 0,05 | 0,01 | 0,05 | 0,01 | 0,05 | 0,01 | |
Критические значения критерия Уайта (K)
Приложение 4
Критерий Колмогорова-Смирнова для сопоставления эмпирического распределения с теоретическим (при n>50) или двух эмпирических распределений между собой (при n>50): уровни статистической значимости разных значений λ
По полученному значению λ определяется уровень значимости различий между двумя распределениями (по Митропольскому А.К., 1971).
λ | λ, последний десятичный знак | |||||||||
P – десятичные знаки («0» опущен ) | ||||||||||
0,3 | ||||||||||
0,4 | ||||||||||
0,5 | ||||||||||
0,6 | ||||||||||
0,7 | ||||||||||
0,8 | ||||||||||
0,9 | ||||||||||
1,0 | ||||||||||
1,1 | ||||||||||
1,2 | ||||||||||
1,3 | ||||||||||
1,4 | ||||||||||
1,5 | ||||||||||
1,6 | ||||||||||
1,7 | ||||||||||
1,8 | ||||||||||
1,9 | ||||||||||
2,0 | ||||||||||
2,1 | ||||||||||
2,2 | ||||||||||
2,3 | ||||||||||
2,4 |
Приложение 5
Критические значения одностороннего критерия χ2
Число степеней свободы | Уровни значимости | Число степеней свободы | Уровни значимости | ||||
p=0,05 | p=0,01 | p=0,001 | p=0,05 | p=0,01 | p=0,001 | ||
3,84 | 6,63 | 10,83 | 32,67 | 38,93 | 46,80 | ||
5,99 | 9,21 | 13,82 | 33,92 | 40,29 | 48,27 | ||
7,81 | 11,34 | 16,27 | 35,17 | 41,64 | 49,73 | ||
9,49 | 13,28 | 18,47 | 36,42 | 42,98 | 51,18 | ||
11,07 | 15,09 | 20,51 | 37,65 | 44,31 | 52,62 | ||
12,59 | 16,81 | 22,46 | 38,89 | 45,64 | 54,05 | ||
14,07 | 18,48 | 24,32 | 40,11 | 46,96 | 55,48 | ||
15,51 | 20,09 | 26,12 | 41,34 | 48,28 | 56,89 | ||
16,92 | 21,67 | 27,88 | 42,56 | 49,59 | 58,30 | ||
18,31 | 23,21 | 26,59 | 43,77 | 50,89 | 59,70 | ||
19,68 | 24,73 | 31,26 | 44,99 | 52,19 | 61,10 | ||
21,03 | 26,22 | 32,91 | 46,19 | 53,49 | 62,49 | ||
22,36 | 27,69 | 34,53 | 47,40 | 54,78 | 63,87 | ||
23,68 | 29,14 | 36,12 | 48,60 | 56,06 | 65,25 | ||
25,00 | 30,58 | 37,70 | 49,80 | 57,34 | 66,62 | ||
26,30 | 32,00 | 39,25 | 51,00 | 58,62 | 67,98 | ||
27,59 | 33,41 | 40,79 | 52,19 | 59,89 | 69,35 | ||
28,87 | 34,81 | 42,31 | 53,38 | 61,16 | 70,70 | ||
30,14 | 36,19 | 43,82 | 54,57 | 62,43 | 72,06 | ||
31,41 | 37,57 | 45,31 | 55,76 | 63,69 | 73,40 |