Влияние валидности теста на оценку показателей заболеваемости в популяции
Только тест обладающий 100% чувствительность и специфичностью может без ошибочно определить показатели заболеваемости (инцидентности, превалентности). На практике когда тесты используются для оценки заболеваемости определенной болезнью, их низкая валидность означает, что часть лиц будет неправильно классифицирована на больных и здоровых. Низкая чувствительность означает, что люди с данной болезнью будут ошибочно отнесены к разряду лиц, ее не имеющих. Это приведет к недооценке превалентности или инцидентности. Низкая специфичность, с другой стороны, означает, что некоторые люди будут ошибочно отнесены к разряду лиц, имеющих эту болезнь. Это приведет к переоценке превалентности или инцидентности. В обоих случаях возникнет ошибка классификации (разновидность информационной (или связанной с измерением) систематической ошибки).
Направление ошибки зависит от того, чего больше: ложноположительных или ложноотрицательных результатов. Количество этих ложных результатов определяется и чувствительностью, и специфичностью, а также количеством людей с заболеванием и без него в популяции. Количество ложноположительных результатов – это ложноположительный показатель, умноженный на количество людей, не имеющих заболевания, а количество ложноотрицательных результатов – это ложноотрицательный показатель, умноженный на количество лиц с заболеванием.
Если метод измерения обладает одинаковой чувствительностью и специфичностью в обеих группах – т.е. если его достоверность(валидность) не различается – то такая ошибочная классификация называется недифференцированной. То есть при этом ошибка классификации будет одинаковой (не различаться, не дифференцироваться) в сравниваемых группах. При сравнении двух групп с помощью метода, специфичность и чувствительность которого одинаковы в обеих группах, ошибочная классификация всегда уменьшит разницу между этими группами.
Под дифференцированной ошибочной классификацией – понимают последствия применения в сравниваемых группах тестов с разной валидностью (чувствительностью, специфичностью или и тем, и другим). Если чувствительность и специфичность теста различны в сравниваемых группах, то смещение может быть любой направленности. При этом истинное различие между группами обследуемых может быть искусственно занижено, завуалировано или увеличено, или может изменяться его направление; может быть выявлено различие, которого нет на самом деле. Ошибочная классификация может также проявляться по-разному при использовании одного и того же теста, если, по какой-либо причине, его валидность различна в сравниваемых группах.
Воспроизводимость теста.
Воспроизводимость (repeatability) теста – это его способность одинаково измерять какие-либо явления, процессы, состояния в серии повторных измерений. Абсолютно одинаковые оценки, каких-либо параметров здоровья, при повторных обследованиях встречаются относительно редко. Причины (различий вариабельности) показателей связаны с истинной (объективной, биологической) и с субъективной вариабельностью.
Истинная вариабельность результатов связана с особенностями процесса жизнедеятельности организма обследуемого. Известно, что даже у здоровых лиц, многие показатели варьируют в течение небольшого промежутка времени между исследованиями.
Субъективная вариабельность объясняется погрешностями персонала или погрешностями теста (техники).
Как сильно могут влиять погрешности персонала на вариабельность результатов, наглядно показывает проверка умения измерять АД на специальных тренажерах, задающих определенные и постоянные параметры АД. Практически всегда, лица, не прошедшие специальную тренировку, по-разному измеряли заданные параметры АД. Даже у одного врача в серии измерений получались существенные варьирующие результаты. Еще больший разброс результатов измерения одного признака, наблюдается при применении разных технических средств, например разных аппаратов измерения АД.
Субъективная вариабельность порождает случайные и систематические ошибки измерений. Для оценки степени воспроизводимости теста проводят серию испытаний с изучением вариабельности полученных результатов.
Чтобы свести к минимуму субъективную вариабельность, соответствующий персонал, участвующий в проведении эпидемиологического исследования, должен быть тщательно подготовлен. Подготовка персонала, прежде всего, предусматривает его обучение особенностям использования соответствующих стандартизованных методов. Обучение должны проводить высококвалифицированные специалисты.
Окончательная проверка и закрепление полученных навыков происходит при применении выбранного метода обследования в отношении специально подобранной группы лиц. «Специально подобранные» в данном случае означает, что они по набору индивидуальных характеристик будут сходны с теми, кого предстоит обследовать в планируемом эпидемиологическом исследовании.
Кроме обучения технике метода, персонал должен быть, если это необходимо, подготовлен относительно стандартных условий применения метода, например, температуры помещения, положения тела обследуемого, его физической активности и т.д.
Субъективная вариабельность бывает особенно велика, когда погрешности персонала соединяются с погрешностями метода (теста).
Рис. 5.4. Концентрация креатинина в одной порции крови по результатам 10 шведских лабораторий, проанализировавших одну и ту же пробу 16 раз.
Источник: А.Альбом, С Норелл. «Введение в современную эпидемиологию» 1996.
На рис. 5.4. продемонстрированы результаты биохимического анализа на концентрацию креатинина в крови. Как следует из представленных данных, большинство лабораторий завышают результаты по сравнению с эталоном. При этом в лабораториях № 8 и 9 отмечается большой разброс полученных результатов. Результаты проведенного исследования показывают, как важно стандартизировать методики теста и условия его проведения.
Поскольку от результатов теста зависит постановка диагноза, валидность тестов может существенно повлиять на результаты эпидемиологического исследования.
Валидность теста.
Чувствительность, специфичность и воспроизводимость теста определяют его достоверность или валидность (validity).
Достоверность или валидность отдельного теста означает:
· способность теста дать истинную оценку тех параметров организма индивидуума или окружающей среды, которые необходимо измерить; То есть достоверный (валидный) тест должен измерить то, что требуется измерить и ничего более. Это относиться не только к лабораторным исследованиям, а в равной мере касается и методов опроса, которые должны содержать только необходимые для диагностики вопросы;
· соответствие данных отдельного теста объективным симптомам болезни и данным анамнеза;
· согласованность данных одного теста с данными традиционных лабораторных тестов.
К сожалению, точная оценка составляющих валидности и ее самой в целом, чаще всего, представляет значительные трудности или невозможна. При проведении эпидемиологических исследований следует твердо придерживаться правила не изменять валидность применяемых методов. В противном случае, уменьшение или увеличение валидности приведет к значительной вариабельности результатов и, как следствие, к ошибочным выводам.
В заключение отметим, что неполная и недостоверная информация, независимо от объективных или субъективных обстоятельств ее получения, не может служить оправданием низкого качества выводов данного исследования.
Скрининг
Скрининг (просеивание, screening), - обследование (чаще всего - массовое) лиц, считающих себя здоровыми, с целью выявления у них не распознанного ранее заболевания. Скрининг также применяют для выявления у здоровых лиц факторов риска, (в основном факторов риска хозяина) например, курения, вредных пищевых привычек, пограничных результатов лабораторного обследования и т.д .
Скрининг осуществляется помощью скрининговых тестов, которые, как и любые тесты могут проводиться: в виде опроса, физикального обследования (например, осмотра кожных покровов, пальпации отдельных органов и т.д.), лабораторного исследования и других методов.
Несмотря на общность цели необходимо различать:
· скрининг как профилактическое мероприятие, и в этом случае он не имеет отношения к проведению эпидемиологических исследований
· скрининг как метод, применяемый в эпидемиологических исследованиях.
Чаще всего скрининг используется как профилактическая мера и в этом случае после выявления лиц подозрительных на заболевание, назначается их дальнейшее тщательное обследование и при необходимости лечение. В противном случае применение скрининговых тестов как профилактической меры не имеет смысла.
Во многих странах скрининг как мера профилактики предусматривает периодическое обследование людей, которое проводится преимущественно в медицинских учреждениях по возрастным показаниям, с учетом наиболее частой патологии в соответствующем возрасте и принадлежности обследуемого к определенной группе риска.
Ценность скрининга, проводимого в профилактических целях определяется его влиянием на показатели заболеваемости, временной потери трудоспособности, инвалидности, смертности и соотношением экономических затрат и экономической выгоды.
В эпидемиологических исследованиях скрининг является не профилактической мерой, а используется как элемент организации исследований, а именно:
· в проспективных когортных исследованиях при формировании когорты и в процессе наблюдения за ней;
· в исследованиях случай- контроль при формировании контрольной группы из здоровых лиц, или при формировании контрольной группы из больных другой - не изучаемой в данном исследовании болезни;
· в одномоментных исследованиях скрининг обеспечивает оценку распространенности какой-либо болезни.
В зависимости от численности обследуемых лиц, от их профессиональной или иной индивидуальной характеристики, в зависимости от набора используемых скрининговых тестов, различают:
· массовый скрининг – например скрининг всего населения населенных пунктов, или скрининг выборок большой численности;
· целенаправленный скрининг – оценку состояния здоровья отдельных контингентов, выделенных по индивидуальным признакам, таким как пол, возраст, раса, профессия, социальное положение и т.д., или населения, выделенного по признаку состоявшегося воздействия фактора риска среды;
· многопрофильный скрининг – оценку состояния здоровья с использованием набора скрининговых тестов, для выявления нескольких заболеваний;
· поисковый скрининг,– обследование скрининговыми тестами лиц уже имеющих известную патологию, на предмет выявления другой болезни. Поскольку, обследуются уже больные лица, такой скрининг называют оппортунистическим.
К любым скрининговым тестам предъявляются определенные требования, в частности:
· чувствительность, специфичность и воспроизводимость;
· валидность;
· простота исполнения и низкая стоимость;
· безопасность;
· приемлимость для обследуемого лица;
· эффективность (как профилактического мероприятия).
Понятия чувствительности, специфичности и валидности скрининговых тестов, аналогичны этим же понятиям, относящимся к диагностическим тестам, уже описанным в этой главе.
При проведении скрининга необходимо учитывать низкую распространенность большинства болезней. При этом, после выявления больных, среди обратившихся к врачу, распространенность данной болезни среди оставшихся здоровых лиц, становится еще меньше. Именно поэтому скрининговые тесты должны, прежде всего, иметь высокую чувствительность, чтобы не пропустить оставшиеся редкие случаи болезни. Но эти тесты должны быть и высокоспецифичны, чтобы не получить большое число ложноположительных результатов.
При повторных скринингах, особенно если они проводятся с небольшим интервалом, число выявленных больных будет снижаться, поскольку в последующих скринингах, будут, в основном, выявляться новые (свежие) случаи болезни.
Оценка достоверности (валидности) скринигового теста проводится с помощью все той же таблицы «два на два»
Хотя формулы чувствительности, специфичности и других характеристик скринингового и диагностического теста одинаковы, оценка этих параметров для скринингового теста отличается, поскольку нет другого скринингового теста, принимаемого за «золотой стандарт».
Ориентировочная оценка скринингового теста проводится по результатам (наличие/отсутствие болезни), полученным с помощью клинического обследования, проведенного сразу же после обследования скрининговым тестом.
Окончательная оценка проводится двумя способами:
· путем наблюдения за обследованными лицами в течение определенного периода времени (например, один год). Затем при заполнении таблицы «два на два» к числу больных, выявленных во время скрининга, прибавляются случаи болезни, выявленные в течение года, у лиц с отрицательными результатами теста. Такая оценка предполагает, что эти больные были не выявлены во время скрининга, поскольку тест дал ложнопололожительные результаты;
· путем сравнения результатов скрининга с заболеваемостью среди населения, не подвергавшегося скринингу.
Идеальный скрининговый тест должен быть валидным, прост в исполнении и относительно дешев – как, например, целенаправленный опрос, или измерение артериального
Задача 1
Адаптировано из книги Дж. Х. Абрамсон, З.Х. Абрамсон «Осмысление эпидемиологических данных»
Болезнь Д – распространенное заболевание, вызываемое действием фактора Т. Оно характеризуется продолжительным бессимптомным периодом, после чего наступает прогрессирующее расстройство функции центральной нервной системы, которое приводит к неспособности без посторонней помощи заниматься повседневной деятельностью. Диагноз можно поставить как, до так и после манифестации симптомов, с помощью точных, но дорогостоящих и трудоемких тестов. В исследовании, где использовался более простой новый тест, произвольно названный тест А, показатель распространенности этого заболевания в популяции составил 18.4 на 100. Валидность теста А оценивали, применяя его у 100 пациентов с болезнью Д и у 400 людей, у которых, как было известно, эта патология отсутствовала; при этом было получено 80 положительных результатов в 1-ой группе и 8-во 2-ой.
1 Представьте результаты оценки теста А в виде таблицы 2 на 2. Рассчитайте чувствительность и специфичность, ложноположительные и ложноотрицательные показатели этого теста. (см. приложение)
2 Какая еще информация о тесте А Вам необходима, прежде чем пользоваться этими данными?
3 Если тест, используемый для определения распространенности болезни, обладает низкой чувствительностью, как это повлияет на показатель распространенности?
4 Если тест имеет низкую специфичность, как это повлияет на показатель распространенности?
5 Предложите как рассчитать показатели распространенности, которые будут получены при применении теста А в городах П. и г К. с населением 10000 в каждом, где истинные показатели распространенности равны 21% и 7%, соответственно.
6 В соответствии с истинными показателями распространенности в П и К, отношение показателей распространенности равно 3. Если для расчета этого отношения будут использованы показатели распространенности, полученные в результате применения теста А, то каким будет это отношение: таким же, ниже или выше?
Задача 2
Доктор В., будучи неудовлетворенным результатами теста А, предложил новый тест для выявления болезни Д. Этот тест, названный в честь разработчика тестом В, обладает чувствительностью 99% и специфичностью 86%. Теперь для определения распространенности болезни в городе К. используется тест В, и его результаты сравниваются с результатами теста (при использовании теста А) в городе П.; последний показатель, равен 18.4%, а показатель истинной распространенности в г. П в 3 раза больше, чем в г. К.
Задание
1 Оцените ожидаемые результаты сравнения болезни распространенности болезни Д. в городе. П. (тест А) и в городе К. (тест В). Сделайте предположение о величине отношения показателя распространенности в городе П. к показателю распространенности болезни Д. в городе К.
2 Рассчитайте ожидаемые результаты оценки распространенности болезни Д. в городе К. (истинная распространенность болезни Д. в г. К. 7%, население 10000). Рассчитайте отношение показателей болезни Д. в городе П. (тест А) и К. (тест В).
Задача 3
Оцените достоверность диагностических тестов в следующих исследованиях:
1 Сравнение инцидентности шизофрении в двух странах на основе диагнозов, выставленных психиатрами в историях болезни.
2 Исследование связи патологии сетчатки и диабета, на основании клинических исследований пациентов с диабетом и без такового.
3 Исследование эффективности вакцинации от определенного заболевания на основании сравнения частоты новых случаев болезни среди вакцинированных добровольцев и невакцинированных людей.
4 Исследование эффективности нового лечения болей во время менструаций, в котором сторонники этого лечения опрашивали пациенток о постоянстве симптомов после случайного их разделения на две группы – одну, где женщин лечили новым методом (о чем пациентки не знали), и другую, где пациенток продолжали лечить обычным методом.
5 Исследование связи между воздействием препаратов для ингаляционного наркоза и специфическим заболеванием с иммунодефицитом, с помощью теста на наличие этого заболевания со специфичностью 100%, но чувствительностью только 60%.
6 Исследование связи между заболеванием старческой деменцией и уровнем образования путем определения этого заболевания при помощи простых тестов для изучения познавательной функции (общие знания и интеллектуальные способности)
7 Исследование связи между лихорадкой в начальном периоде беременности и врожденными аномалиями, в котором матерей детей, родившихся с дефектами и матерей здоровых детей опрашивали о болезнях в период беременности.
8 Исследование влияния курения на физическое состояние, в котором курящих сравнивали с людьми, бросившими курить.
9 Исследование эффективности интенсивной образовательной программы по гигиене, в которой ответы школьников, охваченных программой, на вопросы, моют ли они руки перед едой, сравнивали с ответами таких же детей, но не охваченных данной программой.
10 Исследование, в котором для изучения того, является ли ревматоидный артрит семейным заболеванием, пациентов с этим заболеванием и контрольную группу спрашивали о том, был ли артрит у их родителей.
11 Исследование, в котором изучали связь между острыми респираторными заболеваниями и патологией опорно-двигательного аппарата на основе анализа диагнозов, поставленных пациентам в стационаре.
12 Исследование различий между странами в распространенности желчнокаменной болезни, на основе грубых данных всех аутопсийных исследований, опубликованных с начиная с 1890 г. (Brett и Barker, 1976).
Задача 4
Для выявления болезни Д предлогается два теста –тест А (чувствительность 80%, специфичность 98%) и тест В (чувствительность –99%, специфичность – 86%).
Задание
1. Определите тест, который лучше подходит для проведения скрининга.
2. Какая дополнительная информация (кроме чувствительности и специфичности)
необходима при выборе скринингового теста?
Задача 5
В таблице представлены ожидаемые применения результаты теста А для выявления болезни Д. в городе г. П.
Ожидаемые результаты Теста А(чувствительность 80%, специфичность 98%)