Логические модели структур заболеваний
Логические модели структур заболеваний за 1986 – 1999 годы участников
Ликвидации аварии на ЧАЭС и/или мужчин, проживающих в пораженной
Зоне и имеющих злокачественные новообразования органов дыхания
Щеглов В. Н., Бучель В. Ф., Хромушин В. А.
Компьютерный центр здравоохранения Тульской области, Тула
(Новая редакция и исправления 2010 г.)
В статье предлагается использовать разработанный авторами метод построения алгебраических моделей конструктивной логики (АМКЛ) для вычисления выводов, обобщающих большие массивы исходных многомерных данных. Эти выводы можно использовать для анализа состояния здоровья участников ликвидации аварии на Чернобыльской АЭС и/или мужчин, проживающих в пораженных зонах. Обсуждаются модели в булевой форме, отображающие набор признаков (существование или отсутствие различных болезней), соответствующих наличию у определенных групп пациентов злокачественных новообразований органов дыхания.
_________________________________
Logic models for the disease pattern in 1986-1999 for Chernobyl
Emergency workers and/or males living in the affected area and
Having malignant neoplasms of respiratory organs
Shcheglov V.N., Buchel V.F., Chromushin V.A.
Computer center of health services of the Tula region, Tula
A technique for building algebraic models of constructive logic (AMCL) was developed by the authors with a view to derive conclusions summarizing extensive arrays of multidimensional date. These conclusions can be used for analysis of health status of the Cernobyl emergency workers and/or males living in the affected areas. Consideration is given to the Boolean models accounting for a set of attributes (occurrence or absence of diseases) corresponding to occurrence of malignant neoplasms of respiratory organs in some groups of patients.
_________________________________
Введение
Исследование здоровья участников ликвидации аварии на Чернобыльской АЭС и их лечение имеет в настоящее время большое значение, как ввиду сравнительно быстрого прогрессирования всего комплекса болезней, связанных с радиационными поражениями, так и просто с вымиранием этих людей, отдавших свое здоровье для защиты общества от дальнейшего распространения радиоактивности. Эти исследования имеют и международное значение, поскольку существует возможность повторения трагедии, аналогичной Чернобыльской, из-за войн, катастроф или террористических действий. Наши ликвидаторы, да и люди, проживающие сейчас в радиоактивных зонах, к сожалению, являются как бы подопытными объектами, на которых отрабатываются как различные способы их лечения, так и модели демографических, социальных и экономических изменений в государствах, которые могут подвергнуться катастрофам, аналогичных Чернобыльской.
В предлагаемой статье иллюстрируется применение разработанного авторами метода построения алгебраических моделей конструктивной логики (АМКЛ). В общем случае эти модели соответствуют интуиционистскому исчислению предикатов, исходные данные могут быть как в виде вещественных чисел, так и в виде значений булевой или k-значной логики. В работе использованы данные лишь о самих фактах заболеваний, точнее о 100 группах болезней, зарегистрированных в течение 1986 – 1999 годов, всего за 14 лет; клинические симптомы здесь не детализировались. Далее вместо выражения «итоговый список заболеваний за весь период наблюдений (обследований)» будем говорить для краткости «совместные заболевания». Появление в выводах (конъюнкциях) К сразу нескольких переменных будем истолковывать далее как «совместное» наличие их в списке болезней или других признаков за период всех наблюдений.
В качестве цели исследования и иллюстрации применения метода АМКЛ выбраны злокачественные новообразования органов дыхания лишь потому, что они регистрировались сравнительно чаще, чем другие злокачественные новообразования, судя по имеющемуся массиву данных. Для уменьшения вычислительного времени удобно было преобразовывать исходную выборку следующим образом (для 9000 мужчин (Л, "ликвидаторов"), проживающих в пораженной зоне и/или ликвидаторов, которые обследовались четыре или более число раз по Тульской области). Задавалась цель исследования, затем выбиралась первая строка массива (характеризующая определенного больного по всем обследованиям), содержащая заданное заболевание, после чего выбирались последующие две строки (для других Л), не содержащие это заболевание и т.д. Максимальная разница в датах постановки диагнозов между регистрацией заданного заболевания у определенного Л и соответствующими ему контрольными Л могла быть равной двум годам. Злокачественные новообразования в целом встречаются довольно редко, в данном исследовании все зарегистрированные случаи заболеваний злокачественными новообразованиями органов дыхания использовались полностью. Таким образом, при данном подходе (и при простом алгоритме этой выборки) удавалось хотя и приблизительно, но подобрать пару возможно близких по времени обследования пациентов в качестве контроля, не имевших заданное заболевание. Далее задавалось ограничение, определяемое лишь временем расчета моделей – вся выборка должна была содержать не более чем 570 человек: до этого числа выборка дополнялась строками, идущими после последнего пациента с заданным заболеванием. На данном этапе работы было выгодно иметь как можно больше строк сравнения, т. е. контрольных Л (и одновременно приемлемое время счета), для того, чтобы получать возможно более детальные выводы – конъюнкции наибольшего ранга.
Для построения моделей М была использована программа «искусственного интеллекта» АМКЛ – вычисление алгебраических моделей конструктивной (интуиционистской) логики [1, 2, 3] (см. там же дополнительные ссылки на литературу; первоначальную публикацию этой статьи в 2002 году см. в [4]). Эта программа определяет тупиковые дизъюнктивные формы (предикаты или «выводы») в виде набора конъюнкций К1 V К2 … --> Z, где К = (а1 < x1 < б1) & … &(аr < xr < бr), & – логическая связка конъюнкция («и»), r – число открытых интервалов (а, б), т. е. ранги К, V – логическая связка дизъюнкция («или»), --> – логическая связка импликация (« если, то») и Z – цель исследования (обычно в булевом виде). В данной работе все переменные хi будут булевыми, при обнаружении болезни хi = 1, при ее отсутствии хi = 0 (i = 1, 2, … , 100 групп болезней). Для удобства обозрения булеву М можно записать, в качестве примера, в виде следующих наборов К (лишь первые из них раскроем более детально):
х1 х"2 … хr1 V К2 … V Кm1 V -(x"3 x4 … xr2 V K" … V K"m2) --> Z, где интервалы между х означают связки &, все х со штрихами х" имеют значение 0, без штрихов x = 1. Все К в левой части модели (до символа -) относятся к целевой модели ЦМ, после символа - относятся к не целевой модели или «модели контроля» МК, где - константа "ложь", "отрицание". Штрихи у К" означают лишь, что эти К" относятся к МК. Индексы m1, m2, …, означают порядковых номер К.
После вычисления К рассчитываются их оценки Г – число (повторяемость) каждой К в выборке и множества, соответствующие Г (номера ликвидаторов), затем упорядочиваются все К по их Г. Начиная с К с наибольшей Г строится объединение множеств, соответствующих этим упорядоченным К. Отбрасываются те из них, множества (соответствующие Г) которых входят в объединенное множество всех ранее отобранных более «мощных» К. В итоге строится тупиковая дизъюнктивная форма. Ошибка М рассчитывается следующим простым способом. Известно, что идеальному генератору случая соответствует АМКЛ, где все Г = 1. Если после вычисления М удалить из исходного массива какую-либо одну строку – ее Z все равно будет распознана с помощью К, для которых Г = 2 или больше; однако возможна ошибка, если у некоторой К Г = 1 (полагаем также, что структура М мало меняется при удалении одной строки для достаточно большой выборки). Будем называть максимальной ошибкой p для М суммарное число К, для которых Г = 1, отнесенное к общему числу строк (570 Л) выборки.
Программа построения АМКЛ предназначена для исследования сложных систем в динамике. Предполагается, что эти системы зависят также и от «скрытых» (незарегистрированных) переменных, медленно эволюционирующих во времени. Для того, чтобы сделать К мало зависящими от этих переменных, сам алгоритм построен на сопоставлении каждой целевой строки со своей окрестностью не целевых строк при вычислении ЦМ; аналогично вычисляется и МК.
Логические модели структур заболеваний
В данной работе для краткости приводится запись лишь трех К с наибольшими Г для МК и трех для соответствующей ей ЦМ. В случайной (но упорядоченной по времени) выборке из 570 Л обнаружено лишь 19 Л, имеющих злокачественные новообразования органов дыхания. Для ЦМ большинство оценок Г = 1, поэтому для выборки в ЦМ трех К применялись следующие приемы. Помечались переменные хi, совпадающие по индексу i как в ЦМ, так и в МК (большинство таких х в ЦМ имеют инверсные, т. е. обратные значения по отношению к МК, их помечали звездочкой * справа, как в МК, так и в ЦМ). Затем выбирались те К, которые имели наибольшее число таких инверсий (И), поскольку содержательная интерпретация таких К более проста, далее они записывались в порядке уменьшения числа И. В случае одинакового их числа предпочтение для записи оказывалось тем К, для которых И ближе по записи к началу К. Следует заметить, что первые по записи хi появляются в результате сопоставления с ближайшими окрестностями «не целевых» строк, т. е. этой информации соответствует более правильный во времени (1986 – 1999 годы) подбор «контроля» для каждой целевой строки исходного массива данных.
Для лучшего обзора М условимся записывать вместо переменной хi лишь ее индекс i. Так, МК и ЦМ (которые удобно интерпретировать порознь) будут записываться в следующем виде, например:
МК: i"*1 i2 … i"r V … --> i"*10, (Z = 0); ЦМ: i*1 i2 … ir V … --> i*10, (Z = 1); p, m,
где штрихи над i означают х = 0, т. е. отсутствие соответствующего заболевания (без штрихов – наличие заболевания, х = 1), интервал между i пусть означает логическую связку &, * – инверсные значения х, встречающиеся как в КМ, так и в ЦМ, r – ранг (сложность) «синдрома» К, Z – значение функции цели, р – максимальная ошибка распознавания цели в общей итоговой модели, где Z = (0, 1), m – число Л с данным видом злокачественного новообразования, соответствующее всей модели (без усечения числа К). Единственная переменная х5 (доза гамма - излучения, зарегистрированная с помощью индивидуального дозиметра или путем расчетов по времени работы в соответствующей зоне) на входе программы выражалась в виде вещественного числа; однако у большинства Л эта доза была неизвестна. Поэтому сам факт появления в М х5 будем считать эквивалентным выражению «имеется взаимодействие с зарегистрированной дозой излучения» (обратное здесь высказывание по смыслу – «нет взаимодействия с зарегистрированной дозой излучения или доза неизвестна»).
Модели злокачественных новообразований органов дыхания в булевой форме:
МК: 46" 29* 49" V 26"* 29* 49" V 50* 29* --> 10"*,
ЦМ: 30 43" 50"* 26* 55" 22" 5 V 68 29"* 74 V 5 40 26* 37 57" --> 10*,
р = 0.03, m = 19,
где 5 – доза излучения, 10 – злокачественные новообразования органов дыхания, 22 – нарушения иммунитета, 26 – невротические расстройства, 29 – дегенеративные болезни ЦНС, 30 – болезни ЦНС, 37 – ишемическая болезнь сердца, 40 – цереброваскулярные болезни, 43 – острые респираторные инфекции, 46 – хроническая обструктивная болезнь легких, 49 – болезни полости рта, 50 – болезни желудка, 55 – болезни органов пищеварения, 57 – болезни мочевыделительной системы, 68 – воспалительные болезни кожи, 74 – симптомы, выявленные при клинических исследованиях (всего было использовано 100 групп заболеваний).
Интерпретация моделей
Разработанный вариант программы АМКЛ позволяет также выявить все дополнительные данные о состоянии здоровья Л, зарегистрированные в его личной карте. Однако в рамках данной публикации было решено ограничиться интерпретацией М в булевых терминах существования или отсутствия определенных групп болезней у Л. Совместное наличие некоторых заболеваний, вошедших в К ЦМ, можно считать признаком или синдромом наличия злокачественного новообразования легких у Л. Сами же эти признаки перечисляются далее в виде их дизъюнкции. Обратим внимание на i*, которые удобны для «линейной» интерпретации – например, отсутствию болезни i"* в МК соответствует наличие болезни i* в ЦМ. Для любой К при необходимости может быть вычислен ее «контекст». В случае булевых М это могут быть булевы значения некоторых переменных (не вошедшие в М), в знании которых заинтересован исследователь.
Пусть все К (выводы) в ЦМ будут перенумерованы по ходу их записи. Напомним, что каждый из приводимых далее К надо интерпретировать как единое целое, как «синдром» или как сложный признак (его нельзя разлагать на отдельные независимые составляющие).
Вывод 1: 30 43" 50"* 26* 55" 22" 5 – злокачественные новообразования органов дыхания наблюдаются при следующем списке совместно существовавших (или не существовавших) болезней у определенных Л: при болезнях ЦНС (30), что возможно свидетельствует о перенесенном и продолжающемся стрессе; при отсутствии острой респираторной инфекции (43), что возможно свидетельствует в данном случае о хорошем состоянии иммунной системы; при отсутствии болезней желудка (50); при невротических расстройствах (26), что подтверждает (30); при отсутствии болезней органов пищеварения (55), что частично подтверждает (50); при отсутствии нарушения иммунитета (22), что частично подтверждается (43); при зарегистрированном факте радиоактивного облучения (5). Возможно, что в данных случаях у относительно здоровых Л злокачественные новообразования органов дыхания возникли в результате радиоактивного облучения и сопутствующего ему профессионального стресса (и последующих болезней ЦНС).
Вывод 2: 68 29"* 74 – злокачественные новообразования органов дыхания наблюдаются при следующем списке совместно существовавших (или не существовавших) болезней у определенных Л: при воспалительных болезнях кожи (68), что возможно свидетельствует в данном случае о некотором ослаблении иммунной системы; при отсутствии дегенеративных болезней ЦНС (29); при некоторых симптомах, выявленных при клинических исследованиях (74) (согласно выводу 2, эти клинические симптомы связаны с х68 – с болезнями кожи). Интересно отметить, что в МК наблюдается наличие дегенеративных болезней у «контрольных» Л (во всех трех К", выбранных для записи в качестве МК, вероятно, эти Л здесь имели пожилой возраст). Возможно, вывод 2 можно интерпретировать как возникновение злокачественных новообразований органов дыхания у сравнительно молодых Л при ослаблении их иммунной системы. Поскольку в эту К не входит х5 (индивидуальные дозиметры имели в основном Л, работавшие непосредственно на ЧАЭС), вероятно этот вывод относится к Л, проживающим в пораженной зоне.
Вывод 3: 5 40 26* 37 57" – злокачественные новообразования органов дыхания наблюдаются при следующем списке совместно существовавших (или не существовавших) болезней у определенных Л: при зарегистрированном факте радиоактивного облучения (5); при цереброваскулярных болезнях (40) (возможно, вследствие стресса); при невротических расстройствах (26); при ишемических болезнях сердца (37); при отсутствии болезней мочевыделительной системы (57). Интерпретация этого вывода сходна с интерпретацией вывода 1, но возможно, применительно к Л более старшего возраста. В данных случаях злокачественные новообразования органов дыхания возникли в результате радиоактивного облучения, сопутствующего ему профессионального стресса и последующих болезней ЦНС и сердца.
Самым интересным результатом модели является прямое указание (в К1 и К3) на причину появления злокачественных новообразований органов дыхания – это воздействие радиоактивного излучения (совместно с другими факторами), причем ошибка всей модели, отображающей сложнейшие внешние и социальные воздействия, сравнительно мала, р = 0,03.
Эти интерпретации моделей "первого приближения" естественным образом ограничена "словарем" используемого языка описания состояния здоровья Л – самими лишь фактами наличия или отсутствия некоторых заболеваний. Но даже в терминах этого языка рассмотренные выше выводы можно использовать как признаки существования злокачественных новообразований органов дыхания у Л. Более точно, в М перечислены синдромы (признаки) К, указывающие в определенном контексте (для тех групп Л, которые выделяются совокупностью всех К в М) на существование именно у таких Л злокачественных новообразований органов дыхания. Интерпретация МК так же представляет интерес, полученные выводы можно здесь рассматривать как наборы признаков отсутствия злокачественных новообразований органов дыхания у большинства Л (551 Л), причем эти признаки не противоречат данным для всей использованной выборки (570 Л).
Выполненный анализ имеющихся данных с помощью метода построения АМКЛ в булевой форме можно рассматривать лишь как начальную стадию системного исследования здоровья Л. Далее следует выделять наиболее интересные в содержательном смысле «синдромы» К и на их основании вычислять М, но уже по возможности в предикатном (интервальном) виде с включением также новых переменных в виде вещественных чисел. Использование АМКЛ в таком рекурсивном режиме частично позволит избежать ограничений на вычислительные ресурсы, которые часто возникают при исследовании сложных систем.