Методы классификации и распознавания образов в задачах диагностики и прогнозирования
Модели медицинской диагностики, основанные на теории статистич-х решений
В теории статистических решений каждый класс объектов KS задается не набором прецедентов, а функцией распределения fS, которая определяет вероятность появления объекта из класса S в точке x m-мерного пространства.
Вероятность появления точки в тех или других классах разная.
Решающее правило: объект относится к тому классу, у которого вероятность больше.
- поверхность, разделяющая 2 класса (в одномерном случае – точка).
P(2|1) = α – ошибка первого рода (вероятность того, что объект из класса К1 классифицируется в класс К2)
Р(1|2) = β – ошибка второго рода (вероятность того, что объект из класса K2 классифицируется в класс К1)
Тогда решающее правило: α + β → min
С1, С2 – стоимость ошибки первого и второго рода
Тогда решающее правило ищем не по минимуму ошибки, а по минимуму стоимости потерь при ошибках: С1α + С2β → min
Модели
Метод максимального правдоподобия
Если признаки независимы, то: fS(x) = fS(x1)×fS(x2)×…× fS(xm)
Тогда: γ(x) = γ(x1) + γ(x2) + … + γ(xm)
γ(xj) = ДК(xj), ДК – диагностический коэффициент
Метод Неймана-Пирсона
Если признаки непрерывные, то используются коэффициенты корреляции Пирсона ρ. |ρ| Î[0,1]
Если ρ → 0, то признаки никак не связаны между собой.
Если ρ → 1, то признаки связаны так тесно, что один из них можно выбросить (признаки дублируют друг друга с точностью до постоянных коэффициентов)
Если признаки независимы, то они должны быть представлены одномерной функцией распределения f(xj)
Если признаки зависимы, то рассматривается функция распределения для пары f(xi xp)
Наиболее просто применять этот метод, когда: 1) Все функции являются нормальными гауссовыми, 2) Все признаки бинарные
Модель Фишера
Рассмотрим нормальное распределение:
Решающее правило:
Такой ответ получается в случае, когда дисперсии в классах К1 и К2 одинаковы.
Если дисперсии отличаются, то модель Фишера усложняется.
Для многомерной модели:
Более сложный вариант решающего правила содержит матрицу ковариации:
Метод Байеса
Известно: вектор признаков x = (x1, x2,…, xm), классы КS,
P(xKs) – вероятность того, что объект, имеющий вектор признаков х принадлежит классу Кs
P(xKs) = P(x)×P(Ks/x) , где P(x) – вероятность появления вектора признаков х во всех классах
P(Ks/x) – вероятность того, что объект принадлежит классу Кs при условии, что он имеет вектор признаков х.
P(xKs) = P(Ks)×P(x/Ks)
P(Ks) – вероятность появления класса Ks (не зависит от вектора признаков). Это априорная информация принадлежности классу. Эта вероятность отражает то свойство классов, которая означает, что объекты из разных классов могут встречаться не одинаково часто.
P(x/Ks) – вероятность того, что объект имеет вектор признаков х при условии, что он принадлежит классу Ks. (Это функция распределения для s-го класса fs(x))
Теорема Байеса
P(Ks/x) – апостериорная информация (получается после проведения опыта).
Решающее правило: объект х относится к такому классу, для которого апостериорная вероятность максимальная.
Если всего 2 класса, то получаем соотношение максимального правдоподобия:
Метод Вальда
Используются только наиболее информативные признаки. Заранее не известно, сколько признаков мы рассматриваем.
Пусть имеется 2 класса. Предположим, что признаки независимы:
Предположим, что все признаки ранжированы по информативности (х1 – самый информативный, хm – наименее информативный)
γ = 0 – линия безразличия. Вероятности для 1-го и 2-го классов равны.
А, В – верхний и нижний пороги.
γ(x) = γ(x1), где х1 – самый информативный признак.
Если γ(x1)>A, то объект принадлежит классу K1, если γ(x1)<B, то объект принадлежит классу K2. Если A<γ(x)<B, то продолжаем послед. Процедуру.
γ(x1x2) = γ(x1)+ γ(x2)
и т.д. пока не будет превзойден порог А или В.
Выбор порогов А и В:
Методы классификации и распознавания образов в задачах диагностики и прогнозирования.
Задача диагностики: необходимо отнести пациента к одному из классов заболеваний, то есть поставить диагноз
Задача прогнозирования: предсказать, как состояние пациента будет изменяться в будущем.
В задачах диагностики и прогнозирования используется медико-биологическая информация. Ее можно разделить на 4 типа:
1. Качественные признаки – вербальное описание состояния больного со слов
2. Количественные признаки – значения, полученные в результате измерений и анализов
3. Динамические данные – данные, полученные в результате наблюдения за пациентом в течение некоторого времени
4. Изображения.
Признаки измеряются по следующим шкалам:
1. Номинальная – шкала наименований. К ней относятся все качественные признаки
2. Порядковая – все объекты упорядочены по некоторому свойству
3. Интервальная
4. Шкала отношений – для каждой пары объектов определяется отношение (лучше-хуже,…)
Каждый объект может быть представлен набором признаков: x = (x1, x2, …, xm).
Решающее правило (РП) – алгоритм, с помощью которого объект, заданный вектором признаков х может быть отнесен к одному из известных классов (может быть классифицирован).
Информация используемая при построении РП:
1. Экспертная информация
2. Обучающая выборка (набор эталонов) - для всех классов известно некоторое количество объектов, которые являются эталонами классов.
Диагноз ставится на основе признаков xis = (xi1, ..., xin)
xis - вектор признаков i-го прецедента
i - номер прецедента в s-м классе
s - номер класса
3. Статистическая информация.
Для каждого класса строится функция распределения признаков. Используется информация о функции распределения(широкий класс РП).
Виды классификаций:
а) Классификация при наличии обучающей выборки
Обучающая выборка – набор эталонов для каждого класса. Эталон представляет собой m-мерный вектор: xsi = (xsi1, xsi2, …, xsim), где xsij – j-й признак i-го эталона из s-го класса.
Измеряется расстояние до эталонов.
Если d1=d2 – отказ от классификации.
Строится дискриминантная функция z(x) = 0
z(x) = d(x,ε1) - d(x,ε2)
Методы построения z(x):
1. Метод ближайших соседей
задаётся p=3, 4, ... - количество представителей обучающей выборки.
для объекта x=(x1,...,xm) находим p ближайших соседей.
РП:
где p1 - количество ближайших соседей, принадлежащих K1, p2 - количество ближайших соседей, принадлежащих K2
2. Метод весового вектора
используется в том случае, если классы линейно разделимы:
строим гиперплоскость:
z(x) = w0 + w1x1 + w2x2 + … + wnxn = 0
wTx = 0
w = (w1,w2, …, wn) – вектор неизвестных коэффициентов
0) w0 выбирается произвольно
1) х(1) – объект обучающей выборки на первом шаге.
wT(0)x(1) ≥ 0
wT(0)x(1) < 0
Если х(1)ÎK1 и wT(0)x(1) ≥ 0, то w(1) = w(0)
Если х(1)ÎK1 и wT(0)x(1) < 0, то w(1) = w(0) – Cx(1), где C>0 (const или изменятся на каждом шаге)
Если х(1)ÎK2 и wT(0)x(1) ≥ 0, то w(1) = w(0) + Cx(1)
Если х(1)ÎK1 и wT(0)x(1) < 0, то w(1) = w(0)
2) х(2)
w(2) = w(1) или w(2) = w(1) ± Cx(2)
И т.д. до w(n)
Условие остановки:
· Все объекты распознаны правильно
· Количество ошибок не более заданного
Если не выполняется, то возврат на первый шаг.
3. метод потенциальных функций
вводим d(x',x") - растояние между точками в m-мерном пространстве. f(d) - потенциальная функция. D(x, Ks) - потенциал в точке x, создаваемый классом Ks:
объект относится к тому классу, для которого потенциал выше.
zs(x) = D(x,ks)
РП: zssi(x)= zs(x) – zsi(x) = 0
4. Минимизация наборов прецедентов.
из обучающей выборки рассматриваются те эталоны, которые лежат на границе классов.
Контроль классификации:
1. деление выборки
2. скользящий экзамен
3. классификационная матрица
4. Метод дообучения
б) Классификация на основе теории статистический решений
Для каждого класса строится функция распределения вектора признаков, которая определяет вероятность появления объекта из данного класса
Методы:
1. Метод максимального правдоподобия
2. Метод Неймана-Пирсона
3. Модель Фишера
4. Метод Байеса
5. Метод Вальда
критерий качества классификации: w=С1*a + С2* b
a - вероятность пропуска опасного состояния (ошибка 1-го рода)
b - вероятность диагностики (ошибка 2-го рода)
С1 - стоимость пропуска опасного состояния
С2 - стоимость гипердиагностики
Чувствительность - способность системы распознавать опасное состояние: 1-a
Специфичность - способность правильно определять неопасное состояние: 1-b