Последовательности этапов решения задач классификации с использованием алгоритмов вычисления оценок
Оценки ( ) и (S) поданных за класс (u = 1,2,…, l) по фиксированному опорному множеству или системе опорных множеств соответственно.
Дадим интерпретацию рассмотренных этапов задания алгоритма (Г-модели) применительно к задаче классификации.
Пусть заданы объекты двух классов:
первого , ,…, и
второго , ,…, .
Каждый из объектов характеризуется набором значений u бинарных признаков. Требуется отнести предъявленную строку S длины u к одному из классов.
Зададим длину опорного множества , равную K и выделим все наборы столбцов длины K (предполагается, что всё множество объектов с u признаками сведено в таблицу Tmn2 ).
Берем первый по порядку набор, составленный из столбцов с номерами 1,2,…,k. В предъявленной строке S и строках , ,…, и , ,…, выделим только первые k столбцов (это возможно, т.к. перестановка столбцов в исходной таблице не приводит к потери информативности заданных описаний).
Полученные после такой операции строки обозначим через , ,…, и , ,…, ; .
Обозначим через число строк из , ,…, совпадающие с , через - число строк из , ,…, , тоже совпавшие с .
Построим величины и для всех наборов , ,…, длины k (эти величины соответствуют оценкам ( ) и ( )).
Тогда оценки
(S) =
и
(S) =
полученные по всем наборам длины k, естественно назвать числом голосов, поданных строкой S соответственно за первый и второй классы.
Отнесение строки S к одному из классов можно провести одним из рассмотренных ранее решающих правил. Кроме того, следует учитывать удельное число голосов. Например, величины и называют удельным числом голосов, поданных за первый и второй классы строкой S.
Если > , то строку S можно отнести к первому классу. При = = 0 – алгоритм отказывается от классификации строки S. Если же число объектов в обоих классах совпадает, то нет необходимости привлекать при отнесении (классификации) удельное число голосов.
В случае, если решающее правило ориентировано на использование параметров и ,
= (S) - (S);
= (S) / (S); то значение и можно выбрать в процессе обучения (на контрольном материале) следующим образом:
- фиксируются некоторые значения и .
- производится прогноз на контрольном материале.
- за каждый неправильный прогноз и отказ от распознавания начисляются штрафные очки (например, 2 и 1).
- подсчитывается общее число штрафных очков.
- осматривается окрестность и и каждый раз подсчитывается сумма штрафных очков.
- осуществляется переход в точку с минимальным числом штрафных очков и т.д. до нахождения оптимальных и .
Пример:
Пусть задана таблица объектов (m = 6; n 6; l = 2).
объекты класса
объекты класса
- строка S
В качестве голосующих наборов рассмотрим наборы столбцов <1,2>, <3,4>, <5,6>. Две строки будем считать похожими, если они совпадают.
Оставим в таблице сначала столбцы 1и 2, затем 3 и 4 и, наконец, 5 и 6. Получаем, что число совпадений со строками первого класса равно 1, второго 2, т.е. = 1; = 2. Аналогично = 2; = 1; = 1; = 0.
Следовательно, (S) = 4; (S) = 3.
Если решающее правило относит строку по простому большинству голосов, то в данном примере строка будет относиться к классу , т.к. (S) > (S). При = 1 строка S также будет отнесена к классу ; т.к. ( (S) - (S)) = 1 = удельное число голосов, поскольку = .