Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа

Дискра может проводиться несколькими методами:

а) в зависимости от реализованного алгоритма различают две группы методов дискра:

а.1. методы интерпретации межгрупповых различий по дискриминантным переменным, позволяющие установить отличия одного класса от другого;

а.2. методы классификации на основе дискриминантных функций, с помощью которых по выбранным признакам новые объекты распределяются по существующим классам.

б) по количеству обучающих выборок различают два вида методов дискра:

б.1. для двух групп - строится только одна дискриминантная функция;

б.2. для трех и более групп применяется множественный дискра - строится несколько дискриминантных функций.

в) в зависимости от правил дискриминации в литературе рассматривается три вида дискра:

в.1. линейный дискра Фишера – правила дискриминации представлены в виде линейной комбинации дискриминантных переменных;

в.2. канонический дискра – правила дискриминации представлены в виде дискриминантных функций;

в.3. линейный дискра - правила дискриминации представлены совокупностью характеристик групповая ковариационная матрица, групповой вектор средних, определитель ковариационной матрицы).

Пусть имеется множество М, состоящее из n объектов наблюдения, каждый i-ый объект которого описывается совокупностью р значений дискриминантный переменных признаков Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru т.е. каждый объект представляет собой точку в р-мерном пространстве Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru Причем все множество М объектов включает К (К Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru 2) обучающих подмножеств Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru размером Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru каждое и подмножество Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru объектов, подлежащих дискриминации того же состава р дискриминантных переменных и, характеризуемых вектором Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru Здесь к – номер подмножества.

Наиболее часто используется линейная форма дискриминантной функции, которая представляется в виде скалярного произведения вектора дискриминантных множителей Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru и вектора переменных Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru

Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru или Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru где Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru транспонированный вектор дискриминантных переменных Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru

Основные предположения в теории дискра:

- множество М объектов разбито на несколько обучающих подмножеств, которые от других групп отличаются переменными Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru

- в каждом подмножестве находится по крайней мере два объекта наблюдения

- 0<p<n-2. Число р обычно выбирается на основании логического анализа исходной информации

- между дискриминантными переменными существует линейная независимость (отсутствует мультиколлинеарность)

- все подмножества объектов гомоскедастичны, т.е. выполняется приблизительное равенство ковариационных матриц для каждого класса

- внутри каждого подмножества выолняется нормальный закон распределения

Если перечисленные условия не выполняются, то рассматривается вопрос о

целесообразности использования дискра для классификации остальных переменных. основные проблемы дискра – отбор дисриминантных переменных и выбор вида дискриминантной функции. Для получения наилучших различий обучающих подмножеств могут использоваться критерии последовательного отбора переменных или пошаговый дискра. После определения набора дискриминантных переменных решается вопрос о выборе вида дискриминантной функции (линейной или нелинейной). В качестве дискриминантных переменных могут выступать не только исходные (наблюдаемые) признаки, но и главные компоненты или главные факторы, выделенные в факторном анализе.

Дискра - совокупность статистических методов классификации многомерных наблюдений, используемых в ситуации, когда исследователь обладает так называемыми обучающими выборками.

Решается задача классификации n объектов, каждый из которых характеризуется значениями k показателей Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru и p однородных в определённом смысле групп. Причём число p нам заранее известно. В основе ДА лежит матрица наблюдений размерности nxk:

Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru где Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru значение j-го показателя (j=1,2,…..k) для i-го наблюдения (i=1,2,…..,n). Тогда i-я строка матрицы содержит значения k признаков, характеризующих i-й объект. Имеется также p обучающих выборок: Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru , где l=1,2,…,p. Таким образом l-я обучающая выборка представляет собой матрицу наблюдений размерности Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru .При этом число p обучающих выборок равно общему числу всех возможных классов.

В ДА под однородной группой (классом) понимается ген. совокупность, описываемая одномодальным, наиболее часто k-мерным нормальным законом распределения с функцией плотности Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru где Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru -вектор неизвестных параметров распределения, оценку которого Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru находят по обучающей выборке Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru объёмом Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru для l-го класса.

Получив оценку вектора параметров Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru , находят оценку плотности распределения Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru для i-го наблюдения, где i=1,2,…..,n и l=1,2,…..,p. Наблюдение Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru относят к той совокупности Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru , которой соответствует наибольшее значение плотности Классификация объектов при наличии обучающих выборок. Постановка задачи классического дискриминантного анализа - student2.ru для всех l=1,2,…,p.

Процедуру классификации называют оптимальной, если среди всех других процедур она обладает наименьшими потерями от ошибочной классификации (отнесения объекта m-го класса к l-му).

Наши рекомендации