Минимаксный критерий классификации
Байесовская классификация является наилучшей со статистической точки зрения. Однако она не всегда применима. Например, она неприменима, когда вероятности неизвестны. Распишем средние потери от неправильной классификации
где
Пусть
Тогда
Если же
то
Таким образом
Поэтому если априорные вероятности появления классов неизвестны, то в качестве классификационной стратегии может быть выбрана стратегия такого разбиения пространства признаков на непересекающиеся области , при котором минимизировались бы максимально возможные средние потери от неправильной классификации, т. е.
.
Такой критерий называется минимаксным.
Критерий Неймана-Пирсона
Этот критерий применяется, как правило, в тех случаях, когда неизвестны не только априорные вероятности появления классов , но и платежная матрица. Рассмотрим классификацию по двум классам. В этом случае фиксируется некоторая малая положительная величина α, которая называется уровнем значимости, численно равная вероятности ошибки первого рода
(вероятность отнесения к классу , когда на самом деле принадлежит классу ). При фиксированном значении разбиение признакового пространства на непересекающиеся области осуществляется в соответствии с критерием Неймана-Пирсона таким образом, чтобы минимизировать так называемую вероятность ошибки второго рода
Теорема (Неймана-Пирсона). Вероятность ошибки второго рода будет минимальной, если
,
где пороговая величина определяется из следующих соотношений:
.
Заметим, что критерий Неймана-Пирсона является наиболее общим критерием классификации. Из него следуют другие критерии классификации, в частности, байесовский классификатор получается, если h=p2/p1.
МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ
Факторный анализ
Основная гипотеза факторного анализа (ФА) состоит в том, что совокупность коррелированных показателей Pj (j=1,…,n) можно описать с помощью небольшого количества непосредственно не наблюдаемых гипотетических величин – общих факторов (ОФ). Модель ФА имеет вид
, (j=1,…,n), (4.1)
где fr – значение r-го ОФ;
ajr – факторная нагрузка r-го ОФ на j-й показатель;
uj – величина j-го характерного фактора;
dj – нагрузка j-го характерного фактора;
k – количество ОФ.
При этом k<n.
В модели предполагается, что характерные факторы не коррелируют как друг с другом так и с k общими факторами .
Модель (4.1) можно записать в матричном виде:
где
a11 a12 … a1k
A = a21 a22 … a2k – матрица значений факторных нагрузок;
……………..
an1 an2 … ank
f1 u1
f2 u2
F = …. – вектор значений ОФ; U = …… – вектор значений
f2 un характерных факторов;
d1 0 0 … 0
D = 0 d2 0 … 0 – матрица значений нагрузок характерных факторов.
…………….
0 0 0… dn
Предполагается, что fr и uj имеют нулевые средние и единичные дисперсии, а показатели Pj находятся в стандартизованном виде (центрированы и нормированы).
Тогда из (4.1) получим
.
Если ОФ не коррелируют между собой ( ), то
(4.2)
Величина , называемая общностью, характеризует вклад ОФ в единичную дисперсию показателя Pj, а величина dj2, называемая характерностью – вклад характерного фактора, т. е. дисперсию ошибки.
Качество аппроксимации (4.1) характеризуется тем, насколько она воспроизводит корреляции между показателями. Элементы воспроизведенной корреляционной матрицы R+ также легко получается из (4.1).
( ). (4.3)
Случаю соответствует уже рассмотренное нами соотношение (4.2).
Отметим, что использование коррелированных ОФ обусловлено необходимостью их содержательной интерпретации, без которой прогнозирование затруднительно.
ФА предполагает ряд последовательных процедур:
– определение количества ОФ и вычисление оценок факторных нагрузок;
– вращение и содержательная интерпретация ОФ;
– оценка значений ОФ.
Для выполнения первого этапа наиболее предпочтительным является метод максимального правдоподобия (ММП), который позволяет получить асимптотически несмещенные и эффективные оценки ajr и dj для генеральной совокупности, а также решить вопрос о количестве ОФ.
Этот метод связан с максимизацией функции правдоподобия или (что эквивалентно) минимизацией следующей функции:
, (4.4)
где R – выборочная корреляционная матрица показателей;
– корреляционная матрица показателей в генеральной совокупности.
Вообще говоря, в решении вопроса получения факторных нагрузок А имеется неопределенность, так как существует бесконечное множество матриц А, одинаково хорошо воспроизводящих корреляционную матрицу С.
В ММП неопределенность устраняется путем введения дополнительного условия – диагональности матрицы J,
где .
ММП позволяет решить вопрос о количестве ОФ со статистических позиций. При этом выдвигается нулевая гипотеза Н0 : число ОФ равно k, которая принимается при
, (4.5)
где
N – объем выборки;
- табличное значение – критерия, соответствующее заданному уровню значимости a с степенями свободы.
На практике невозможно априорно выбрать гипотезу Н0. Поэтому определение необходимого числа ОФ осуществляется путем последовательного перебора гипотез: k=1, k=2, … до тех пор, пока не будет выполнено условие (4.5).
Определим понятие эффективности сокращения размерности Е как отношение количества сокращенных переменных к количеству первоначальных переменных. При использовании ФА
. (4.6)
Выше уже отмечалось, что процедура выделения ОФ имеет бесконечное множество решений, одинаково хорошо воспроизводящих корреляционную матрицу. Лишь благодаря введению ограничений, присущих этому методу, достигается единственность решения. Однако полученные таким образом ОФ содержательно не интерпретируются. Поэтому необходимо найти другую систему ОФ (возможно коррелированную), эквивалентно воспроизводящих корреляционную матрицу, но позволяющую дать содержательную интерпретацию общим факторам (рис.4).
f2
q2
q1
Pi
Pj f1
Рис. 4. Вращение факторов
На этом рисунке исходные показатели и косоугольные факторы изображены в виде векторов в системе координат, образованной общими факторами. При этом
,
т. е. косинус угла между векторами, соответствующими переменным Pi и Pj, равен коэффициенту корреляции между ними.
Процесс перехода от исходной системы ОФ к интерпретируемой системе принято называть «вращением». Существуют различные методы «вращения» ОФ, однако на практике можно рекомендовать использование метода экстремальной группировки параметров Бравермана (МЭГП) [18].
Метод заключается в том, что группировка показателей и выделение общих факторов делаются на основе максимизации введенных критериев. Разбиения, максимизирующие этот функционал, называют экстремальной группировкой параметров.
Вообще под задачей экстремальной группировки набора случайных переменных Р1, Р2, .. Рn на заранее заданное число классов k понимают отыскание такого набора подмножеств S1, S2, .. Sk натурального ряда чисел 1, 2, … n, что , а при , и таких k нормированных факторов f1, f2, … fk, которые максимизируют какой-либо критерий оптимальности.
В МЭГП используется следующий критерий оптимизации
(4.7) |
Максимизация J (как по разбиению переменных на группы, так и по выбору факторов) отвечает требованиям такого разбиения переменных, когда в одной группе оказываются наиболее близкие между собой в смысле коррелированности переменные. В то же время в качестве факторов f1, f2, … fk будет выбираться такой набор, что каждая из величин fi в среднем наиболее близка ко всем переменным своей группы.
Очевидно, что при заданных группах S1, S2, .. Sk оптимальный набор факторов f1, f2, … fk получается в результате независимой оптимизации каждого слагаемого
, (4.8)
откуда
, (4.9)
где – собственный вектор корреляционной матрицы, составленной из коэффициентов корреляции переменных, вошедших в группу Sl, соответствующий максимальному собственному значению ll;
ml – число переменных, вошедших в группу Sl.
С другой стороны, считая известными факторы f1, f2, … fk, нетрудно построить разбиение S1, S2, .. Sk, максимизирующее J, при фиксированных f1, f2, … fk, а именно
для всех .
Для одновременного нахождения оптимального разбиения S1, S2, .. Sk и оптимального набора факторов f1, f2, … fk предлагается итерационный алгоритм, последовательно осуществляющий выбор оптимальных (по отношению к разбиению, полученному на предыдущем шаге) факторов, а затем разбиения, оптимального к факторам, полученным на предыдущем шаге.
Очевидно, что на каждом шаге итераций критерий J не убывает, поэтому данный алгоритм будет сходиться к максимуму, который однако может оказаться локальным.
Этот метод приводит к наилучшей интерпретируемости ОФ, так как группы тесно взаимосвязанных показателей, как правило, объясняются одним ОФ, который проходит через центр пучка этих показателей.
Переход от исходной системы ОФ к системе факторов, полученных методом экстремальной группировки параметров, осуществляется с помощью матрицы преобразования
(4.10)
где – коэффициент корреляции между показателем gi, характеризующим центр i-й группировки (косоугольным фактором) и s-м ОФ, полученным ММП.
Зная матрицу H легко определить:
– матрицу коэффициентов корреляции между косоугольными факторами
; (4.11)
– матрицу факторной модели для косоугольных факторов
. (4.12)
Для прогнозирования ОФ необходимо иметь динамику их значений. По исходной выборке показателей можно получить оценки коэффициентов регрессии факторов по показателям (метод Томсона) [25]
, (4.13)
где переменные Р рассматриваются в стандартизованном виде.
Прогнозирование ОФ по временным рядам ничем не отличается от прогнозирования исходных показателей, однако динамика ОФ, как правило, характеризуется большей стабильностью.
При прогнозировании показателей по ОФ не требуется специального построения моделей связи, так как в качестве такой модели выступает факторная модель.
Подставляя в факторную модель прогнозные значения ОФ, получим прогнозы исходных показателей рыночной ситуации
.
В то же время истинное значение j-го показателя равно
.
Следовательно, ошибка прогноза j-го показателя составит:
.
Пренебрегая ошибками оценки коэффициентов факторной модели, получим следующее выражение дисперсии ошибок прогноза j-го показателя:
. (4.14)