Глава 8. адаптивный байесов подход при непараметрической априорной неопределенности
ВВОДНЫЕ ЗАМЕЧАНИЯ
Несколько последующих глав будет посвящено детальному рассмотрению адаптивного байесова подхода при наличии параметрической априорной неопределенности применительно к широким классам задач с доведением правил решения до детальной структуры и исследованием эффективности этих правил решения. В этой главе на ряде примеров, каждый из которых также относится к достаточно широкой совокупности задач, проиллюстрируем возможности адаптивного байесова подхода в непараметрическом случае.
В § 6.1 мы уже рассмотрели пример применения адаптивного байесова подхода в случае непараметрической априорной неопределенности (пример 2). Этот пример в некотором отношении является крайним: характер априорной неопределенности таков, что какие-либо сведения об аналитическом описании исходного материала полностью отсутствуют: совсем неизвестно распределение вероятности наблюдаемых значений ( ),полностью неизвестен вид функции потерь и тем более природа и статистическое описание параметров , влияющих на величину потерь и последствия от принятия того или иного решения.
Нужно отметить, что за эту крайность приходится расплачиваться довольно серьезными ограничениями: предположениями о дискретности множества решений U, о дискретности множества значений , о независимости и одинаковости распределений вероятности всех значений ( ), об одинаковости истинных (неизвестных нам) функций потерь на всех шагах и требованием, чтобы полная совокупность данных наблюдения х содержала значения принятых при N решений и появившихся при этом потерь . Указанные ограничения выражают иную форму представления имеющихся априорных знаний, отличную от параметрического статистического описания неизвестных распределений вероятности и функций потерь, причем, как видно из перечисленных ограничений, необходимый для нахождения правила решения объем этих априорных знаний довольно велик.
Возникающее иногда противопоставление параметрического и непараметрического подходов к решению задач синтеза и обсуждение, какой из них является более подходящим в условиях априорной неопределенности и соответствует более глубокой степени этой неопределенности, представляются довольно беспочвенными: параметрическое и непараметрическое описания исходных данных задачи просто соответствуют разным видам имеющихся ограниченных априорных знаний и взаимно дополняют друг друга.
Характерной чертой непараметрического случая является использование в той или иной степени эмпирических распределений вероятности вместо истинных и эмпирических средних значений вместо математических ожиданий, подобно тому, как это было сделано в примере 2 § 6.1 при замене апостериорного риска (условного математического ожидания функции потерь) его оценкой - эмпирическим средним значением ожидаемых при данном результате наблюдения потерь. Это обстоятельство приводит к определенным требованиям к объему и составу полной совокупности данных наблюдения х, для того чтобы эмпирическое осреднение приводило к состоятельным оценкам необходимых для отыскания правил решения математических ожиданий (среднего риска, апостериорного риска, минимального значения апостериорного риска и т. д.). Указанная совокупность х должна иметь вполне определенный состав и содержать достаточное для построения таких оценок количество данных наблюдения.
Так, в условиях примера 2 § 6.1 (при неизвестной функции потерь) совершенно необходимо, помимо величин ( ), знать значение принятого при каждом решения и величину потерь от принятия этого решения. В противном случае никакого адаптивного байесова или любого другого правила решения, обладающего хотя бы свойством асимптотической оптимальности, построить невозможно.
В этом отношении непараметрические задачи имеют широкий спектр возможностей: чем больше объем наших сведений (качественного или количественного характера) об аналитических свойствах распределений вероятности х и , и функций потерь, тем менее жесткие требования предъявляются к составу и объему совокупности данных наблюдения и наоборот.
8.4. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СОГЛАСИЯ
В гл. 4 мы уже упоминалиоб обширном классе двухальтернативных задач, связанных с проверкой гипотезы о том, что совокупность наблюдаемых данных подчиняется некоторому заданному распределению вероятности при свободной альтернативе, то есть в предположении, что наряду с выполнением этой гипотезы могут встретиться какие угодно случаи. Там же был рассмотрен пример такой задачи в параметрическом варианте, когда класс возможных распределений вероятности ограничен некоторым параметрическим семейством с совершенно произвольными значениями параметров. При отсутствии такого ограничения задача приобретает дополнительную специфику, связанную с очень большой степенью априорной неопределенности и необходимостью ей непараметрического решения. Правило решения этой задачи, по установившейся терминологии, называется критерием согласия и неоднократно рассматривалось в литературе по математической статистике, являясь классическим примером задачи принятия решения в условиях априорной неопределенности. Покажем, как получить известные и новые непараметрические критерии согласия на основе адаптивного байесова подхода.
Сформулируем более четко постановку задачи. Пусть имеется совокупность независимых наблюдений и функция распределения величины ( ) есть либо , либо , причем функция распределения известна, а функция распределения полностью неизвестна и совершенно произвольна. На основании наблюдения совокупности данных требуется решить, какая из альтернатив имеет место в действительности:
1) - выборка описывается распределением вероятности с функцией распределения ;
2) - выборка не описывается распределением вероятности с функцией распределения , а описывается распределением вероятности с какой-то иной отличной от , функцией распределения .
Обозначим решения, состоящие в принятии первой и второй альтернативы, через и соответственно и определим функцию потерь . Обычно для правильных решений принимаются нулевые потери , а значение потерь от принятия решения (решение о том, что выборка не согласуется с заданной функцией распределения , когда на самом деле совокупность данных описывается функцией распределения , ( )) может быть принято равным произвольной константе, без ограничения общности . Потери от принятия решения о том, что выборка описывается функцией распределения , когда на самом деле она не описывается ей ( ), естественно задать так, чтобы они были малы, если различие между функциями распределения и мало, и увеличивались по мере роста различий между этими функциями распределения, то есть .
Для того чтобы задача имела нетривиальное решение, функционал должен обращаться в нуль при . Это естественное требование соответствует тому очевидному факту, что при потери должны обращаться в нуль, поскольку вторая альтернатива совпадает с первой. В качестве функционала , удовлетворяющего всем перечисленным требованиям, удобно взять ту или иную меру различия в функциональном пространстве функций распределения. Примерами таких мер являются
, (8.4.1)
, (8.4.2)
и т. д.
. (8.4.3)
Зададим также априорные вероятности альтернатив , и введем произвольное рандомизированное правило решения, определив для этого решающую функцию ( - вероятность принять решение , если наблюдаемая совокупность данных есть . Тогда средний риск
(8.4.4)
естественно зависит от неизвестной функции распределения и поэтому также неизвестен.
Предположим на время, что функция распределения известна и равна , то есть речь идет о задаче проверки гипотезы с простой заданной альтернативой . Тогда, применяя обычный байесов подход, получаем нерандомизированное правило решения:
или при . (8.4.5)
Неравенство (8.4.5), определяющее условия принятия решения о том, что выборочные данные согласуются с распределением вероятности, задаваемым функцией распределения , можно переписать в следующем виде:
, (8.4.6)
где - некоторая функция выборочных данных, определяемая при известной левой частью неравенства (8.4.5).
При неизвестной функции распределения в соответствии с общими принципами адаптивного байесова подхода нужно заменить неизвестные нам статистические описания данных наблюдения оценочными значениями, полученными с помощью тех же данных наблюдения. В данном случае нам неизвестны как функция потерь - величина , зависящая от неизвестной функции распределения - так и отношение правдоподобия , входящее в функцию С = С(х) и зависящее от неизвестной плотности вероятности . Состоятельной оценкой функции распределения в предположении, что имеет место вторая альтернатива, является выборочная функция распределения
, (8.4.7)
где
(8.4.8)
а состоятельной оценкой - величина
, (8.4.9)
которая зависит от совокупности имеющихся данных . Нужно отметить, что, используя (8.4.7), мы уже израсходовали все имеющиеся данные наблюдения на оценку функции распределения и функции потерь . Такая политика в отношении распределения имеющейся информации для устранения априорной неопределенности является в данном случае правильной, поскольку все равно без дополнительных предположений о возможном виде функции распределения (то есть ограничения второй альтернативы) никакой состоятельной оценки плотности вероятности и функции правдоподобия, входящей в величину С = С(х), не существует. Лучшее, что можно сделать в этих условиях - заменить в (8.4.6) его состоятельной оценкой из (8.4.9), а - некоторой константой.
В результате приходим к следующему правилу решения, определяющему непараметрический критерий согласия: решение о том, что совокупность данных наблюдения подчиняется распределению с функцией распределения , принимается в том случае, если выполняется неравенство
(8.4.10)
Различным определениям меры различия соответствуют разные критерии согласия: для (8.4.1) получается критерий Колмогорова, для (8.4.2) - критерий w2 Мизеса - Смирнова и т. д. Константа С в (8.4.10) обычно выбирается так, чтобы вероятность принять решение , когда выполняется первая альтернатива ( ), была равна заданной величине.
Правило решения(8.4.10) обладает следующими свойствами асимптотической инвариантности: при распределение вероятности случайной величины в случае, если выборка описывается функцией распределения , не зависит от вида этой функции, то есть получается универсальным для всех , а в случае, если выборка описывается функцией распределения , зависит от истинной величины . Асимптотические свойства критериев согласия (8.4.10) и их поведение при конечных п подробно исследованы в литературе по математической статистике.
Совершенно аналогично можно получить решение некоторых более сложных задач проверки гипотезы со свободной альтернативой. Пусть, например, имеется две совокупности данных наблюдения и и требуется решить, подчиняются ли они одному и тому же распределению вероятности (на этот раз неизвестному) или нет. Если обозначить
, , (8.4.11)
выборочные фикции распределения, построенные по совокупности х и у соответственно, то аналогично (8.4.10) правило решения для этой задачи определяется следующим неравенством:
(8.4.12)
При этом меру обычно задают так, что она удовлетворяет требованиям, вытекающим из обычного определения расстояния, то есть . (Заметим, что функции из (8.4.2), (8.4.3) не отвечают этому свойству.) В частности, для из (8.4.1) получаем известный критерий Смирнова.
Можно еще усложнить постановку задачи с учетом возникающих практических потребностей. Пусть, например, задана некоторая функция , и производятся две независимые серии наблюдений и
Требуется принять решение, связаны ли эти величины заданной функциональной зависимостью, то есть являются ли случайные величины значениями функции от случайного аргумента , с тем же распределением вероятности, что и любая из величин . Осуществим преобразование случайных величин в соответствии с правилом , в результате чего получим совокупность данных . Тогда поставленная задача статистического решения сводится к задаче проверки гипотезы о том, что совокупности и у подчиняются одному и тому же распределению вероятности, а непараметрическое правило ее решения дается неравенством (8.4.12), где
. (8.4.13)
В заключение отметим, что приведенные в этой главе примеры применения адаптивного байесова подхода, несмотря на довольно значительную общность каждого из них, ни в коей мере не исчерпывают даже небольшой доли того громадного множества задач, которое возникает в практических приложениях. Однако читатель получил определенное представление о возможностях применения адаптивного байесова подхода к задачам с непараметрической априорной неопределенностью и сможет применить при необходимости изложенные выше методы.