Анализ непрерывных данных
Л. 13
При работе с непрерывными данными, т. е. когда наблюдаемая случайная величина имеет абсолютно непрерывное распределение, возникают свои специфические задачи и методы их решения. Введём некоторые новые понятия.
1. Порядковые статистики. Пусть – выборка из некоторого абсолютно непрерывного распределения и пусть, как обычно, и – соответственно функция распределения и плотность. величины . Расположив элементы выборки в порядке возрастания их значений, получим вариационный ряд
(1)
элементы которого называются порядковыми статистиками, так что , – второе по величине значение среди , … , Так по выборке определяют новую последовательность (уже зависимых) случайных величин . Найдем их распределения.
Определим сначала для каждого действительного x случайную величину , равную числу элементов выборки , значения которых не превосходят x, т. е.
(2)
где – индикатор события , если имеет место, и 0 в противном случае). Из определения следует, что эта величина имеет биномиальное распределение: , где . Далеее, события и , очевидно, эквивалентны, поэтому
где
– неполная бета-функция. Дифференцируя это равенство по x, получаем, что плотность имеет вид
Порядковые статистики используются для оценивания квантилей распределения . Напомним, что - квантилью распределения называется корень уравнения Выборочной -квантилью называют порядковую статистику , где – целая часть числа .
Ясно, что – это элемент выборки, левее которого находится доля наблюдений, и при этом – порядковая статистика с максимальным номером, обладающая этим свойством. Следовательно, можно рассматривать как статистический аналог характеристики .
Приведем (без доказательства) теорему об асимптотическом поведении выборочных квантилей, которрая дает дополнительное основание рассматривать в качестве оценки -квантили распределения наблюдаемой случайной величины.
Теорема. Если в некоторой окрестности точки плотность непрерывна вместе с производной и , то при
~
Выделим важный частный случай этой теоремы, соответствующий значению . Величина называется медианой распределения , а – выборочной медианой (более строго при четном под медианой выборки понимают точку ). В условиях теоремы
~
Приведенная теорема описывает асимптотическое поведение для больших выборок средних членов вариационного ряда, т.е. порядковых статистики , номера которых удовлетворяют условию при , где . Таким образом, эта теорема утверждает, что для больших выборок из достаточно гладких распределений средние члены вариационного ряда асимптотически нормальны; более того, средними членами вариационного ряда можно оценивать теоретические квантили произвольных уровней , . В частности, из этой теоремы следует, что по вероятности, т. е. выборочные квантили являются состоятельными оценками теоретических квантилей.
2. Эмпирическая функция распределения. Определим теперь функцию равенством . Функция называется эмпирической функцией распределения (э.ф.р.), соответствующей выборке . Функцию распределения наблюдаемой случайной величины в этом контексте называют теоретической функцией распределения. По своему определению э.ф.р. – случайная функция: для каждого значение – случайная величина, приниающая значения , и при этом
(4)
Итак, э.ф.р. (как и вариационный ряд) – сводная характеристика выборки. Для каждой реализации выборки функция однозначно определена и обладает всеми свойствами функции распределения: изменяется от 0 до 1, не убывает и непрерывна справа. При этом она кусочно постоянна и возрастает только в точках последовательности (1). Если все компоненты выборки различны (в последовательности (1) все неравенства строгие, что всегда так, если наблюдаемая случайная величина абсллютно непрерывна), то функция задается, очевидно, соотношениями
т. е. величины всех скачков равны .
В общем случае э.ф.р. можно записать в виде
(5)
где хорошо видна зависимость от выборки .
Э.ф.р. играет фундаментальную роль в математической статистике. Важнейшее её свойство состоит в том, что, как следует из закона больших чисел, функция при увеличении объёма выборки сближается с в каждой точке x:
Более того, из (5) следует, что представляет собой относительную частоту "успеха" в испытаниях Бернулли с вероятностью " успеха" . Но, как показано в § 5,в схеме Бернулли относительная частота "успеха" является оптимальной оценкой для вероятности «успеха».
Следовательно, является оптимальной (н.о.м.д.) и состоятельной оценкой для в каждой точке x.
Можно установить и оценку для отклонения от . Так как (см. (2), (4), (5))
,
то, по неравенству Чебышева, при любом
Если велико, то можно воспользоваться теоремой Муавра-Лапласа, в силу которой
(здесь означает приближенное равенство, – функция распределения стандартного нормального закона и предполагается, что ). Полученная оценка зависит от , но эту зависимость можно устранить (ценой огрубления оценки), заменив величину ее наибольшим возможным значением .
Таким образом, если объём выборки большой, то значение э.ф.р. в каждой точке может служить приближенным значением (оценкой) теоретической функции распределения в этой точке. Функцию поэтому часто называют статистическим аналогом для .
3. Теорема и критерий согласия Колмогорова. В различных
задачах также бывает важно знать поведение абсолютного уклонения
(6)
э.ф.р. от на всей оси. Об этом говорит фундаментальный результат, принадлежащий А. Н. Колмогорову (1933), который позволяет для больших оценивать вероятности заданных отклонений случайной величины от 0.
Теорема Колмогорова. Если функция непрерывна, то при любом фиксированном
(7)
При этом предельное распределение Колмогорова можно с хорошим приближением использовать для практических расчетов уже при .
Теорема Колмогорова позволяет определить границы, в которых с заданной вероятностью находится теоретическая функция распределения , если она неизвестна. Пусть для заданного число определяется уравнением . Тогда из (6) следует, что при
Таким образом, для больших значений с вероятностью, близкой к , значения функции для всех удовлетворяют неравенствам
.
Область на плоскости, определяемая этими нижней и верхней границами, называется асимптотической -доверительной зоной для теоретической функции распределения. Для определения числовых значений при различных можно воспользоваться табулированными значениями функции .
Ещё одно эффективное применение теорема Колмогорова находит при проверке гипотез о законе распределения наблюдений. Так, если по выборке требуется проверить гипотезу , согласно которой функция распределения наблюдаемой непрерывной случайной величины есть заданная функция (т. е. гипотеза – простая), то применяют широко известный критерий согласия Колмогорова, который основывается на тестовой статистике (6). При построении этого критерия исходят из следующего. Поскольку при каждом величина является оптимальной оценкой для и с увеличением объема выборки происходит сближение с , то, по крайней мере при больших , в тех случаях, когда гипотеза истинна, значение не должно существенно отклоняться от нуля. Поэтому, если значение этой статистики превосходит некоторую критическую границу , то гипотезу отклоняют, как ложную, в противном случае считается, что гипотеза не противоречит результатам испыттаний и её принимают, как истинную. Критическая граница выбирается при этом такой, чтобы вероятность отклонить гипотезу , когда она верна, была равна заданному уровню значимости , т. е. чтобы было выполнено условие
Для вычисления этой границы и применяется теорема Колмогорова: из неё следует, что при критическую границу можно полагать равной , где (функция определена в (7)). Действительно, в этом случае
Так, при и при
Таким образом, при заданном уровне значимости число определяют из соотношения и в этом случае правило проверки гипотезы имеет (при ) следующий вид:
гипотеза отклоняется
Следуя этому правилу, можно ошибочно отклонить гипотезу , когда она верна, с вероятностью, приблизительно равной . Это правило и называется критерием согласия Колмогорова.
4. Теорема и критерий однородности Смирнова.Сформулируем
еще один важный результат, принадлежащий Н. В. Смирнову[1] (1944) и раскрывающий другие важные свойства эмпирических функций распределения.
Теорема Смирнова. Пусть и – две эмпирические функции распределения, построенные на основе двух независимых выборок объемов и из одного и того же распределения, и
(8)
Тогда, если теоретическая функция распределения непрерывна, то для любого фиксированного
где функция определена в (7).
Эту теорему обычно используют для проверки предположения (гипотезы) о том, что две выборки получены из одного и того же распределения.
Одной из важных прикладных задач математической статистики является задача проверки однородности статистического материала. Пусть имеются две независимые выборки и , описывающие один и тот же процесс, явление и т.д., но полученные в разное время или, вообще говоря, в разных условиях; требуется установить, являются ли они выборками из одного и того же распределения или же закон распределения наблюдений от выборки к выборке менялся. Такая задача может возникнуть, например, при контроле качества некоторой продукции, когда по контрольным выборкам из различных партий надо установить, не менялось ли ее качество от смены к смене или в результате изменения технологического процесса, и т.д.
В общем виде задачу можно сформулировать следующим образом. Пусть – выборка из распределения с некоторой (неизвестной) функцией распределения , a – выборка из распределения с неизвестной функцией распределения . Требуется проверить гипотезу однородности .
Одним из критериев проверки гипотезы однородности является критерий Смирнова, который применяют в случае непрерывных распределений. Этот критерий основан на статистике , где и – эмпирические функции распределения, построенные по выборкам и соответственно. Эмпирическая функция распределения является оптимальной оценкой для теоретической функции распределения, и с увеличением объема выборки они сближаются, поэтому в случаях, когда справедлива гипотеза , функции и оценивают одну и ту же неизвестную функцию распределения. Таким образом, в этих случаях (по крайней мере при больших и ) статистика не должна существенно отклоняться от нуля. Если наблюдаются слишком большие значения этой статистики, то этот факт следует расценивать как свидетельство против нулевой гипотезы . Следовательно, в данном случае разумно следовать такому правилу принятия решения:
гипотеза отклоняется
Критическую границу при заданном уровне значимости находят при этом на основании теоремы Смирнова. По этой теореме при больших и можно положить , где (функция определена в (7)). Действительно, в этом случае
Таким образом, критерий однородности Смирнова имеет следующий вид:
если объемы выборок достаточно велики, то, вычислив по выборочным данным значение статистики принимают решение отвергнуть гипотезу в том и только в том случае когда
Вероятность ошибочно отвергнуть при этом истинную гипотезу приблизительно равна .
Указанное правило проверки неизменности функции распределения не зависит от конкретного вида функции. Для приложений это имеет важное значение, так как истинное распределение наблюдаемой случайной величины, как правило, бывает неизвестно, а интерес представляет вопрос о том, не изменялось ли неизвестное распределение от выборки к выборке. Для применения критерия Смирнова необходимо выполнение только условия непрерывности, которое обычно вытекает из физической природы изучаемого явления и не требует специальной проверки.
Замечание. Если данные имеют дискретную структуру, т. е. наблюдается случайная величина, принимающая конечное число различных значений, то для проверки однородности таких данных применяется критерий однородности . Кроме того, с помощью этого метода можно анализировать одновременно любое конечное число выборок.
Итак, предположим, что осуществлено последовательных серий независимых наблюдений, состоящих из наблюдений соответственно. При этом в каждом опыте наблюдается некоторый переменный признак, принимающий одно из различных значений (исходов). Пусть – число реализаций -го исхода в -й серии, так что
Требуется проверить гипотезу о том, что все наблюдения производились над одной и той же случайной величиной. Если обозначить через (неизвестную) вероятность появления -го исхода в испытаниях -й серии ; ), то гипотеза означает утверждение: . , где – некоторый (неизвестный) вектор вероятностей .
В таком случае строится статистика
Вероятность ошибочно отклонить при этом истинную гипотезу приблизительно равна , если достаточно велико.
Выделим два важных частных случая общей ситуации. Случай соответствует испытаниям с двумя исходами и , а гипотеза однородности представляет собой утверждение, что событие имеет во всех испытаниях одну и ту же постоянную (хотя и неизвестную) вероятность реализации . В этом случае статистика критерия принимает вид
Для случая двух выборок тестовая статистика принимает следующий вид:
[1] Смирнов Николай Васильевич (1900 – 1966) – советский математик, крупнейший специалист по теории вероятностей и математической статистике.