Анализ непрерывных данных

Л. 13

При работе с непрерывными данными, т. е. когда наблюдаемая случайная величина имеет абсолютно непрерывное распределение, возникают свои специфические задачи и методы их решения. Введём некоторые новые понятия.

1. Порядковые статистики. Пусть Анализ непрерывных данных - student2.ru – выборка из некоторого абсолютно непрерывного распределения Анализ непрерывных данных - student2.ru и пусть, как обычно, Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru – соответственно функция распределения и плотность. величины Анализ непрерывных данных - student2.ru . Расположив элементы выборки в порядке возрастания их значений, получим вариационный ряд

Анализ непрерывных данных - student2.ru (1)

элементы которого называются порядковыми статистиками, так что Анализ непрерывных данных - student2.ru , Анализ непрерывных данных - student2.ru – второе по величине значение среди Анализ непрерывных данных - student2.ru , … , Анализ непрерывных данных - student2.ru Так по выборке Анализ непрерывных данных - student2.ru определяют новую последовательность (уже зависимых) случайных величин Анализ непрерывных данных - student2.ru . Найдем их распределения.

Определим сначала для каждого действительного x случайную величину Анализ непрерывных данных - student2.ru , равную числу элементов выборки Анализ непрерывных данных - student2.ru , значения которых не превосходят x, т. е.

Анализ непрерывных данных - student2.ru (2)

где Анализ непрерывных данных - student2.ru – индикатор события Анализ непрерывных данных - student2.ru , если Анализ непрерывных данных - student2.ru имеет место, и 0 в противном случае). Из определения Анализ непрерывных данных - student2.ru следует, что эта величина имеет биномиальное распределение: Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru . Далеее, события Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru , очевидно, эквивалентны, поэтому

Анализ непрерывных данных - student2.ru Анализ непрерывных данных - student2.ru

где

Анализ непрерывных данных - student2.ru

– неполная бета-функция. Дифференцируя это равенство по x, получаем, что плотность Анализ непрерывных данных - student2.ru имеет вид

Анализ непрерывных данных - student2.ru

Порядковые статистики используются для оценивания квантилей распределения Анализ непрерывных данных - student2.ru . Напомним, что Анализ непрерывных данных - student2.ru - квантилью Анализ непрерывных данных - student2.ru распределения Анализ непрерывных данных - student2.ru называется корень уравнения Анализ непрерывных данных - student2.ru Выборочной Анализ непрерывных данных - student2.ru -квантилью Анализ непрерывных данных - student2.ru называют порядковую статистику Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru – целая часть числа Анализ непрерывных данных - student2.ru .

Ясно, что Анализ непрерывных данных - student2.ru – это элемент выборки, левее которого находится доля Анализ непрерывных данных - student2.ru наблюдений, и при этом Анализ непрерывных данных - student2.ru – порядковая статистика с максимальным номером, обладающая этим свойством. Следовательно, Анализ непрерывных данных - student2.ru можно рассматривать как статистический аналог характеристики Анализ непрерывных данных - student2.ru .

Приведем (без доказательства) теорему об асимптотическом поведении выборочных квантилей, которрая дает дополнительное основание рассматривать Анализ непрерывных данных - student2.ru в качестве оценки Анализ непрерывных данных - student2.ru -квантили распределения наблюдаемой случайной величины.

Теорема. Если в некоторой окрестности точки Анализ непрерывных данных - student2.ru плотность Анализ непрерывных данных - student2.ru непрерывна вместе с производной и Анализ непрерывных данных - student2.ru , то при Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru Анализ непрерывных данных - student2.ru ~ Анализ непрерывных данных - student2.ru

Выделим важный частный случай этой теоремы, соответствующий значению Анализ непрерывных данных - student2.ru . Величина Анализ непрерывных данных - student2.ru называется медианой распределения Анализ непрерывных данных - student2.ru Анализ непрерывных данных - student2.ru , а Анализ непрерывных данных - student2.ru – выборочной медианой (более строго при четном Анализ непрерывных данных - student2.ru под медианой выборки понимают точку Анализ непрерывных данных - student2.ru ). В условиях теоремы

Анализ непрерывных данных - student2.ru Анализ непрерывных данных - student2.ru ~ Анализ непрерывных данных - student2.ru

Приведенная теорема описывает асимптотическое поведение для больших выборок средних членов вариационного ряда, т.е. порядковых статистики Анализ непрерывных данных - student2.ru , номера которых удовлетворяют условию Анализ непрерывных данных - student2.ru при Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru . Таким образом, эта теорема утверждает, что для больших выборок из достаточно гладких распределений средние члены вариационного ряда асимптотически нормальны; более того, средними членами вариационного ряда можно оценивать теоретические квантили произвольных уровней Анализ непрерывных данных - student2.ru , Анализ непрерывных данных - student2.ru . В частности, из этой теоремы следует, что Анализ непрерывных данных - student2.ru по вероятности, т. е. выборочные квантили являются состоятельными оценками теоретических квантилей.

2. Эмпирическая функция распределения. Определим теперь функцию Анализ непрерывных данных - student2.ru равенством Анализ непрерывных данных - student2.ru . Функция Анализ непрерывных данных - student2.ru называется эмпирической функцией распределения (э.ф.р.), соответствующей выборке Анализ непрерывных данных - student2.ru . Функцию распределения Анализ непрерывных данных - student2.ru наблюдаемой случайной величины Анализ непрерывных данных - student2.ru в этом контексте называют теоретической функцией распределения. По своему определению э.ф.р. – случайная функция: для каждого Анализ непрерывных данных - student2.ru значение Анализ непрерывных данных - student2.ru – случайная величина, приниающая значения Анализ непрерывных данных - student2.ru , и при этом

Анализ непрерывных данных - student2.ru (4)

Итак, э.ф.р. (как и вариационный ряд) – сводная характеристика выборки. Для каждой реализации выборки Анализ непрерывных данных - student2.ru функция Анализ непрерывных данных - student2.ru однозначно определена и обладает всеми свойствами функции распределения: изменяется от 0 до 1, не убывает и непрерывна справа. При этом она кусочно постоянна и возрастает только в точках последовательности (1). Если все компоненты выборки различны (в последовательности (1) все неравенства строгие, что всегда так, если наблюдаемая случайная величина абсллютно непрерывна), то функция Анализ непрерывных данных - student2.ru задается, очевидно, соотношениями

Анализ непрерывных данных - student2.ru

т. е. величины всех скачков равны Анализ непрерывных данных - student2.ru .

В общем случае э.ф.р. можно записать в виде

Анализ непрерывных данных - student2.ru (5)

где хорошо видна зависимость Анализ непрерывных данных - student2.ru от выборки Анализ непрерывных данных - student2.ru .

Э.ф.р. играет фундаментальную роль в математической статистике. Важнейшее её свойство состоит в том, что, как следует из закона больших чисел, функция Анализ непрерывных данных - student2.ru при увеличении объёма выборки сближается с Анализ непрерывных данных - student2.ru в каждой точке x:

Анализ непрерывных данных - student2.ru

Более того, из (5) следует, что Анализ непрерывных данных - student2.ru представляет собой относительную частоту "успеха" Анализ непрерывных данных - student2.ru в Анализ непрерывных данных - student2.ru испытаниях Бернулли с вероятностью " успеха" Анализ непрерывных данных - student2.ru . Но, как показано в § 5,в схеме Бернулли относительная частота "успеха" является оптимальной оценкой для вероятности «успеха».

Следовательно, Анализ непрерывных данных - student2.ru является оптимальной (н.о.м.д.) и состоятельной оценкой для Анализ непрерывных данных - student2.ru в каждой точке x.

Можно установить и оценку для отклонения Анализ непрерывных данных - student2.ru от Анализ непрерывных данных - student2.ru . Так как (см. (2), (4), (5))

Анализ непрерывных данных - student2.ru ,

Анализ непрерывных данных - student2.ru

то, по неравенству Чебышева, при любом Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru

Если Анализ непрерывных данных - student2.ru велико, то можно воспользоваться теоремой Муавра-Лапласа, в силу которой

Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru

(здесь Анализ непрерывных данных - student2.ru означает приближенное равенство, Анализ непрерывных данных - student2.ru – функция распределения стандартного нормального закона Анализ непрерывных данных - student2.ru и предполагается, что Анализ непрерывных данных - student2.ru ). Полученная оценка зависит от Анализ непрерывных данных - student2.ru , но эту зависимость можно устранить (ценой огрубления оценки), заменив величину Анализ непрерывных данных - student2.ru ее наибольшим возможным значением Анализ непрерывных данных - student2.ru .

Таким образом, если объём выборки большой, то значение э.ф.р. в каждой точке Анализ непрерывных данных - student2.ru может служить приближенным значением (оценкой) теоретической функции распределения в этой точке. Функцию Анализ непрерывных данных - student2.ru поэтому часто называют статистическим аналогом для Анализ непрерывных данных - student2.ru .

3. Теорема и критерий согласия Колмогорова. В различных

задачах также бывает важно знать поведение абсолютного уклонения

Анализ непрерывных данных - student2.ru (6)

э.ф.р. Анализ непрерывных данных - student2.ru от Анализ непрерывных данных - student2.ru на всей оси. Об этом говорит фундаментальный результат, принадлежащий А. Н. Колмогорову (1933), который позволяет для больших Анализ непрерывных данных - student2.ru оценивать вероятности заданных отклонений случайной величины Анализ непрерывных данных - student2.ru от 0.

Теорема Колмогорова. Если функция Анализ непрерывных данных - student2.ru непрерывна, то при любом фиксированном Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru (7)

При этом предельное распределение Колмогорова Анализ непрерывных данных - student2.ru можно с хорошим приближением использовать для практических расчетов уже при Анализ непрерывных данных - student2.ru .

Теорема Колмогорова позволяет определить границы, в которых с заданной вероятностью находится теоретическая функция распределения Анализ непрерывных данных - student2.ru , если она неизвестна. Пусть для заданного Анализ непрерывных данных - student2.ru число Анализ непрерывных данных - student2.ru определяется уравнением Анализ непрерывных данных - student2.ru . Тогда из (6) следует, что при Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru

Таким образом, для больших значений Анализ непрерывных данных - student2.ru с вероятностью, близкой к Анализ непрерывных данных - student2.ru , значения функции Анализ непрерывных данных - student2.ru для всех Анализ непрерывных данных - student2.ru удовлетворяют неравенствам

Анализ непрерывных данных - student2.ru .

Область на плоскости, определяемая этими нижней и верхней границами, называется асимптотической Анализ непрерывных данных - student2.ru -доверительной зоной для теоретической функции распределения. Для определения числовых значений Анализ непрерывных данных - student2.ru при различных Анализ непрерывных данных - student2.ru можно воспользоваться табулированными значениями функции Анализ непрерывных данных - student2.ru .

Ещё одно эффективное применение теорема Колмогорова находит при проверке гипотез о законе распределения наблюдений. Так, если по выборке Анализ непрерывных данных - student2.ru требуется проверить гипотезу Анализ непрерывных данных - student2.ru , согласно которой функция распределения наблюдаемой непрерывной случайной величины Анализ непрерывных данных - student2.ru есть заданная функция Анализ непрерывных данных - student2.ru (т. е. гипотеза Анализ непрерывных данных - student2.ru – простая), то применяют широко известный критерий согласия Колмогорова, который основывается на тестовой статистике (6). При построении этого критерия исходят из следующего. Поскольку при каждом Анализ непрерывных данных - student2.ru величина Анализ непрерывных данных - student2.ru является оптимальной оценкой для Анализ непрерывных данных - student2.ru и с увеличением объема выборки Анализ непрерывных данных - student2.ru происходит сближение Анализ непрерывных данных - student2.ru с Анализ непрерывных данных - student2.ru , то, по крайней мере при больших Анализ непрерывных данных - student2.ru , в тех случаях, когда гипотеза Анализ непрерывных данных - student2.ru истинна, значение Анализ непрерывных данных - student2.ru не должно существенно отклоняться от нуля. Поэтому, если значение этой статистики превосходит некоторую критическую границу Анализ непрерывных данных - student2.ru , то гипотезу Анализ непрерывных данных - student2.ru отклоняют, как ложную, в противном случае считается, что гипотеза не противоречит результатам испыттаний и её принимают, как истинную. Критическая граница Анализ непрерывных данных - student2.ru выбирается при этом такой, чтобы вероятность отклонить гипотезу Анализ непрерывных данных - student2.ru , когда она верна, была равна заданному уровню значимости Анализ непрерывных данных - student2.ru , т. е. чтобы было выполнено условие

Анализ непрерывных данных - student2.ru

Для вычисления этой границы и применяется теорема Колмогорова: из неё следует, что при Анализ непрерывных данных - student2.ru критическую границу Анализ непрерывных данных - student2.ru можно полагать равной Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru (функция Анализ непрерывных данных - student2.ru определена в (7)). Действительно, в этом случае

Анализ непрерывных данных - student2.ru

Так, Анализ непрерывных данных - student2.ru при Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru при Анализ непрерывных данных - student2.ru

Таким образом, при заданном уровне значимости Анализ непрерывных данных - student2.ru число Анализ непрерывных данных - student2.ru определяют из соотношения Анализ непрерывных данных - student2.ru и в этом случае правило проверки гипотезы Анализ непрерывных данных - student2.ru имеет (при Анализ непрерывных данных - student2.ru ) следующий вид:

гипотеза Анализ непрерывных данных - student2.ru отклоняется Анализ непрерывных данных - student2.ru

Следуя этому правилу, можно ошибочно отклонить гипотезу Анализ непрерывных данных - student2.ru , когда она верна, с вероятностью, приблизительно равной Анализ непрерывных данных - student2.ru . Это правило и называется критерием согласия Колмогорова.

4. Теорема и критерий однородности Смирнова.Сформулируем

еще один важный результат, принадлежащий Н. В. Смирнову[1] (1944) и раскрывающий другие важные свойства эмпирических функций распределения.

Теорема Смирнова. Пусть Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru – две эмпирические функции распределения, построенные на основе двух независимых выборок объемов Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru из одного и того же распределения, и

Анализ непрерывных данных - student2.ru (8)

Тогда, если теоретическая функция распределения Анализ непрерывных данных - student2.ru непрерывна, то для любого фиксированного Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru

где функция Анализ непрерывных данных - student2.ru определена в (7).

Эту теорему обычно используют для проверки предположения (гипотезы) о том, что две выборки получены из одного и того же распределения.

Одной из важных прикладных задач математической статистики является задача проверки однородности статистического материала. Пусть имеются две независимые выборки Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru , описывающие один и тот же процесс, явление и т.д., но полученные в разное время или, вообще говоря, в разных условиях; требуется установить, являются ли они выборками из одного и того же распределения или же закон распределения наблюдений от выборки к выборке менялся. Такая задача может возникнуть, например, при контроле качества некоторой продукции, когда по контрольным выборкам из различных партий надо установить, не менялось ли ее качество от смены к смене или в результате изменения технологического процесса, и т.д.

В общем виде задачу можно сформулировать следующим образом. Пусть Анализ непрерывных данных - student2.ru – выборка из распределения Анализ непрерывных данных - student2.ru с некоторой (неизвестной) функцией распределения Анализ непрерывных данных - student2.ru , a Анализ непрерывных данных - student2.ru – выборка из распределения Анализ непрерывных данных - student2.ru с неизвестной функцией распределения Анализ непрерывных данных - student2.ru . Требуется проверить гипотезу однородности Анализ непрерывных данных - student2.ru .

Одним из критериев проверки гипотезы однородности является критерий Смирнова, который применяют в случае непрерывных распределений. Этот критерий основан на статистике Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru – эмпирические функции распределения, построенные по выборкам Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru соответственно. Эмпирическая функция распределения является оптимальной оценкой для теоретической функции распределения, и с увеличением объема выборки они сближаются, поэтому в случаях, когда справедлива гипотеза Анализ непрерывных данных - student2.ru , функции Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru оценивают одну и ту же неизвестную функцию распределения. Таким образом, в этих случаях (по крайней мере при больших Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru ) статистика Анализ непрерывных данных - student2.ru не должна существенно отклоняться от нуля. Если наблюдаются слишком большие значения этой статистики, то этот факт следует расценивать как свидетельство против нулевой гипотезы Анализ непрерывных данных - student2.ru . Следовательно, в данном случае разумно следовать такому правилу принятия решения:

гипотеза Анализ непрерывных данных - student2.ru отклоняется Анализ непрерывных данных - student2.ru

Критическую границу Анализ непрерывных данных - student2.ru при заданном уровне значимости Анализ непрерывных данных - student2.ru находят при этом на основании теоремы Смирнова. По этой теореме при больших Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru можно положить Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru (функция Анализ непрерывных данных - student2.ru определена в (7)). Действительно, в этом случае

Анализ непрерывных данных - student2.ru

Таким образом, критерий однородности Смирнова имеет следующий вид:

если объемы выборок достаточно велики, то, вычислив по выборочным данным значение статистики Анализ непрерывных данных - student2.ru принимают решение отвергнуть гипотезу Анализ непрерывных данных - student2.ru в том и только в том случае когда Анализ непрерывных данных - student2.ru

Вероятность ошибочно отвергнуть при этом истинную гипотезу приблизительно равна Анализ непрерывных данных - student2.ru .

Указанное правило проверки неизменности функции распределения не зависит от конкретного вида функции. Для приложений это имеет важное значение, так как истинное распределение наблюдаемой случайной величины, как правило, бывает неизвестно, а интерес представляет вопрос о том, не изменялось ли неизвестное распределение от выборки к выборке. Для применения критерия Смирнова необходимо выполнение только условия непрерывности, которое обычно вытекает из физической природы изучаемого явления и не требует специальной проверки.

Замечание. Если данные имеют дискретную структуру, т. е. наблюдается случайная величина, принимающая конечное число различных значений, то для проверки однородности таких данных применяется критерий однородности Анализ непрерывных данных - student2.ru . Кроме того, с помощью этого метода можно анализировать одновременно любое конечное число выборок.

Итак, предположим, что осуществлено Анализ непрерывных данных - student2.ru последовательных серий независимых наблюдений, состоящих из Анализ непрерывных данных - student2.ru наблюдений соответственно. При этом в каждом опыте наблюдается некоторый переменный признак, принимающий одно из Анализ непрерывных данных - student2.ru различных значений (исходов). Пусть Анализ непрерывных данных - student2.ru – число реализаций Анализ непрерывных данных - student2.ru -го исхода в Анализ непрерывных данных - student2.ru -й серии, так что

Анализ непрерывных данных - student2.ru

Требуется проверить гипотезу Анализ непрерывных данных - student2.ru о том, что все наблюдения производились над одной и той же случайной величиной. Если обозначить через Анализ непрерывных данных - student2.ru (неизвестную) вероятность появления Анализ непрерывных данных - student2.ru -го исхода в испытаниях Анализ непрерывных данных - student2.ru -й серии Анализ непрерывных данных - student2.ru ; Анализ непрерывных данных - student2.ru ), то гипотеза Анализ непрерывных данных - student2.ru означает утверждение: Анализ непрерывных данных - student2.ru . Анализ непрерывных данных - student2.ru , где Анализ непрерывных данных - student2.ru – некоторый (неизвестный) вектор вероятностей Анализ непрерывных данных - student2.ru .

В таком случае строится статистика

Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru

Анализ непрерывных данных - student2.ru

Вероятность ошибочно отклонить при этом истинную гипотезу приблизительно равна Анализ непрерывных данных - student2.ru , если Анализ непрерывных данных - student2.ru достаточно велико.

Выделим два важных частных случая общей ситуации. Случай Анализ непрерывных данных - student2.ru соответствует испытаниям с двумя исходами Анализ непрерывных данных - student2.ru и Анализ непрерывных данных - student2.ru , а гипотеза однородности представляет собой утверждение, что событие Анализ непрерывных данных - student2.ru имеет во всех испытаниях одну и ту же постоянную (хотя и неизвестную) вероятность реализации Анализ непрерывных данных - student2.ru . В этом случае статистика критерия принимает вид

Анализ непрерывных данных - student2.ru

Для случая двух выборок Анализ непрерывных данных - student2.ru тестовая статистика принимает следующий вид:

Анализ непрерывных данных - student2.ru

[1] Смирнов Николай Васильевич (1900 – 1966) – советский математик, крупнейший специалист по теории вероятностей и математической статистике.

Наши рекомендации