Глава 2. статистические критерии

ЧАСТЬ 2. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ

ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика выделяется из теории вероятностей в самостоятельную область, хотя основные методы и приёмы рассуждений в ней остаются теми же самыми. Причиной этого является специфичность задач математической статистики, являющихся в известной степени обратными к задачам теории вероятностей. Если в теории вероятностей мы считаем заданной модель явления и производим расчёт возможного реального течения этого явления, то в математической статистике мы исходим из известных реализаций каких-либо случайных событий, из так называемых статистических данных, которые обычно носят числовой характер. Математическая статистика разрабатывает различные методы, которые позволяют по этим статистическим данным подобрать подходящую теоретико-вероятностную модель. Например, пусть имеется n независимых наблюдений в схеме Бернулли и пусть в m из них произошло событие A. Одна из задач математической статистики: как по m осуществлениям события A в n независимых испытаниях определить вероятность p=Р(А).

Перечислим те основные задачи, которые решает математическая статистика, на примере схемы Бернулли.

А) Проверка статистических гипотез.

Из каких-либо априорных соображений мы можем предполагать, что p=p0, где p0 – некоторое фиксированное значение. По относительной частоте m/n мы должны решить справедлива гипотеза p=p0 или нет. Поскольку при больших n относительная частота m/n близка к p, то статистический критерий по проверке гипотезы p=p0 должен основываться на значении модуля разности |m/n - p0|. Если она большая, то, по-видимому, гипотеза неверна, если же она мала, то у нас нет оснований отвергать гипотезу p=p0.

Б) Статистическое оценивание неизвестных параметров. Иногда нам требуется по наблюдаемому m указать то число p*, которое можно принять за вероятность p в схеме Бернулли. В нашем примере естественно взять p*= m/n. Оценка должна быть в том или ином смысле близкой к оцениваемому параметру.

В) Доверительные интервалы. Иногда нас интересует не точное значение неизвестного параметра p, а требуется указать тот интервал p-£ p£ p+, в котором с вероятностью, близкой к единице, лежит параметр p. Такой интервал (p-(m), p+(m)), концы которого случайны и зависят от наблюдаемого значения m, называется доверительным интервалом.

ВЫБОРОЧНЫЙ МЕТОД

Терминология многих статистических задач связана со следующей схемой. Пусть имеется урна с карточками, на которых нанесены числа X1, X2,…, XN . Из урны случайно выбираются n карточек с числами x1, x2,…, xn. Полученный набор чисел

x1, x2,…, xn (1.1)

называется выборкой объема n из генеральной совокупности

X1, X2,…, XN . (1.2)

Выборка может быть без возвращения, когда каждое подмножество {Xi1,…, Xin} мощности n из всего множества (1.2) появляется с вероятностью глава 2. статистические критерии - student2.ru , и с возвращением, когда каждый упорядоченный набор {Xi1,…, Xin}, где могут быть повторения появляется с вероятностью глава 2. статистические критерии - student2.ru . Нетрудно видеть, что в случае выборки с возвращением x1, x2,…, xn являются независимыми случайными величинами с законом распределения случайной величины x, которая с одной и той же вероятностью 1/N принимает каждое из значений (2), если все Xj различны:

глава 2. статистические критерии - student2.ru

В этом случае говорим, что (1.1) есть независимая выборка объёма n, или независимая реализация объёма n случайной величины (СВ) x.

Упорядочивая выборку (1.1) по возрастанию, мы получаем вариационный ряд x(1), x(2),…, x(n).

С любой выборкой (1.1) можно связать эмпирическое, или выборочное распределение, приписывая каждому значению xi вероятность 1/n. Эмпирической (или выборочной) функцией распределения будет F*(x)= nx/n, где nx – число выборочных значений, расположенных на оси абсцисс левее или равных x.

Поскольку выборка (1.1) случайна, то эмпирическая функция распределения при каждом есть случайная величина x.

Для каждой конкретной выборки эмпирическая функция распределения будет своей, но все возможные эмпирические функции распределения одной и той же случайной выборки будут иметь нечто общее, что является информацией о функции распределения генеральной совокупности.

Можно доказать (теорема Гливенко), что с вероятностью 1 при глава 2. статистические критерии - student2.ru максимальная разница между эмпирической и генеральной функциями распределения F*(x) и глава 2. статистические критерии - student2.ru стремится к 0:

глава 2. статистические критерии - student2.ru

Практически это означает, что при достаточно большой выборке, функцию распределения генеральной совокупности можно приближенно заменять выборочной функцией распределения.

Пусть глава 2. статистические критерии - student2.ru – упорядоченная по величине выборка из генеральной последовательности (вариационный ряд).

глава 2. статистические критерии - student2.ru Все элементы независимой выборки имеют одинаковую вероятность, равную глава 2. статистические критерии - student2.ru Поэтому, согласно определению функции F*(x), имеем глава 2. статистические критерии - student2.ru , при глава 2. статистические критерии - student2.ru ; глава 2. статистические критерии - student2.ru при глава 2. статистические критерии - student2.ru , глава 2. статистические критерии - student2.ru ; глава 2. статистические критерии - student2.ru , при глава 2. статистические критерии - student2.ru . На рис.1 приведен график F*(x). Элементы выборки оказываются точками разрыва этой функции. В точке разрыва глава 2. статистические критерии - student2.ru функция F*(x) скачком переходит от значения глава 2. статистические критерии - student2.ru (в интервале глава 2. статистические критерии - student2.ru ) к значению глава 2. статистические критерии - student2.ru , удерживая это значение в следующем интервале, то есть F*(x) непрерывна справа.

Рис. 1.

При обработке выборок больших объемов используют метод “сгруппированных данных”: выборка объема глава 2. статистические критерии - student2.ru преобразуется в статистический ряд. Для этого весь диапазон изменения выборочных значений глава 2. статистические критерии - student2.ru делится на глава 2. статистические критерии - student2.ru равных интервалов. Число интервалов можно выбрать по полуэмпирической формуле глава 2. статистические критерии - student2.ru с округлением до ближайшего целого. Длина интервала глава 2. статистические критерии - student2.ru равна глава 2. статистические критерии - student2.ru / k.

Число элементов выборки попавших в глава 2. статистические критерии - student2.ru -й интервал, обозначим через глава 2. статистические критерии - student2.ru . Величина, равная

глава 2. статистические критерии - student2.ru ,

определяет относительную частоту попадания выборочных значений в глава 2. статистические критерии - student2.ru -й интервал. Все точки, попавшие в глава 2. статистические критерии - student2.ru -й интервал, относят к его середине глава 2. статистические критерии - student2.ru : глава 2. статистические критерии - student2.ru .

глава 2. статистические критерии - student2.ru Статистический ряд записывается в виде таблицы. График, построенный по данным таблицы, называется гистограммой эмпирического или выборочного распределения (рис.2).

Рис.2 Гистограмма

Математическое ожидание (среднее), дисперсия, моменты эмпирического распределения также будут случайными величинами и будут называться соответственно эмпирическими (или выборочными) математическим ожиданием (средним), дисперсиями, моментами.

Таким образом, выборочное среднее есть среднее арифметическое элементов выборки:

глава 2. статистические критерии - student2.ru , (1.3)

и выборочная дисперсия равна

глава 2. статистические критерии - student2.ru (1.4)

Выборочные моменты и центральные моменты порядка r определяются выражениями:

глава 2. статистические критерии - student2.ru , глава 2. статистические критерии - student2.ru

“Выборочная” терминология сохраняется и в том случае, когда генеральная совокупность (1.2) не состоит из конечного числа элементов N, а просто есть некоторый генератор независимых случайных величин xi с каким-то законом распределения.

Такой идеализацией в математической статистике пользуются или при очень больших N, (например, при статистических обследованиях в демографии, экономике, социологии), или в том случае, когда элементы выборки (1.1) можно получать какой-то однородной процедурой любое число раз (например, результаты измерений, размер деталей при масовом их изготовлении).

В математической статистике случайные величины часто обозначаются буквами xi, yi и т.д., соответствующими обозначениям элементов выборки.

В дальнейшем мы будем в основном заниматься независимыми выборками. Относительно бесповторной выборки докажем лишь следующую теорему. Обозначим через

глава 2. статистические критерии - student2.ru , глава 2. статистические критерии - student2.ru

среднее и дисперсию генеральной совокупности (1.2).

Теорема 1. Эмпирическое среднее глава 2. статистические критерии - student2.ru бесповторной выборки (1.1) имеет следующее математическое ожидание и дисперсию:

глава 2. статистические критерии - student2.ru , глава 2. статистические критерии - student2.ru . (1.5)

Доказательство.

Воспользуемся формулами

глава 2. статистические критерии - student2.ru , глава 2. статистические критерии - student2.ru . (1.6)

Вычислим Mxi, Dxi, cov(xi, xj). Поскольку для вычисления нам нужны лишь двумерные распределения xi, xj, рассмотрим конечное вероятностное пространство (W, F, P), где элементарные события w=(k, l), 1£ k ¹ l £ N, и элементарные вероятности p(w)=1/[N(N-1)]. Случайные величины xi, xj определим равенствами:

xi(k, l) = Xk, xj(k, l) = Xl.

Тогда

глава 2. статистические критерии - student2.ru , глава 2. статистические критерии - student2.ru

и при i ¹ j

глава 2. статистические критерии - student2.ru

глава 2. статистические критерии - student2.ru

Подставляя найденные значения в (1.6), получаем формулы (1.5).

Замечание. Для выборки с возвращением дисперсия глава 2. статистические критерии - student2.ru равна глава 2. статистические критерии - student2.ru . По неравенству Чебышевапри N ³ n ® ¥ мы получаем глава 2. статистические критерии - student2.ru как в случае выборки с возвращением, так и в случае выборки без возвращения.

ГЛАВА 2. СТАТИСТИЧЕСКИЕ КРИТЕРИИ

СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ

Пусть случайная величина x или случайный вектор x=(x1,…,xn) имеет плотность p(x,J), зависящую от параметра J, одномерного или многомерного, принимающего значения из некоторого множества X. В частности, если p(x,J) – одномерная плотность и независимая выборка (1.1) получена из распределения с этой плотностью, то n-мерная плотность, соответствующая выборке (1.1), равна произведению

p(x1,J)p(x2,J)… p(xn,J).

Хотя мы будем говорить о p(x,J) как о плотности, всё сказанное с очевидными видоизменениями будет применимо и к дискретным случайным величинам с законом распределения p(x,J) = P{x = x}, где x принимает счётное или конечное число значений.

Значение параметра J вполне определяет плотность p(x,J). Те или иные предположения о значениях параметра J мы будем называть статистическими гипотезами.

Статистическая гипотеза называется простой, если она состоит в предположении, что J=J0, где J0 – некоторое фиксированное значение. Если же наше предположение заключается в том, что J Î X0, где X0 Ì X - подмножество множества параметров X, состоящее более чем из одной точки, то мы говорим о сложной гипотезе.

Пример 1. Пусть глава 2. статистические критерии - student2.ru - плотность нормального распределения, зависящая от двумерного параметра глава 2. статистические критерии - student2.ru . Гипотеза глава 2. статистические критерии - student2.ru = глава 2. статистические критерии - student2.ru является простой, а гипотеза глава 2. статистические критерии - student2.ru , где глава 2. статистические критерии - student2.ru фиксировано - сложной.

Пример 2. Пусть глава 2. статистические критерии - student2.ru - вероятность глава 2. статистические критерии - student2.ru успехов в схеме Бернулли с глава 2. статистические критерии - student2.ru независимыми испытаниями. Примером простой гипотезы служит глава 2. статистические критерии - student2.ru , а примером сложной глава 2. статистические критерии - student2.ru .

Задача проверки статистических гипотез ставится следующим образом. Известно, что выборка (1.1) получена из распределения, имеющего плотность вида глава 2. статистические критерии - student2.ru . Относительно параметра глава 2. статистические критерии - student2.ru имеется некоторая основная, или проверяемая, гипотеза глава 2. статистические критерии - student2.ru : глава 2. статистические критерии - student2.ru . Мы должны построить такой статистический критерий, который позволяет нам заключить, согласуется ли выборка (1.1) с гипотезой глава 2. статистические критерии - student2.ru или нет. Обычно критерий строится при помощи критического множества. Из множества глава 2. статистические критерии - student2.ru всех возможных значений выборки (1.1) выделяется подмножество глава 2. статистические критерии - student2.ru , называемое критическое, что при глава 2. статистические критерии - student2.ru гипотеза глава 2. статистические критерии - student2.ru отвергается, а в остальных случаях она принимается.

Критическое множество глава 2. статистические критерии - student2.ru выбирается таким образом, чтобы вероятность

глава 2. статистические критерии - student2.ru

выборке глава 2. статистические критерии - student2.ru попасть в глава 2. статистические критерии - student2.ru (когда гипотеза глава 2. статистические критерии - student2.ru верна) была мала.

Получаемый с помощью критического множества глава 2. статистические критерии - student2.ru статистический критерий называют иногда глава 2. статистические критерии - student2.ru -критерием. Естественно, что множество глава 2. статистические критерии - student2.ru , удовлетворяющее этому требованию можно выбрать многими способами. Более определенный выбор возникает в том случае, когда нам задана конкурирующая или альтернативная гипотеза глава 2. статистические критерии - student2.ru .

Мы будем рассматривать, главным образом, случай двух простых гипотез: проверяемой гипотезы глава 2. статистические критерии - student2.ru : глава 2. статистические критерии - student2.ru и конкурирующей гипотезы: глава 2. статистические критерии - student2.ru : глава 2. статистические критерии - student2.ru

Есть задачи, в которых гипотезы глава 2. статистические критерии - student2.ru и глава 2. статистические критерии - student2.ru равноправны. Так обстоит дело при разбиении множества каких-либо объектов на два вида по значениям определенных параметров. Однако очень часто в реальных задачах гипотезы глава 2. статистические критерии - student2.ru и глава 2. статистические критерии - student2.ru выступают неравноправно. Например, размер годной детали, изготовляемой на заводе, есть случайная величина, имеющая нормальные распределения с параметрами глава 2. статистические критерии - student2.ru ). Предположим, что дефектная деталь имеет соответствующий размер, также нормально распределенный, на уже с параметрами глава 2. статистические критерии - student2.ru ), где глава 2. статистические критерии - student2.ru . Технический контроль, на который поступают изготовленные детали, исходит из того, что детали должны быть годными, и поэтому проверяют гипотезу глава 2. статистические критерии - student2.ru , т.е. их годность. В этом случае, глава 2. статистические критерии - student2.ru - основная гипотеза, и на контроле надо уловить те детали, которые изготовлены в условиях конкурирующей гипотезы глава 2. статистические критерии - student2.ru .

Наши рекомендации