Глава 2. статистические критерии

ЧАСТЬ 2. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ

ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика выделяется из теории вероятностей в самостоятельную область, хотя основные методы и приёмы рассуждений в ней остаются теми же самыми. Причиной этого является специфичность задач математической статистики, являющихся в известной степени обратными к задачам теории вероятностей. Если в теории вероятностей мы считаем заданной модель явления и производим расчёт возможного реального течения этого явления, то в математической статистике мы исходим из известных реализаций каких-либо случайных событий, из так называемых статистических данных, которые обычно носят числовой характер. Математическая статистика разрабатывает различные методы, которые позволяют по этим статистическим данным подобрать подходящую теоретико-вероятностную модель. Например, пусть имеется n независимых наблюдений в схеме Бернулли и пусть в m из них произошло событие A. Одна из задач математической статистики: как по m осуществлениям события A в n независимых испытаниях определить вероятность p=Р(А).

Перечислим те основные задачи, которые решает математическая статистика, на примере схемы Бернулли.

А) Проверка статистических гипотез.

Из каких-либо априорных соображений мы можем предполагать, что p=p₀, где p₀– некоторое фиксированное значение. По относительной частоте m/n мы должны решить справедлива гипотеза p=p₀или нет. Поскольку при больших n относительная частота m/n близка к p, то статистический критерий по проверке гипотезы p=p₀должен основываться на значении модуля разности |m/n - p₀|. Если она большая, то, по-видимому, гипотеза неверна, если же она мала, то у нас нет оснований отвергать гипотезу p=p₀.

Б) Статистическое оценивание неизвестных параметров. Иногда нам требуется по наблюдаемому m указать то число p^*, которое можно принять за вероятность p в схеме Бернулли. В нашем примере естественно взять p^*= m/n. Оценка должна быть в том или ином смысле близкой к оцениваемому параметру.

В) Доверительные интервалы. Иногда нас интересует не точное значение неизвестного параметра p, а требуется указать тот интервал p^-£ p£ p⁺, в котором с вероятностью, близкой к единице, лежит параметр p. Такой интервал (p^-(m), p⁺(m)), концы которого случайны и зависят от наблюдаемого значения m, называется доверительным интервалом.

ВЫБОРОЧНЫЙ МЕТОД

Терминология многих статистических задач связана со следующей схемой. Пусть имеется урна с карточками, на которых нанесены числа X₁, X₂,…, X_N . Из урны случайно выбираются n карточек с числами x₁, x₂,…, x_n. Полученный набор чисел

x₁, x₂,…, x_n (1.1)

называется выборкой объема n из генеральной совокупности

X₁, X₂,…, X_N. (1.2)

Выборка может быть без возвращения, когда каждое подмножество {X_i₁,…, X_in} мощности n из всего множества (1.2) появляется с вероятностью глава 2. статистические критерии - student2.ru , и с возвращением, когда каждый упорядоченный набор {X_i₁,…, X_in}, где могут быть повторения появляется с вероятностью . Нетрудно видеть, что в случае выборки с возвращением x₁, x₂,…, x_n являются независимыми случайными величинами с законом распределения случайной величины x, которая с одной и той же вероятностью 1/N принимает каждое из значений (2), если все X_jразличны:

глава 2. статистические критерии - student2.ru

В этом случае говорим, что (1.1) есть независимая выборка объёма n, или независимая реализация объёма n случайной величины (СВ) x.

Упорядочивая выборку (1.1) по возрастанию, мы получаем вариационный ряд x₍₁₎, x₍₂₎,…, x₍_n₎.

С любой выборкой (1.1) можно связать эмпирическое, или выборочное распределение, приписывая каждому значению x_i вероятность 1/n. Эмпирической (или выборочной) функцией распределения будет F^*(x)= n_x/n, где n_x – число выборочных значений, расположенных на оси абсцисс левее или равных x.

Поскольку выборка (1.1) случайна, то эмпирическая функция распределения при каждом есть случайная величина x.

Для каждой конкретной выборки эмпирическая функция распределения будет своей, но все возможные эмпирические функции распределения одной и той же случайной выборки будут иметь нечто общее, что является информацией о функции распределения генеральной совокупности.

Можно доказать (теорема Гливенко), что с вероятностью 1 при глава 2. статистические критерии - student2.ru максимальная разница между эмпирической и генеральной функциями распределения F^*(x) и стремится к 0:

глава 2. статистические критерии - student2.ru

Практически это означает, что при достаточно большой выборке, функцию распределения генеральной совокупности можно приближенно заменять выборочной функцией распределения.

Пусть глава 2. статистические критерии - student2.ru – упорядоченная по величине выборка из генеральной последовательности (вариационный ряд).

глава 2. статистические критерии - student2.ru Все элементы независимой выборки имеют одинаковую вероятность, равную Поэтому, согласно определению функции F^*(x), имеем , при глава 2. статистические критерии - student2.ru ; при , ; , при . На рис.1 приведен график F^*(x). Элементы выборки оказываются точками разрыва этой функции. В точке разрыва функция F^*(x) скачком переходит от значения глава 2. статистические критерии - student2.ru (в интервале ) к значению , удерживая это значение в следующем интервале, то есть F^*(x) непрерывна справа.

Рис. 1.

При обработке выборок больших объемов используют метод “сгруппированных данных”: выборка объема глава 2. статистические критерии - student2.ru преобразуется в статистический ряд. Для этого весь диапазон изменения выборочных значений делится на равных интервалов. Число интервалов можно выбрать по полуэмпирической формуле глава 2. статистические критерии - student2.ru с округлением до ближайшего целого. Длина интервала равна / k.

Число элементов выборки попавших в глава 2. статистические критерии - student2.ru -й интервал, обозначим через . Величина, равная

глава 2. статистические критерии - student2.ru ,

определяет относительную частоту попадания выборочных значений в глава 2. статистические критерии - student2.ru -й интервал. Все точки, попавшие в -й интервал, относят к его середине : .

глава 2. статистические критерии - student2.ru Статистический ряд записывается в виде таблицы. График, построенный по данным таблицы, называется гистограммой эмпирического или выборочного распределения (рис.2).

Рис.2 Гистограмма

Математическое ожидание (среднее), дисперсия, моменты эмпирического распределения также будут случайными величинами и будут называться соответственно эмпирическими (или выборочными) математическим ожиданием (средним), дисперсиями, моментами.

Таким образом, выборочное среднее есть среднее арифметическое элементов выборки:

глава 2. статистические критерии - student2.ru , (1.3)

и выборочная дисперсия равна

глава 2. статистические критерии - student2.ru (1.4)

Выборочные моменты и центральные моменты порядка r определяются выражениями:

глава 2. статистические критерии - student2.ru ,

“Выборочная” терминология сохраняется и в том случае, когда генеральная совокупность (1.2) не состоит из конечного числа элементов N, а просто есть некоторый генератор независимых случайных величин x_i с каким-то законом распределения.

Такой идеализацией в математической статистике пользуются или при очень больших N, (например, при статистических обследованиях в демографии, экономике, социологии), или в том случае, когда элементы выборки (1.1) можно получать какой-то однородной процедурой любое число раз (например, результаты измерений, размер деталей при масовом их изготовлении).

В математической статистике случайные величины часто обозначаются буквами x_i, y_i и т.д., соответствующими обозначениям элементов выборки.

В дальнейшем мы будем в основном заниматься независимыми выборками. Относительно бесповторной выборки докажем лишь следующую теорему. Обозначим через

глава 2. статистические критерии - student2.ru ,

среднее и дисперсию генеральной совокупности (1.2).

Теорема 1. Эмпирическое среднее глава 2. статистические критерии - student2.ru бесповторной выборки (1.1) имеет следующее математическое ожидание и дисперсию:

глава 2. статистические критерии - student2.ru , . (1.5)

Доказательство.

Воспользуемся формулами

глава 2. статистические критерии - student2.ru , . (1.6)

Вычислим Mx_i, Dx_i, cov(x_i, x_j). Поскольку для вычисления нам нужны лишь двумерные распределения x_i, x_j, рассмотрим конечное вероятностное пространство (W, F, P), где элементарные события w=(k, l), 1£ k ¹ l £ N, и элементарные вероятности p(w)=1/[N(N-1)]. Случайные величины x_i, x_j определим равенствами:

x_i(k, l) = X_k, x_j(k, l) = X_l.

Тогда

глава 2. статистические критерии - student2.ru ,

и при i ¹ j

глава 2. статистические критерии - student2.ru

Подставляя найденные значения в (1.6), получаем формулы (1.5).

Замечание. Для выборки с возвращением дисперсия глава 2. статистические критерии - student2.ru равна . По неравенству Чебышевапри N ³ n ® ¥ мы получаем как в случае выборки с возвращением, так и в случае выборки без возвращения.

ГЛАВА 2. СТАТИСТИЧЕСКИЕ КРИТЕРИИ

СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ

Пусть случайная величина x или случайный вектор x=(x₁,…,x_n) имеет плотность p(x,J), зависящую от параметра J, одномерного или многомерного, принимающего значения из некоторого множества X. В частности, если p(x,J) – одномерная плотность и независимая выборка (1.1) получена из распределения с этой плотностью, то n-мерная плотность, соответствующая выборке (1.1), равна произведению

p(x₁,J)p(x₂,J)… p(x_n,J).

Хотя мы будем говорить о p(x,J) как о плотности, всё сказанное с очевидными видоизменениями будет применимо и к дискретным случайным величинам с законом распределения p(x,J) = P{x = x}, где x принимает счётное или конечное число значений.

Значение параметра J вполне определяет плотность p(x,J). Те или иные предположения о значениях параметра J мы будем называть статистическими гипотезами.

Статистическая гипотеза называется простой, если она состоит в предположении, что J=J₀, где J₀– некоторое фиксированное значение. Если же наше предположение заключается в том, что J Î X₀, где X₀Ì X - подмножество множества параметров X, состоящее более чем из одной точки, то мы говорим о сложной гипотезе.

Пример 1. Пусть глава 2. статистические критерии - student2.ru - плотность нормального распределения, зависящая от двумерного параметра . Гипотеза = является простой, а гипотеза , где фиксировано - сложной.

Пример 2. Пусть глава 2. статистические критерии - student2.ru - вероятность успехов в схеме Бернулли с независимыми испытаниями. Примером простой гипотезы служит , а примером сложной .

Задача проверки статистических гипотез ставится следующим образом. Известно, что выборка (1.1) получена из распределения, имеющего плотность вида глава 2. статистические критерии - student2.ru . Относительно параметра имеется некоторая основная, или проверяемая, гипотеза : . Мы должны построить такой статистический критерий, который позволяет нам заключить, согласуется ли выборка (1.1) с гипотезой глава 2. статистические критерии - student2.ru или нет. Обычно критерий строится при помощи критического множества. Из множества всех возможных значений выборки (1.1) выделяется подмножество глава 2. статистические критерии - student2.ru , называемое критическое, что при гипотеза отвергается, а в остальных случаях она принимается.

Критическое множество глава 2. статистические критерии - student2.ru выбирается таким образом, чтобы вероятность

глава 2. статистические критерии - student2.ru

выборке глава 2. статистические критерии - student2.ru попасть в (когда гипотеза верна) была мала.

Получаемый с помощью критического множества глава 2. статистические критерии - student2.ru статистический критерий называют иногда -критерием. Естественно, что множество , удовлетворяющее этому требованию можно выбрать многими способами. Более определенный выбор возникает в том случае, когда нам задана конкурирующая или альтернативная гипотеза глава 2. статистические критерии - student2.ru .

Мы будем рассматривать, главным образом, случай двух простых гипотез: проверяемой гипотезы глава 2. статистические критерии - student2.ru : и конкурирующей гипотезы: :

Есть задачи, в которых гипотезы глава 2. статистические критерии - student2.ru и равноправны. Так обстоит дело при разбиении множества каких-либо объектов на два вида по значениям определенных параметров. Однако очень часто в реальных задачах гипотезы глава 2. статистические критерии - student2.ru и выступают неравноправно. Например, размер годной детали, изготовляемой на заводе, есть случайная величина, имеющая нормальные распределения с параметрами глава 2. статистические критерии - student2.ru ). Предположим, что дефектная деталь имеет соответствующий размер, также нормально распределенный, на уже с параметрами ), где глава 2. статистические критерии - student2.ru . Технический контроль, на который поступают изготовленные детали, исходит из того, что детали должны быть годными, и поэтому проверяют гипотезу глава 2. статистические критерии - student2.ru , т.е. их годность. В этом случае, - основная гипотеза, и на контроле надо уловить те детали, которые изготовлены в условиях конкурирующей гипотезы глава 2. статистические критерии - student2.ru .

Наши рекомендации

Статистические критерии различий

Статистические критерии

Многофункциональные статистические критерии

Тема: СТАТИСТИЧЕСКИЕ КРИТЕРИИ

Глава 5 многофункциональные статистические критерии

Многофункциональные статистические критерии

Статистические критерии различий

Статистические гипотезы и критерии для их проверки

Статистические гипотезы и правила их проверки. Статистические критерии

← Предыдущая страница | Следующая страница →