Предварительная обработка реализации выборки
Рассмотрим основные понятия, связанные с реализацией выборки. Пусть имеется реализация выборки объема n. Если упорядочить значения по возрастанию, то полученная цепочка чисел называется вариационным рядом.
Пусть xi – элемент вариационного ряда. Тогда число повторений этого элемента в реализации выборки называется частотой выборочного значения xi и обозначается ni. Величина называется относительной частотой значения xi.
Выделим очевидные равенства
, . (8.1)
Пусть x1, x2, …, xm – все различные значения вариационного ряда, упорядоченные по возрастанию. Таблица
x1 | x2 | … | xm |
n1 | n2 | … | nm |
называется статистическим рядом. Он в некотором смысле характеризует закон распределения г.с.
Теперь предположим, что объем выборки большой. В этом случае строят так называемый интервальный (или группированный) статистический ряд. Рассмотрим реализацию выборки x1, x2, …, xn объема n. Выбираем некоторый отрезок I (обычно это либо отрезок [min{xi}, max{xi}], либо чуть больший, чем он). Делим отрезок I точками z0, z1, …, zk. на равные частичные промежутки D1=[z0, z1[, D2= [z1 z2[, …, Dk=[zk–1 zk]. Здесь z0 и zk – начало и конец отрезка I соответственно. Частотой ni i-го промежутка Di называется число значений реализации выборки, попавших в Di (i=1,2,…, k). Интервальным статистическим рядом называется таблица
D1 | D2 | … | Dk |
n1 | n2 | … | nk |
Проверьте, что для частот и относительных частот выполняется равенства (8.1).
Статистической (или эмпирической) функцией распределения называется
.
Теорема. Если F(x) – функция распределения г.с., то для любого действительного значения x и любого e >0 выполняется равенство
.
Смысл этой теоремы в том, что при больших объемах выборки значения статистической функции распределения является приближенными значениями функция распределения, т.е. статистическая функция распределения является оценкой неизвестной функция распределения г.с.
Для непрерывно распределенной г.с. наглядную оценку для плотности распределения дает гистограмма относительных частот.
Гистограмма относительных частот – это ступенчатая фигура, построенная следующим образом. На оси Ох откладываются частичные промежутки D1,…, Dk. Над каждым из них строится прямоугольник с высотой ni / h, где h – длина частичного промежутка. Функция, график которой задается гистограммой относительных частот, также называется гистограммой относительных частот.
Вычислим площадь, «ограниченной» гистограммой.
.
Это аналог свойства нормировки плотности распределения. Оказывается, что гистограмма относительной частоты равна приближенно неизвестной плотности непрерывно распределенной г.с., т.е. гистограмма дает приближенно представление о виде плотности распределения г.с.
Пример 8.1. Дан интервальный статистический ряд
(1, 3) | (3, 5) | (5, 7) | (7, 9) | (9, 11) |
Построить график статистической функции распределения и гистограмму относительных частот. Построить, соответственно, приближенные графики неизвестных функции и плотности распределения г.с.
Объем выборки n=100. Длина h частичного промежутка равна 2. Относительные частоты равны n1=10/100=0.1, n2=32/100=0.32, n3=0.2, n4=0.24, n5=0.14.
Вычислим значения статистической функции распределения:
На рисунке 8.1 приведены график статистической функции распределения и приближенно график функции распределения.
F*(x) – статистическая функция распределения р(x) – плотность распределения F(x) – функция распределения Рисунок 8.1 Рисунок 8.2 |
Вычислим высоты прямоугольников гистограммы: 0.1/2=0.05, 0.32/2=0.16, 0.1,0.12, 0.07. На рисунке 8.2 приведены гистограмма относительной частоты и приближенный график плотности.
Основные понятия проверки статистических гипотез
Во многих практических задачах реализации выборки применяются для проверки гипотез (предположений) о свойствах закона распределения генеральной совокупности.
Определение. Статистической гипотезой называется предположение о параметрах, свойствах закона распределения генеральной совокупности.
Пример 8.2 “Математическое ожидание г.с., распределенной по показательному закону, равно 10”, ”Г.с. имеет нормальный закон распределения” – статистические гипотезы. “Завтра будет снег”, “Существуют внеземные цивилизации” – не являются статистическими гипотезами.
В дальнейшем под гипотезой будем понимать исключительно статистические гипотезы. Гипотеза называется простой, если она однозначно определяет закон распределения г.с. В противном случае гипотеза называется сложной. В приведенных выше гипотезах первая – простая, потому, что гипотеза определяет точно один показательный закон распределения с параметром l = 1/10. Вторая гипотеза является сложной, потому что она определяет бесконечно много нормальных законов распределения с разными математическими ожиданиями и дисперсиями.
Параметрическими гипотезами называются гипотезы о параметрах распределения г.с. Например, первая из вышеприведенных гипотез является параметрической.
Нулевой (или основной) гипотезой H0 называется проверяемая гипотеза. Альтернативной (или конкурирующей) гипотезой называется, гипотеза, которая принимается в случае, когда основная гипотеза отвергается. Альтернативных гипотез у одной и той же основной гипотезы может быть несколько. Например, если принять за основную гипотезу “Математическое ожидание г.с. равно 10”, то в качестве альтернативной могут быть: “Математическое ожидание г.с. меньше 10”, ”Математическое ожидание г.с. равно 9”.
При проверке гипотез применяется некоторое правило. Критерием K проверки гипотез называется правило, по которому принимается или отвергается гипотеза H0. Обычно в критерии участвует некоторая статистика Z=Z(X1, …, Xn), по значению которой решается вопрос, принять или отвергнуть основную гипотезу. Z называется статистикой критерия.
Общая схема критерия K выглядит следующим образом. Задается некоторая малая вероятность a (обычно a = 0.1, 0.05, 0.01), называемая уровнем значимости критерия. В основе критерия лежит принцип теории вероятностей: маловероятные события (события с вероятностью a ) считать практически невозможными. Из области значений V статистики Z критерия выделяется подмножество Vk, такое, что условная вероятность события ZÎ Vk при условии, что гипотеза H0 верна, мала (равна a ): P (ZÎ V k / H0 ) = a. Множество Vk называется критической областью. Пусть теперь по реализации выборки вычислено значение zв статистики критерия Z. Если zвÎ Vk , то это означает, что произошло маловероятное событие. Тогда по приведенному выше принципу скорей всего неверна гипотеза H0 и она должна быть отвергнута. Если zвÎ V \ Vk , то гипотеза H0 может быть принята. Множество V \ Vk называется область принятия основной гипотезы.
Рассмотрим критерий проверки параметрической гипотезы H0 : q =q 0 при альтернативной гипотезе H1 : q <q0. Пусть p (z / H0 ) – плотность условного закона распределения статистики Z. За область принятия основной гипотезы принимается такой промежуток [z1, +¥), что P (Z ³ z1/H0 ) = 1– a, P (Z < z1/H0 ) = a (рис. 8.3).
Из второго равенства видно, что z1= za – квантиль распределения статистики Z порядка a.
Рисунок 8.3 |
Таким образом, критической областью является промежуток (–¥, za), а областью принятия основной гипотезы – промежуток
[za , +¥).
Критерий состоит в следующем. По реализации выборки из г.с. вычисляем значение zв статистики критерия Z. Вычисляются (по таблице) квантиль za. Если zв ³ za, то основная гипотеза q =q 0 принимается. Если zв< za , то основная гипотеза q =q0 отвергается (принимается альтернативная гипотеза q <q0).
Пример 8.3 Расход бензина автомобиля составляет m=10 л. на 100 км. После модернизации двигателя проведено испытания с 25 автомобилями и получено выборочное среднее расхода бензина л. на 100 км. Считая расход бензина X нормально распределенной случайной величиной c дисперсией , проверить основную гипотезу H0 : m=10 на уровне значимости a = 0.05 при альтернативной гипотезе H1 : m <10.
Из условий задачи следует, что если гипотеза m=10 верна, то г.с. X распределена нормально с математическим ожиданием m=10 и дисперсией . Тогда известно [ ], что случайная величина имеет стандартное нормальное распределение. В качестве статистики критерия возьмем эту случайную величину. Квантиль распределения случайной величины U порядка a = 0.05 найдем по таблице N [ ] u0.05 = – u0.95 = –1.645.
Вычислим выборочное значение критерия U: .
Так как uв= –1.75< ua= –1.645, то uв попало в критическую область, поэтому основная гипотеза m=10 отвергается и принимается альтернативная гипотеза m <10. Таким образом, можно сделать практический вывод: с вероятностью 0.95 можно утверждать, что модернизация двигателя действительно привела к уменьшению расхода бензина.
Как видно, основная или альтернативная гипотезы принимаются или отвергаются с некоторой вероятностью. Это означает, что возможны ошибки при принятии того или иного решения. В теории проверки статистических гипотез различают ошибки первого и второго рода.
Ошибкой первого рода называется вероятность отвергнуть правильную основную гипотезу, т.е. P (ZÎVk / H0 ) = a. Таким образом, уровень значимости совпадает с ошибкой первого рода.
Ошибкой второго рода называется вероятность принять ошибочную основную гипотезу, т.е. P (ZÎV\Vk / H1 ) =b.
8.3 Критерий согласия Х 2
Критерием согласия называют критерии проверки статистических гипотез о виде закона распределения г.с. Примером статистической гипотезы о виде закона распределения г.с. X является : “Г.с. X имеет нормальный (равномерный и т.д.) закон распределения”. Такая гипотеза принимается за основную гипотезу H0.
Рассмотрим подробно эффективный критерий согласия Пирсона Х2 (критерий хи-в-квадрате).
Пусть проверяется гипотеза “Г.с. X имеет гипотетическую функцию распределения ”, где – неизвестные параметры распределения, вид функции F известен, l ³1. Рассмотрим случай непрерывного распределения.
На первом этапе по реализации выборки объема n строится интервальный статистический ряд с k = [1+3.32lgn] +1 частичными промежутками (см. п. 8.1). Пусть получены равные промежутки с границами в точках
. Рассмотрим промежутки
. (8.2)
Пусть по выборке найдены точечные оценки неизвестных параметров (методом максимального правдоподобия). Тогда при помощи гипотетической функции распределения можно найти вероятности
(8.3)
.
Известно, что при достаточно больших значениях объема выборки n случайная величина
(8.4)
имеет распределение близкое к распределению – хи-в-квадрате со степенью свободы s = k– l – 1, где k – число интервалов, l – число неизвестных параметров, замененных их точечными оценками, mi – частота i-го интервала. Если основная гипотеза верна, то величина npi будет близка к частоте ni, то есть сумма будет мала. В качестве статистики критерия выбирается случайная величина . Тогда при заданном уровне значимости a основная гипотеза отвергается, когда . Это равенство эквивалентно . А это означает, что – квантиль распределения хи-в-квадрате порядка 1–a со степенью свободы s = k– l – 1.
Таким образом, если выборочное значение статистики окажется меньше квантили , то основная гипотеза принимается.
Сформулируем кратко критерий проверки гипотезы о виде закона распределения г.с.
1) По данной реализации выборки построить интервальный статистический ряд, найти промежутки (8.2).
2) Вычислить по реализации выборки точечные оценки неизвестных параметров .
3) Вычислить величины npi (i = 1, …, k) по формулам (8.3). Проверить выполнение условий npi ³ 5. Если для некоторых интервалов это условие нарушается, то этот интервал объединяется с соседним (при этом складываются вероятности pi и частоты этих интервалов). Эта процедура продолжается до тех пор пока для всех интервалов не будет выполняться условие npi ³ 5.
4) По формуле (8.4) вычислить выборочное значение статистики .
5) По таблице найти квантиль распределения хи-в-квадрате порядка 1–a со степенью свободы s = k– l – 1, где k – число интервалов после пересчета в пункте 3, l – число неизвестных параметров, замененных их точечными оценками в пункте 2.
6) Если < , то основная гипотеза принимается на уровне значимости a ; если ³ , то основная гипотеза отвергается.