Оценивание, проверка статистических гипотез. Методические указания.
I. Из генеральной совокупности X сделана выборка объема n = 200. Требуется на основании этой выборки сделать аргументированное заключение о законе распределения генеральной совокупности и её основных числовых характеристиках. Для этого необходимо:
а) найти статистический ряд с числом интервалов, равным, например, 12;
б) построить гистограмму;
в) найти статистическую функцию распределения и построить ее график;
г) найти точечные оценки математического ожидания и дисперсии;
д) найти доверительный интервал для математического ожидания с заданной надёжностью (доверительной вероятностью);
е) на основании критерия согласия (Пирсона) проверить гипотезу о нормальном законе распределения генеральной совокупности.
II. По данным таблицы - группированной выборки двумерного вектора (X,Y), требуется найти выборочное уравнение прямой – линии линейной регрессии Y на X.
Каждому студенту преподаватель выдает для обработки выборку объема
n = 200 из таблицы нормально распределенных случайных чисел и группированную выборку двумерного вектора в виде таблицы.
Рассмотрим каждый этап выполнения работы.
1. Составление статистического ряда, гистограммы и нахождение точечных оценок математического ожидания и дисперсии.
В заданной выборке находим наименьший а и наибольший b элементы. Частное округляем до десятых, и полученное число берем в качестве шага разбиения h. Вводим отрезок ,длина которого 12 h , причем числа и подобраны так, чтобы ; и, кроме того, чтобы и имели не более двух знаков после запятой для простоты дальнейших вычислений.
Отрезок разбиваем точкам , x1, x2,…, x12 = , на 12 равных частичных интервалов затем определяем частоты ni, то есть число элементов выборки, попавших в каждый из частичных интервалов Δi и относительные частоты , i= 1, …,12.
Примечание. Если некоторые элементы выборки не попали на отрезок , то их условимся относить к ближайшему крайнему интервалу. Числа, совпадающие с границами частичных интервалов, условимся относить к левому интервалу. В качестве членов статистического ряда берем числа, являющиеся серединами частичных интервалов:
Результаты оформляются в виде таблицы (табл. 1).
Таблица 1
Номера интервалов | … | Примечания | ||||
Границы Интервалов | … | |||||
… | ||||||
… | ||||||
… |
Пример. Пусть нам дана следующая выборка
-0,669 0,392 -0,337 0,369 -1.694 | 0,035 0,106 0,199 -1,990 0,710 | -2,077 1,430 -0,160 -1,190 -0,655 | 1,077 -0,204 0,625 0,666 -0,546 | 0,525 -0,326 -0,891 -1,614 1,654 | -0,154 0,825 -1,464 0,082 0,134 | -0,537 1,214 1,353 -0,184 -0,529 | -1,036 0,091 0,466 -1,324 -0,915 | 0,882 -0,032 1,000 0,741 -0,898 | -0,402 -1,264 1,511 -0,264 0,799 |
0,985 -1,063 0,033 0,597 -1.601 | 0,340 -0,594 -1,527 0,362 -0,570 | 0,276 -1,526 1,422 -3,760 0,133 | 0,911 -0,787 0,308 1,159 -0,660 | -0,170 0,873 0,845 0,874 1,485 | -0 ,551 -0,405 -0,151 -0,794 0, 682 | -0,036 1,469 1,642 -0,358 0,104 | 0,679 -0,318 0,033 0,162 1,215 | -0,432 0,922 -0,838 0,064 0,686 | 0,678 0,522 -0,872 1,594 0,676 |
-0266 0,901 -1,433 1,327 -0,248 | -1,309 1,531 -1,008 0,703 0,788 | 0,597 -0,889 -0,990 -1,724 0,577 | 0,989 -1,019 0,090 -0,709 0,122 | 0,934 0,084 0,940 -1,100 -0,536 | 1,079 1,531 0,207 -1,346 0,293 | -0,999 0,638 -2,243 0,183 -0,126 | 0,015 1,297 -0,039 -0,163 1,627 | -0,094 -0,139 0,276 1,212 0,658 | -1,920 -0,157 -0,551 -0,452 1,348 |
-0,401 0,344 0,441 0,824 1,385 | -0,679 0,324 -0,372 0,040 1,320 | 0,921 0,686 -1,336 -1,734 -0,509 | 0,476 -1,487 0,062 0,261 -0,381 | 1,121 -0,136 1,506 0,054 -1,671 | -0,864 0,803 -0,315 -0,379 -0,524 | -0,656 -0,745 1,207 -0,961 1,298 | -0,220 0,932 0,838 -2,716 -1,248 | -1,566 -0,833 -0,304 0,823 0,346 | -0,144 -0,946 0,128 -0,112 -0,805 |
Составляем статистический ряд с 12 интервалами. Наименьший элемент выборки a =-3,760, наибольший b=1,654. Частное = = 0,451.
Округляя, получаем h=0,5.
12 h= 12. 0,5 = 6. Поэтому удобно взять
Составляем табл.2.
Построим гистограмму (рис. 1). Гистограмма представляет собой ступенчатую фигуру, составленную из прямоугольников, основания которых - частичные интервалыΔi = ; расположенные на оси абсцисс, высоты пропорциональны, а площади равны соответствующим частотам (см. пособие с. 122-126). В нашем примере все эти данные берем из таблицы 2 .
Гистограмма Рис. 1
Далее строим эмпирическую функцию распределения (см. пособие с. 86-89). Она имеет вид где - число элементов выборки, меньших х; здесь х - любое вещественное число. График эмпирической функции распределения представляет собой ступенчатую линию, определенную на всей числовой оси (рис.2). Значения этой функции заключены в промежутке [0,1]. Из таблицы 2 находим
Отсюда график эмпирической функции распределения имеет вид
|
График эмпирической функции распределения
рис.2
Замечание. Для наглядности, при построении гистограммы и эмпирической функции распределения масштаб по оси абсцисс и оси ординат может быть выбран различным.
Найдем точечные оценки математического ожидания и дисперсии. В качест-ве таких оценок выбирают среднее выборочное значение и выбо-рочную дисперсию , где (см. пособие с.96-99).
Результаты заносим в таблицу вида 3.
Таблица 3
Номер интервала | ... | Некоторые результаты | ||||
... | ||||||
... | ||||||
... | ||||||
... |
Таблица 3 строится по данным табл.2, затем вычисляются и S 2. В нашем примере результаты приведены в табл.4, после ее создания найдены и S 2.
2. Построение доверительного интервала.
Интервал называется доверительным интервалом для неизвестного параметра θ, если, с заданной доверительной вероятностью g (надежностью) можно утверждать, что неизвестный параметр находится внутри этого интервала (накрывается интервалом). В данной работе будем искать доверительный интервал для математического ожидания m с заданной доверительной вероят-ностью g = 0,95 (см. пособие с. 108-109).
Ввиду большого объема выборки доверительный интервал имеет вид . Параметр t определяется из равенства
,
где , .
Замечание. Для определения t при использовании функции Лапласа
будем иметь следующее уравнение .
Таблица 4
Номер интер-вала | Неко-торые результаты | ||||||||||||
-3,75 | -3,25 | -2,75 | -2,25 | -1,75 | -1,25 | -0,75 | -0,25 | 0,25 | 0,75 | 1,25 | 1,75 | ||
0,005 | 0,005 | 0,01 | 0,055 | 0,08 | 0,17 | 0,17 | 0,185 | 0,19 | 0,09 | 0,040 | |||
-0,019 | -0,014 | -0,023 | -0,096 | -0,1 | -0,128 | -0,043 | 0,046 | 0,143 | 0,113 | 0,07 | = - 0,052 | ||
0,070 | 0,038 | 0,051 | 0,168 | 1/8 | 0,096 | 0,011 | 0,012 | 0,107 | 0,141 | 0,123 | = 0,942 |
= 0,052; S 2 = = 0,942 - 0,003 = 0,939
Округляя полученные результаты, принимаем = 0,05; S 2 = 0,94.
Для рассматриваемого примера будем иметь при g = 0,95, 0,975,
откуда t =1,95, поэтому в нашем примере имеем
,
Таким образом, доверительный интервал для математического ожидания имеет вид .
3. Проверка статистических гипотез.
Проверим гипотезу о том, что генеральная совокупность, из которой произ-ведена выборка, имеет нормальный закон распределения (такое предположение может быть сделано по виду гистограммы). Применим критерий согласия (Пирсона). Так как математическое ожидание m и дисперсия генеральной совокупности нам неизвестны, то вместо них возьмем ихвыборочные характеристики: выборочное среднее и выборочную дисперсию S2.
Проверка гипотезы сводится к следующему алгоритму.
Объединим в один интервал интервалы с малыми частотами так, чтобы в каждом из интервалов было не менее 6-8 элементов выборки. Обозначим полученное число интервалов буквой k ( ). Вычислим статистику
,
где ni - число элементов выборки в каждом из k интервалов; pi – теоретичес-кая вероятность попадания случайной величины в i -й интервал, которая опре-деляется по формуле
где вместо m берем , а вместо = S 2, т. е. .
Устанавливаем число степеней свободы r, которое для нормального закона вычисляем по формуле r=k- 3. Назначаем уровень значимости = 0,05.
Для заданного уровня значимости р и найденного числа степеней свободы r по таблицам -распределения Пирсонанаходим значение и сравниваем между собой это значение и вычисленное значение статистики . Если окажется, что < ,то гипотеза о нормальном распределении не отвергается, то есть экспериментальные данные не противоречат гипотезе о нормальном распределении генеральной совокупности (см. пособие с. 126-129).
Замечание.При вычислении теоретических вероятностей крайние интервалы и заменяются интервалами и .
Применим критерий к рассматриваемому примеру при уровне значимости p = 0,05. Результаты вычислений помещены в таблице 5. Из этой таблицы имеем = 209,16; = 209,16 - 200 = 9,16. По таблице -распределения находим: = 11,07. Так как полученное нами значение = 9,16 < 11,07, то ги-потеза о нормальном распределении генеральной совокупности не отвергается.
Тема 2