Интервальный и соответствующий ему дискретный вариационный ряд частот для выборочных данных
РАБОЧАЯ ТЕТРАДЬ ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ
Составил доцент Троицкий Е.И
Заполнил (а) студент (ка) ___ группы ___________________ факультета, специальности _________________________ (Ф.И.О.) ___________________________
Вариант № ____
Задание № 1. Группировка и статистический анализ выборки для случайной величины Х непрерывного типа.
Замечание. Случайная величина Х в «Математической статистике» называется чаще признаком Х генеральной совокупности.
Условие задания № 1. По выборке объёма n = __ исследуется случайная величина непрерывного типа Х – ________________________________________
____.
Выборочные данные помещены в таблицу 1 на следующей странице.
ТРЕБУЕТСЯ:
1. Сгруппировать выборочные данные в интервальный вариационный ряд частот. Изобразить вариационный ряд графически, построив гистограмму частот.
2. Вычислить по сгруппированным данным точечные оценки параметров распределения: выборочную среднюю , выборочную дисперсию .
3. Проверить гипотезу о нормальном распределении случайной величины Х на уровне значимости , применяя критерий согласия Пирсона.
4. Считая исходный набор данных генеральной совокупностью, подчиняющейся закону нормального распределения, сделать из этой совокупности репрезентативную выборку объёма n = 10, для которой:
а) вычислить точечные оценки параметров распределения: выборочную среднюю , выборочную дисперсию , исправленную выборочную дисперсию , исправленное выборочное среднеквадратичное отклонение и сравнить их с соответствующими характеристиками генеральной совокупности, визуально оценивая близость и различие характеристик и их оценок;
б) найти доверительные интервалы для генеральной средней с доверительной вероятностью =0,95 при условиях известной и неизвестной дисперсии и проверить, накрывают ли эти интервалы генеральную среднюю;
в) найти доверительный интервал для генеральной дисперсии с доверительной вероятностью =0,95 и проверить, накрывает ли этот интервал генеральную дисперсию.
Решение. Поместим исходные данные в таблицу 1:
Таблица 1
Исходные выборочные данные для случайной величины Х
1. Для непрерывной случайной величины Х (для признака Х) по результатам выборки составляется интервальный вариационный ряд. Для этого весь диапазон изменения выборочных данных – размах вариации – накрывается совокупностью 5 8 полузамкнутых интервалов или (по нашему произволу) одинаковой длины h так, чтобы значение находилось приблизительно посередине первого интервала, а значение находилось в последнем интервале. Эту длину рекомендуется вычислять по следующей формуле Стерджеса, округляя h до удобного для дальнейших вычислений значения: . Значения десятичных логарифмов помещены в следующей таблице:
n | |||||||||
lg n | 1,60 | 1,70 | 1,78 | 1,85 | 1,90 | 1,95 | 2,04 | 2,08 |
В нашей задаче =_____, =_____, n = ___, поэтому, округляя результат вычислений формулы Стерджеса, возьмём h = _____. Определяем левый конец первого интервала = ______________. Затем определяем границы остальных интервалов и т.д., пока значение не окажется в интервале с номером , являющимся последним. Для разнесения данных из таблицы 1 по интервалам построим таблицу 2, в которой определим частоты попадания выборочных данных в интервалы (частота - это число значений признака Х, попавших в интервал с номером ). Получим интервальный вариационный ряд частот.
Таблица 2
Разнесение выборочных данных по интервалам и подсчёт частот
i | Интервалы | Учётные «палочки» или «конвертики» | Частоты | |
Контроль: | = | |||
Количество интервалов оказалось равным т= ____. В таблице 2 следует осуществить контроль подсчёта частот: , где n – объём выборки.
Если контроль оказался верным, переходим к следующим этапам работы, если же нет, то заполняем (исправляем) таблицу 2 повторно до выполнения контрольного равенства.
Графическим изображением интервального вариационного ряда, отражённого в таблице 2 служит гистограмма частот. Построим гистограмму частот на рисунке 1. Для этого на оси абсцисс откладываем отрезки, изображающие интервалы изменения значений х случайной величины Х (признака Х). На этих отрезках как на основаниях строим прямоугольники с высотами, равными частотам . Полученная фигура и называется гистограммой частот.
0
Рис. 1. Гистограмма частот интервального вариационного ряда.
Для наглядности рекомендуется использовать всю плоскость чертежа.
Первый пункт задания № 1 выполнен.
2. Пусть случайная величина Х (признак Х) имеет математическое ожидание М(X)= , дисперсию и среднеквадратичное отклонение , при этом параметры , и являются неизвестными. Очередной задачей математической статистики является точечная оценка этих параметров. Для решения этой задачи вычисляем середины интервалов , придаем им соответствующие частоты из интервального вариационного ряда.
Вычисляем середины интервалов , преобразуем таблицу 2 в таблицу 3, соединяя в ней интервальный вариационный ряд частот( первая и третья строки) и соответствующий ему дискретный вариационный ряд частот ( вторая и третья строки).
Таблица 3
Интервальный и соответствующий ему дискретный вариационный ряд частот для выборочных данных
Интервалы [ci-1, ci) | ||||||||
Середины интервалов | ||||||||
Частоты |
По полученному дискретному вариационному ряду частот вычисляем точечные оценки неизвестных параметров распределения признака
Несмещённой, состоятельной и эффективной точечной оценкой математического ожидания является выборочная средняя , которая вычисляется по формуле:
,
где т равно числу интервалов. Для нашей задачи n = ___, т= ____. При этом рекомендуется ( во избежание слишком больших погрешностей округлений) в результатах промежуточных вычислений брать на 2 знака после занятой больше, чем у исходных данных. Вычисляем:
=
Обязательно следует поместить значение на ось абсцисс гистограммы ( на рис1.). При этом следует помнить смысл математического ожидания и его оценки - это среднее взвешенное значений признака Посмотрите – является ли значение «центром тяжести» гистограммы? Если уже визуально это не подтверждается, то дальнейшие вычисления бессмысленны. Рекомендуется этот этап вычислений согласовать с преподавателем и только после этого продолжать вычисления.
Выборочная дисперсия является немного смещённой, состоятельной и эффективной оценкой дисперсии . Впрочем, для больших выборок смещенность не играет роли. можно рассчитать по одной из двух формул:
, (1)
. (2)
Для малых выборок следует пользоваться несмещённой эффективной и состоятельной оценкой дисперсии , каковой является исправленная выборочная дисперсия , связанная с выборочной дисперсией следующим образом:
. (3)
Несмещённой эффективной и состоятельной оценкой среднеквадратичного отклонения является исправленное выборочное среднеквадратичное отклонение как квадратный корень из исправленной выборочной дисперсии:
. (4)
Рассчитаем выборочную дисперсию для нашей задачи по обеим формулам (1) и (2). Сначала рассчитываем по формуле (1):
=
Теперь рассчитываем выборочную дисперсию по формуле (2), вычисляя предварительно средний квадрат:
Видим, что результаты расчётов выборочной дисперсии по формулам (1) и (2) практически совпадают (возможное различие связано только с погрешностями вычислений). Итак, = _______.
Для визуального контроля следует учитывать правило трех сигм нормального распределения, т.е практически вся гистограмма должна укладываться в окрестности радиуса трех Проверьте это на рис.1.
Итак, найдены оценки математического ожидания , дисперсии и среднеквадратичного отклонения :
Таблица 4
3. Если через середины верхних оснований прямоугольников гистограммы провести плавную линию, то получим графический аналог плотности вероятности признака . В пункте 3 на уровне значимости проверим гипотезу о том, что генеральная совокупность распределена по нормальному закону.
Будем опираться на результаты группировки выборочных данных из пункта 2, которые отражены в таблице 3 и на рисунке 1. Проверка гипотезы основана на сравнении эмпирических (полученных ранее в таблице 3) частот и так называемых теоретических частот , которые рассчитываются в предположении выполнения гипотезы о нормальном распределении генеральной совокупности с параметрами из таблицы 4:
= _____, = _____. (5)
Теоретические частоты рассчитываются по формуле = , где - вероятность попадания нормальной случайной величины в интервал , которая рассчитывается с помощью функции Лапласа (см. таблицу 5) по следующей формуле:
, (6)
где и определяются выражениями (5). При этом при вычислениях по формуле (6) левый конец первого интервала следует отодвинуть на минус бесконечность, а правый конец последнего интервала отодвинуть на плюс бесконечность, полагая . Процесс и результаты расчёта теоретических частот заносятся в таблицу 6, расположенную после таблицы 5, применяемой в расчётах слагаемых формулы (6).
Таблица 5
Значения функции Лапласа
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 | 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 | 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 | 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852 | 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 | 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 | 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 | 0,3849 0,3869 0,3883 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 |
Таблица 5 (продолжение)
1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 | 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 0,4641 0,4649 0,4656 0,4664 0,4671 | 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 2,00 2,02 2,04 2,06 2,08 2,10 2,12 2,14 2,16 2,19 | 0,4678 0,4686 0,4693 0,4699 0,4706 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 0,4772 0,4783 0,4793 0,4803 0,4812 0,4821 0,4830 0,4838 0,4846 0,4854 | 2,20 2,22 2,24 2,26 2,28 2,30 2,32 2,34 2,36 2,38 2,40 2,42 2,44 2,46 2,48 2,50 2,52 2,54 2,56 2,58 2,60 2,62 2,64 2,66 2,68 | 0,4861 0,4868 0,4875 0,4881 0,4887 0,4893 0,4898 0,4904 0,4909 0,4913 0,4918 0,4922 0,4927 0,4931 0,4934 0,4938 0,4941 0,4945 0,4948 0,4951 0,4953 0,4956 0,4959 0,4961 0,4963 | 2,70 2,72 2,74 2,76 2,78 2,80 2,82 2,84 2,86 2,88 2,90 2,92 2,94 2,96 2,98 3,00 3,20 3,40 3,60 3,80 4,00 4,50 5,00 | 0,4965 0,4967 0,4969 0,4971 0,4973 0,4974 0,4976 0,4977 0,4979 0,4980 0,4981 0,4982 0,4984 0,4985 0,4986 0,49865 0,49931 0,49966 0,499841 0,499928 0,499968 0,499997 0,49999997 0,5 |
Примечание. Функция Лапласа обладает свойством нечётности: .
Таблица 6
Расчёт теоретических частот с помощью формулы (6) и таблицы 6
=n | ||||||||
Контроль: |
Замечания. 1. Левый конец первого интервала отодвинут на минус бесконечность, т.е. . Не забудьте и правый конец последнего интервала отодвинуть на плюс бесконечность, полагая и учитывая, что .
2. Следует проверить, что сумма вероятностей равна 1, а сумма теоретических частот равна объёму выборки n=____. Если приближённое равенство не выполняется, то следует проверить все расчёты в таблице 6 снова. Небольшое расхождение возможно вследствие неправильного округления ( округлить правильно!)
Соединим эмпирические частоты из таблицы 3 и теоретические частоты из таблицы 6 в следующей таблице 7.
Таблица 7 Теоретические и эмпирические частоты для интервалов равной длины
Интервалы [ci-1, ci) | ||||||||
Эмпирические частоты | ||||||||
Теоретические частоты |
На рисунке 1 была изображена гистограмма частот, которые теперь названы эмпирическими. Перенесём эту гистограмму на рисунок 2 и построим на этом же рисунке также гистограмму теоретических частот, например, пунктирной линией или линией другого цвета. На рисунке 2 с данными из таблицы 7 качественно видно насколько велико или мало расхождение эмпирических и теоретических частот.
,
0
Рис. 2. Гистограммы эмпирических (сплошная линия) и теоретических (пунктирная линия) частот интервального вариационного ряда.
Для количественной оценки применим критерий согласия Пирсона, подчиняющийся закону распределения хи-квадрат с числом степеней свободы k=m-l-1, где l – число параметров распределения (l=2 для нормального закона, т.е.
. (7)
Необходимо учесть следующее условие применимости критерия Пирсона: малочисленные частоты ( <5) следует присоединить к частотам соседних интервалов. В этом случае соответствующие теоретические частоты также складывают, а при определении числа степеней свободы k=m-3 в качестве т следует принять число групп (интервалов), получившихся после объединения. Таким образом, преобразуем таблицу 7 в таблицу 8.
Таблица 8
Эмпирические и теоретические частоты после объединения
интервалов с малочисленными частотами
Эмпирические частоты | ||||||
Теоретические частоты |
Теперь по формуле (7) и по данным таблицы 8 вычисляем наблюдаемое значение критерия:
=
Итак, ______. Далее по таблице 9 распределения хи-квадрат для числа степеней свободы k=m-3=____ и уровня значимости находим из условия критическое значение критерия _____.
Поскольку < / > (ненужное зачеркнуть), то гипотеза о том, что случайная величина Х распределена по нормальному закону, принимается / отвергается (ненужное зачеркнуть).
4. В этом пункте демонстрируется выборочный метод. Во-первых, исходный набор данных в таблице 1 считается теперь не выборкой, а некоторой генеральной совокупностью. Во-вторых, предполагается, что эта совокупность подчиняется закону нормального распределения с параметрами из таблицы 4: математическим ожиданием = _____, дисперсией = =_____ и среднеквадратичным отклонением = _____.
Далее из этой генеральной совокупности нужно извлечь выборку объёма n = 10. Как известно, главным требованием, обеспечивающим репрезентативность (представительность) выборки является случайность попадания значений случайной величины в выборку. Воспользуемся для этого таблицей случайных чисел:
Выберем наугад какую-нибудь строку таблицы. По номерам этой строки выбираем данные из таблицы 1, нумеруя эти данные по строкам сверху вниз. При этом если номер из таблицы случайных чисел будет больше объёма данных n, то пропускаем этот номер и переходим к следующему.
Итак, в выборку объёма n = 10 попали следующие значения:
4 а). По полученной малой выборке вычислим точечные оценки параметров распределения: математического ожидания = _____, дисперсии = =______ и среднеквадратичного отклонения = _____.
Оценкой генеральной средней будет выборочная средняя:
Оценкой генеральной дисперсии будет исправленная выборочная дисперсия , для нахождения которой предварительно вычислим выборочную дисперсию по формуле (2) как .
Сначала вычислим средний квадрат:
Затем вычисляем выборочную дисперсию:
=
Наконец, вычисляем исправленную выборочную дисперсию
и исправленное выборочное среднеквадратичное отклонение
Окончательно получаем:
= |
Видим, что полученные оценки несколько отличаются от истинных значений параметров из таблицы 4:
= | = = | = |
Теперь предстоит оценить точность, с которой получены эти оценки. Это осуществляется с помощью нахождения доверительных интервалов.
4 б). Сначала найдём доверительный интервал I для математического ожидания при известной дисперсии с доверительной вероятностью =0,95. Он находится с помощью закона нормального распределения, имеет вид I= и определяется равенством , где находится по таблице 5 для стандартной функции Лапласа из условия . Для =0,95 находим по таблице 5 =1,96 (проверьте это!). Точность оценки равна _____. Проводим оставшиеся вычисления:
I= =
Заметим, что истинное значение генеральной средней =____ оказалось внутри/вне (ненужное зачеркнуть) доверительного интервала I
Рассмотрим теперь другую ситуацию: генеральная дисперсия нам не известна. Введём уровень значимости . Тогда доверительный интервал находится уже с помощью t-распределения Стьюдента с числом степеней свободы =10–1=9 и имеет вид:
I= ,
где значение находится по таблице распределения Стьюдента. Точность оценки равна _____. Заметим, что оценка в этом случае оказалась менее точной, чем в ситуации с известной дисперсией, что связано с потерей информации о генеральной совокупности (дисперсия оказалась неизвестной).
Вычисляем границы доверительного интервала:
I= =
Заметим, что истинное значение генеральной средней =____ оказалось внутри/вне (ненужное зачеркнуть) доверительного интервала I
4 в). Доверительный интервал для неизвестной дисперсии по выборке объёма n = 10 имеет вид:
,
где числа и находятся по таблицам распределения случайной величины - хи-квадрат с числом степеней свободы =10–1=9 из условий
.
Таблица 9
Фрагмент таблицы распределения Пирсона хи-квадрат.
Значения для вероятностей
k | |||||||||
0,975 | 0,0398 | 0,0506 | 0,216 | 0,484 | 0,831 | 1,237 | 1,690 | 2,180 | 2,700 |
0,025 | 5,024 | 7,378 | 9,348 | 11,143 | 12,839 | 14,449 | 16,013 | 17,535 | 19,023 |
0,05 | 3,841 | 5,991 | 7,815 | 9,488 | 11,070 | 12,592 | 14,067 | 15,507 | 16,919 |
По фрагменту таблицы распределения хи-квадрат, приведённому в таблице 9, находим =2,7 и =19,023 и получаем доверительный интервал для неизвестной генеральной дисперсии:
Заметим, что истинное значение генеральной дисперсии =____ оказалось внутри/вне (ненужное зачеркнуть) доверительного интервала I
Задание № 2. Однофакторный дисперсионный анализ.
Условие задания № 2.
Таблица 10
Уровни фактора | Номер испытания (повторности) | Групповые средние | |||||
Впишем в таблицу 10 выборочные данные испытаний на данных уровнях фактора (лишние клетки не заполняем).
Однофакторный дисперсионный анализ исследует влияние одного фактора , имеющего уровней , на математическое ожидание (среднее значение) случайной величины Х. Значения случайной величины Х получают на каждом уровне фактора в группе из испытаний. Номер испытания в группе обозначим целой переменной . Таким образом, выборочные данные характеризуются двумя индексами.
Группа измерений на уровне фактора имеет групповую выборочную среднюю , или кратко групповую среднюю. Общая средняя вычисляется по формуле .
Вычисляем групповые средние (по строчкам таблицы 10) и вносим их в таблицу 10 (здесь и далее лишние заготовки формул не заполняйте):
Вычисляем общую среднюю:
Видим, что групповые средние разных уровней отличаются друг от друга. Это различие может носить чисто случайный характер или же отражать влияние уровней фактора. Выразим нулевую гипотезу словесно так: изменчивость групповых средних имеет чисто случайный характер, и влияние фактора несущественно на данном уровне значимости.
Для построения критерия рассматривается полная сумма квадратов отклонений выборочных данных от общей средней . Имеет место формула , где , .
Сумма называется рассеиванием по уровням фактора, т.е. характеризует изменчивость выборочных данных исключительно из-за влияния уровней фактора . Сумма называется остаточным рассеиванием и характеризует изменчивость выборочных данных из-за влияния чисто случайных, неучтённых факторов. В сравнении этих влияний и состоит суть дисперсионного анализа.
Сравнение осуществляется с помощью отношения , которое для нормальной случайной величины Х является случайной величиной, распределённой по закону Фишера-Снедекора с числом степеней свободы числителя и числом степеней свободы знаменателя .
Продолжим вычисления. Вычислим сумму : =
=
Вычислим сумму , (лишние заготовки не заполняем): =
Суммы и удобно вычислять также по следующим упрощённым формулам, которые аналогичны формуле (2) при вычислении выборочной дисперсии в пункте 2 задания 1: = , = , где , , . Вычисляем: = ,
=
=
= = , = = .
Значения и совпали с рассчитанными ранее значениями. Итак, =_______, =_______. Теперь вычисляем наблюдаемое значение критерия
.
Далее по таблицам F-распределения Фишера-Снедекора для числа степеней свободы числителя =___ и числа степеней свободы знаменателя =____ и уровня значимости находим критическое значение критерия. Приведём некоторые извлечения из таблиц F-распределения при наиболее часто встречающихся значениях и в таблице 11.
Таблица 11
Критические значения распределения Фишера-Снедекора
на уровне значимости