Нахождение теоретических характеристик выборки
Федеральное государственное автономное
Образовательное учреждение
Высшего профессионального образования
«Сибирский федеральный университет
Т. В. Крупкина
Методические указания
К выполнению расчетной работы
По курсу ТВиМС
по теме:
"Статистическая обработка выборки"
СФУ 2011
1. Задание: Получение выборки объема n предположительно нормально распределенной случайной величины.
Возможные методы получения: путем проведения эксперимента, наблюдения, измерения, получения статистических данных INTERNET или моделирования.
Число случайных чисел: n = 100 + двузначное число в конце номера зачетки.
Параметры: среднее значение = последняя цифра номера зачетки,
стандартное отклонение = предпоследняя цифра номера зачетки, если она не равна нулю. Если равна, то первая не равная нулю цифра.
Представить выборку
· в первичном виде,
· в виде вариационного ряда,
· в виде группированного ряда.
V Указания к пункту 1.
Метод получения: моделирование в Excel.
Сервис – Анализ данных - Генерация случайных чисел
Если в меню «Сервис» отсутствует «Анализ данных», то открыть его:
Сервис – Надстройки – Пакет анализа (отметить галочкой) - ОК
Пример определения параметров.
Номер зачетки 630839.
Объем выборки равен 100+ 29 = 139.
среднее значение = 9, стандартное отклонение = 2.
Если номер зачетки 264701, то стандартное отклонение = 7.
Если номер зачетки 563002, то стандартное отклонение = 3.
· Первичный вид выборки:
записывается последовательность промоделированных значений в порядке получения.
· Вариационный ряд:
последовательность чисел, расположенная в порядке возрастания их величин.
· Группированный ряд (при . объеме выборки, равном 139).
1. Определим размах выборки R - разность между максимальным и минимальным значениями элементов выборки
2. Определим число интервалов:
2k−1 ≈ n
n = 139
27 = 128 < 139 < 256 = 28
7 < k − 1 < 8
8 < k < 9; пусть k = 8
3. Определим длину интервалов:
Таблица 1.
Группированный ряд (общий вид таблицы)
№ | интервалы | ni |
2. Задание: нахождение числовых характеристик выборки.
· выборочного среднего,
· выборочной дисперсии,
· исправленной выборочной дисперсии,
· среднеквадратичного отклонения,
· исправленного среднеквадратичного отклонения,
· выборочных начальных моментов порядка 2, 3, 4,
· выборочных центральных моментов порядка 3, 4,
· выборочного коэффициента асимметрии,
· выборочного коэффициента эксцесса,
· моды,
· медианы,
· выборочных квантилей порядка 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9.
V Указания к пункту 2.
1. Выборочным средним называют среднее арифметическое значение признака выборочной совокупности.
2. Выборочной дисперсией S2 называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения
3. Исправленная выборочная дисперсия
4. Среднеквадратичное отклонение - квадратный корень из выборочной дисперсии. Используется для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения
5. Исправленное среднеквадратичное отклонение равно квадратному корню из исправленной дисперсии.
6. Выборочные начальные моменты порядка 2, 3, 4
Выборочный начальный момент 1 порядка:
7. Выборочные центральные моменты порядка 3,4
Выборочный центральный момент 1 порядка:
− дисперсия
8. Выборочный коэффициент асимметрии
9. Выборочный коэффициент эксцесса
10.Выборочная мода
11. Выборочная медиана
12. Выборочная квантиль порядка q
3. Задание: графическое представление выборки:
· группировка данных,
· гистограмма частот,
· полигон частот,
· кумулята,
· эмпирическая функция распределения.
V Указания к пункту 3.
· Группировка данных. Составим таблицу частот (табл.2.).
· Таблица 2.
Таблица частот группированной выборки
(вид таблицы)
k | Xi | Xi+1 | ni | Xср | n*i | ni/h | ni*/n |
· Гистограмма частот – это фигура, составленная из прямоугольников, построенных на интервалах группировки как на основаниях, так, что высота i–го прямоугольника равна ni/h для гистограммы частот, и ni/nh для гистограммы относительных частот.
· Полигон частот – ломаная, соединяющая середины верхних оснований гистограммы.
· Кумулята относительных частот – это ломаная, соединяющая точки с координатами (xi, ni*/n). Кумулята частот соединяет точки с координатами (xi,ni*). Кумулята дает представление о графике функции распределения.
· Эмпирическая функция распределения F*n(x) в каждой точке x равна числу элементов выборки, меньших x, деленному на n.
4. Задание: статистическое оценивание параметров.
Получение оценок параметров:
· методом максимального правдоподобия,
· методом моментов.
Исследование свойств полученных оценок:
· несмещенности,
· состоятельности,
· эффективности,
· оптимальности,
· нормальности.
V Указания к пункту 4.
Получение оценок параметров
· Метод максимального правдоподобия
Суть метода - в качестве «наиболее правдоподобного» значения параметра берут значения, максимизирующее вероятность при опытах получить при опытах данную выборку (x1 , x2 ,….,xn )
Функцией правдоподобия непрерывной случайной величины называют функцию
Функцией правдоподобия дискретной случайной величины называют функцию
Оценкой максимального правдоподобия неизвестного параметра называют значение, при котором функция правдоподобия достигает максимума как функция от при фиксированных (x1, x2,…, xn). Это значение параметра зависит от выборки и является искомой оценкой.
Функции L и lnL достигают максимума при одном и том же значении , поэтому для нахождения максимума функции правдоподобия L, можно искать max lnL и решать уравнение правдоподобия:
· Метод моментов
Начальные и центральные эмпирические моменты являются состоятельными оценками соответственно начальных и центральных теоретических моментов того же порядка. Теоретические моменты случайной величины зависят от параметра, а выборочные от элементов выборки. Выборочные моменты приближенно равны теоретическим. Приравняем их и получим уравнение, связывающее параметр и элементы выборки. Выразив параметр, получим функцию, которая и называется оценкой метода моментов. Для оценивания одного параметра обычно приравнивают выборочное среднее и математическое ожидание, для оценивания двух параметров используют еще выборочную и теоретическую дисперсию или начальные моменты второго порядка.
Для одного параметра: ; ;
Для двух параметров: ;
Исследование свойств полученных оценок
· Несмещенность
Оценка параметра называется несмещенной, если =
Оценка параметра называется асимптотически несмещенной, если =
· Состоятельность
Оценка параметра называется состоятельной, если т.е.
P(| при n ∞
Справедлива теорема: если
, D , то – состоятельная оценка параметра
· Эффективность
Несмещенная оценка параметра называется эффективной, если её дисперсия равна нижней границе Рао-Крамера:
· Оптимальность
Для параметра может быть предложено несколько несмещенных оценок. Мерой точности несмещенной оценки считают её дисперсию D . Несмещенная оценка параметра называется оптимальной, если она имеет минимальную дисперсию среди всех несмещенных оценок этого параметра. Таким образом, эффективная оценка является оптимальной.
· Нормальность
Исследуется точное или асимптотическое распределение оценки.
Можно использовать центральную предельную теорему:
Если случайные величины независимы, одинаково распределены и имеют конечные математические ожидания и дисперсии , , то при n→∞
, где
5. Задание: интервальное оценивание параметров.
Построение доверительных интервалов для каждого из параметров уровней значимости 0,05 и 0,01.
V Указания к пункту 5.
Интервальное оценивание – это оценивание, при котором указывается интервал, накрывающий параметр с заданной наперед вероятностью.
Доверительным интервалом уровня значимости α для параметра называется интервал , для которого выполняется условие:
· Доверительныйинтервал параметра
Для построения доверительного интервала необходимо взять статистику, которая бы зависела от параметра , а её распределение от зависело бы.
– мы не можем использовать эту статистику, т.к. не известно, поэтому мы выберем статистику
– распределение Стьюдента с степенью свободы.
Получаем доверительный интервал для a:
· Доверительный интервал параметра σ
Для построения доверительного интервала необходимо взять статистику: , где - распределение Пирсона с степенью свободы.
Доверительный интервал для параметра с уровнем значимости α:
Значения квантилей берутся из соответствующих таблиц.
6. Задание: проверка гипотез:
· проверка гипотезы о виде распределения,
· проверка гипотез о каждом из параметров.
V Указания к пункту 6.
Статистической гипотезой называется утверждение о виде распределения генеральной совокупности. Проверяемая гипотеза называется нулевой и обозначается H0. Наряду с ней рассматривают альтернативную гипотезу H1.
· Проверка гипотезы о виде распределения
Гипотезы:
Для проверки гипотезы используем критерий согласия Пирсона:
Критерий применяется к группированной выборке.
, где nTi=nPi.
Вероятность находится с помощью функции распределения
Таблица 3.
Критерий согласия Пирсона (вид таблицы) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
– эмпирическое значение статистики критерия согласия Пирсона. 11,07 – критическое значение критерия Пирсона, полученное для доверительной вероятности 1-α = 0,95 при уровне значимости 5% и числа степеней свободы v=k-r-1=8-3=5. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Замечание. При работе в Excel не требуется высчитывать вспомогательную переменную t, можно сразу находить Вывод: анализ результатов проверки статистических гипотез позволяет сделать вывод о том, что гипотеза о нормальном распределении не отвергается при уровне значимости α=0,05 т.к. значение не попало в критическую область . Или: анализ результатов проверки статистических гипотез позволяет сделать вывод о том, что гипотеза о нормальном распределении е отвергается при уровне значимости α=0,05 т.к. значение попало в критическую область. |
· Проверка гипотез о каждом из параметров
1.Гипотеза о среднем , параметр известен, а параметр не известен.
, если справедлива , то
Тогда, если u0,025 <T< u0,975, то H0 не отвергается с уровнем значимости 0,05. При α=0,05 u0,975=1,96, u0,025=-1,96
2. Гипотеза о дисперсии:
, то есть параметр не известен.
при справедливой гипотезе H0:
При α=0,05, если Z0,025 <Z< Z0,975, то H0 не отвергается с уровнем значимости 0,05.
7. Задание: принятие статистического решения:
· рассчитать для данной модели теоретические числовые характеристики соответственно п. 2 и составить параллельную таблицу теоретических и выборочных числовых характеристик,
· построить на одном чертеже и в одном масштабе график плотности, гистограмму и полигон,
· в случае если гипотезы о выбранной статистической модели не отвергаются, сделать вывод о распределении генеральной совокупности,
· в случае если гипотезы о выбранной статистической модели отвергаются, предложить другую модель.
V Указания к пункту 7.
Нахождение теоретических характеристик выборки
Теоретическое среднее
2.Теоретическая дисперсия
3. Теоретическое среднеквадратичное отклонение
4. Теоретический начальный момент порядка 2
5. Теоретический начальный момент порядка 3
6. Теоретический начальный момент порядка 4
7. Теоретический центральный момент порядка k
8. Теоретический центральный момент порядка 4 нормального распределения
9. Теоретический коэффициент асимметрии
10. Теоретический коэффициент эксцесса
11. Теоретическая мода
12. Теоретическая медиана
13. Теоретические квантили порядков
Для нормального распределения
Значения квантилей нормального распределения находятся с использованием таблиц Φ(x).
Таблица 4.
Параллельная таблица теоретических и выборочных числовых характеристик (вид таблицы)
Теоретические характеристики | Значения | Эмпирические характеристики | Значения |
a | |||
· Примерный вид графиков плотности, гистограммы и полигона на одном чертеже и в одном масштабе (рис.1).
|
|
|
|
Рис. 1. Гистограмма, полигон и плотность
· Вывод о распределении генеральной совокупности:
В результате проверки статистических гипотез выяснили, что гипотеза о нормальном распределении не отвергается с уровнем значимости α = 0,05, так как значение критерия Пирсона не попало в критическую область. Следовательно, данную совокупность можно моделировать с помощью нормального закона распределения с параметрами: a=9; σ=3
или:
гипотеза о нормальном распределении отвергается с уровнем значимости α = 0,05, так как значение критерия Пирсона попало в критическую область. Следовательно, данную совокупность нельзя моделировать с помощью нормального закона распределения с параметрами: a=9; σ=3
· в случае если гипотезы о выбранной статистической модели отвергаются, предложить другую модель по виду гистограммы.
Литература
1. Булдык, Г. М. Теория вероятностей и математическая статистика: Учебное пособие. /Г. М. Булдык. − Минск: Вышейш. шк., 1989.
2. Кибзун, А. И. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами: Учебное пособие. / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин. − М.:~ФИЗМАТЛИТ, 2002.
3. Колемаев, В. А. Теория вероятностей и математическая статистика: Учебное пособие. /В. А. Колемаев, В. Н. Калинина. − М.: ИНФРА-М, 2000.
Разработанные в рамках УМКД пособия
4. Крупкина, Т. В. Теория вероятностей и математическая статистика (для студентов экономического факультета): Учебное пособие. / Т. В. Крупкина, С. В. Бабенышев, Е. С. Кирик. − Красноярск: СФУ, 2007, стр. 121−196.
5. Крупкина, Т. В. Теория вероятностей и математическая статистика в примерах и задачах (для студентов экономического факультета): Учебное пособие. / Т. В. Крупкина, А.И. Пыжев, С. В. Бабенышев, Е. С. Кирик. − Красноярск: СФУ, 2007,стр. 123−162.