Проверка гипотезы о нормальном распределении генеральной совокупности
ИНДИВИДУАЛЬНЫЕ РАБОТЫ
по курсу «Математические методы в гидрометеорологии»
I семестр: лекции - 20 ч., практика - 8 ч., КСР – 6 ч.
II семестр: лекции - 16 ч., практика - 6 ч., КСР – 4 ч.
Вид отчетности: зачет.
Преподаватель: Цеховая Татьяна Вячеславовна, к. ф. - м. н., доцент
содержание
Индивидуальная работа № 1
Задание 1Проверка гипотезы о нормальном распределении генеральной совокупности по критерию Пирсона (критерию c2).
Задание 2Основныевыборочные характеристики.
Задание 3Измерение взаимной зависимости.
Задание 4Расчет коэффициентов линейного уравнения регрессии.
Задание 5Оценка адекватности регрессионной модели.
Индивидуальная работа № 2
Задание 1Построение автокорреляционной функции
Задание 2Анализ временной изменчивости ряда температуры воды.
Приложение 1. ИСХОДНЫЕ ДАННЫЕ К ИНДИВИДУАЛЬНЫМ РАБОТАМ.
Приложение 2. ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ.
Приложение 3. Образец оформления работы в EXcel.
Приложение 4. Установка средств анализа данных пакета MS Excel.
Рекомендуемая литература
Индивидуальные работы
К выполнению индивидуальных работ следует приступить после тщательного изучения рекомендованных глав литературы. Для выполнения заданий полезны сведения о расчетных формулах по каждому из разделов дисциплины, а также большой объем справочных данных, которые можно найти, напрмер, в [8].
В результате изучения курса необходимо выполнить две индивидуальные работы. Первая индивидуальная работа состоит из 5 заданий, вторая – из двух.
Ответы на вопросы индивидуальных работ должны быть сформулированы достаточно подробно, чтобы был ясен смысл излагаемого материала, подтвержденный, где это возможно, математическими формулами.
Расчетные задания можно выполнять как с использованием стандартных статистических пакетов (EXCEL, STATISTICA, SPSS и др.) с выводом результатов на печать, так и вручную, с помощью калькулятора.
Все вычисления должны быть представлены в таблицах и рисунках, примеры которых приводятся в соответствующих индивидуальных работах. Остальные результаты и их анализ даются в произвольном виде.
В Приложении 1 приводятся исходные данные о среднемесячной температуре поверхности в разных точках акватории Атлантического океана с 1957 по 1993 гг.
В каждый вариант исходных данных включены 3 временных ряда. Для выполнения индивидуальных работ нужно исследовать или все три ряда, или один из них, что указано в каждом конкретном задании.
В Приложении 2 находятся необходимые таблицы теоретических распределений для проверки статистических гипотез. Можно воспользоваться подобными таблицами, например, в [8].
В Приложении 3 приводится образец оформления заданий индивидуальных работ в MS EXcel.
В Приложении 4 предлагается инструкция по установке средств анализа данных пакета MS Excel.
Номер варианта совпадает с порядковым номером студента в списке группы.
Индивидуальная работа № 1
Задание 1
Проверка гипотезы о нормальном распределении генеральной совокупности
по критерию Пирсона (критерию c2)
Построить графики трех исходных рядов температуры воды (рисунок 1). Визуальный анализ графиков позволяет качественно оценить изменчивость рядов, наличие периодических колебаний и тренда.
Рисунок – 1 Временная изменчивость температуры поверхности океана
в октябре, ноябре и декабре в точке 9 (55° с.ш. 30° з.д.)
Для первого из трех предложенных рядов Х1, Х2 и Х3 проверить гипотезу о нормальном распределении генеральной совокупности по критерию Пирсона (критерию c2).
Для этого необходимо:
1. Руководствуясь рисунком 1 выдвинуть гипотезу о законе распределения исходных данных.
2. Произвести ранжирование ряда по возрастанию; определить минимальное и максимальное значение выборки:
, ,
п – объем выборки.
Вычислить размах (диапазон) выборки:
R = xmax – xmin.
3. Весь диапазон значений признака [xmin, xmax] разбить на N интервалов одинаковой длины. Число интервалов N определить по формуле Стерджеса:
N = 1 + [3,322 lg n ] = 1 + [log2 n],
где n – объем выборки, [.] – целая часть числа.
Вычислить величину интервалов h = R / N.
4. Определить границы интервалов (ai, ai+1):
a1 = xmin, a2 = a1 + h = xmin+ h, a 3 = a2 + h = xmin+ 2h, …, aN +1 = aN + h = xmin+ Nh.
5. Построить интервальный вариационный ряд, указав абсолютные mi и относительные wi частоты. Проверить выполнение условий нормировки для абсолютных и относительных частот.
6. Рассчитать середины x(i) интервалов (ai, ai+1):
.
7. По имеющемуся интервальному вариационному ряду с помощью Мастера диаграмм MS Excel построить гистограмму и полигон распределения абсолютных частот. Гистограмма представляет собой эмпирическую функцию распределения.
8. Вычислить выборочное среднее и выборочное среднее квадратическое отклонение , где п – объем выборки, N – число интервалов, mi – абсолютные частоты, – среднее арифметическое концов интервалов.
9. Перейти к нормированным величинам
, ,
причем значение z1полагают равным – ¥, а значение zN+1 полагают равным + ¥.
10. Вычислить теоретические частоты
mi' = nPi,
где п – объем выборки,
Pi = Ф0(zi+1) – Ф0(zi),
Ф0(z) = , Ф0(–z) = – Ф0(z), Ф0(–¥) = –0,5; Ф0(¥) = 0,5.
Значения функции Ф0(z) найти по Таблице 1 Приложения 2.
Замечание 1.Интервалы, содержащие малочисленные эмпирические частоты (mi < 5), следует объединить, а частоты этих интервалов сложить. В этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле k = N – 3 следует в качестве N принять число интервалов, оставшихся после объединения интервалов.
Замечание 2.Должно выполняться . В случае, если эти величины значительно (более чем на 1) отличаются друг от друга, необходимо ввести дополнительные фиктивные разряды, в которых частоты mj = 0, а теоретические частоты вычисляются по соответствующей формуле. Количество этих разрядов и их местоположение (в начале или в конце таблицы) должны обеспечивать максимально быстрое выполнение вышеуказанного приближенного равенства.
11. Для того чтобы оценить степень приближения выборочного распределения к теоретической кривой, вычислить наблюдаемое значение критерия c2набл :
c2набл = .
12. По Таблице 3 Приложения 2 критических точек распределения c2, по заданному уровню значимости a и числу степеней свободы k = N – 3, N – число интервалов, найти критическую точку c2кр(a; k) правосторонней критической области.
Указания:
а) значение критической точки c2кр(a; k) можно получить, применяя встроенную статистическую функцию ХИ2ОБР приложения MS Excel .
б) значения aуровней значимости выбрать из таблицы согласно номеру варианта:
№ варианта | |||||||||
a1 | 0,01 | 0,02 | 0,025 | 0,05 | 0,05 | 0,02 | 0,01 | 0,01 | 0,02 |
a2 | 0,05 | 0,001 | 0,09 | 0,025 | 0,02 | 0,01 | 0,05 | 0,025 | 0,05 |
№ варианта | |||||||||
a1 | 0,025 | 0,05 | 0,025 | 0,01 | 0,09 | 0,01 | 0,02 | 0,025 | 0,05 |
a2 | 0,01 | 0,001 | 0,065 | 0,025 | 0,01 | 0,05 | 0,01 | 0,05 | 0,08 |
13. Если c2набл < c2кр, то нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются незначимо. Если c2набл > c2кр – гипотезу отвергают.
Задание 2