Предмет математической статистики
СЕВМАШВТУЗ
О. Г. Спицына
И.С. Лобанова
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Северодвинск
2007
Оглавление | |
Введение | |
1. Выборки и их характеристики | |
1.1. Предмет математической статистики | |
1.2. Генеральная и выборочная совокупности | |
1.3. Статистическое распределение выборки | |
1.4. Эмпирическая функция распределения | |
1.5. Графическое изображение статистического распределения | |
2. Статистическое оценивание | |
2.1. Точечные оценки. Выборочная средняя и выборочная дисперсия | |
2.2. Метод моментов | |
2.3. Метод максимального правдоподобия | |
2.4. Интервальное оценивание параметров | |
3. Проверка статистических гипотез | |
3.1. Задачи статистической проверки гипотез | |
3.2. Статистическая гипотеза. Статистический критерий | |
3.3. Проверка гипотез о законе распределения | |
4. Корреляционно-регрессионный анализ | |
4.1. Понятие о корреляционной и регрессионной связи | |
4.2. Коэффициент корреляции | |
4.3. Линейная парная регрессия | |
Указания к выполнению контрольной работы | |
Варианты заданий для контрольной работы | |
Пример выполнения контрольной работы | |
Список рекомендуемой литературы | |
Приложения | |
Приложение 1 | |
Приложение 2 | |
Приложение 3 | |
Приложение 4 |
ВВЕДЕНИЕ
В окружающей нас жизни приходится сталкиваться с различными явлениями и фактами, наступление которых приписывается случаю, а сами явления и факты называются случайными. Но такое представление связано с единичными явлениями и фактами или с небольшим количеством одинаковых случаев.
Изучение закономерностей однородных массовых случайных явлений составляет предмет теории вероятностей и основанной на ней математической статистики. При этом изучаемые явления рассматриваются в абстрактной форме независимо от их конкретной природы. Только такой метод, характерный для всех отраслей математических знаний, и позволяет обоснованно устанавливать общие закономерности и положения, которые могут затем применяться уже к достаточно широкому классу явлений. Однако использование законов теории вероятностей на практике возможно при условии тщательной проверки соблюдения основных положений теории вероятностей и при правильной статистической обработке материалов, относящихся к изучаемым массовым явлениям.
Математическая статистика – раздел математики, в котором изучаются методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений для выявления существующих закономерностей.
Учебное пособие подготовлено в соответствии с утвержденной программой курса «Математика» и требованиями действующего Государственного образовательного стандарта высшего образования.
В состав учебного пособия входят: основные положения курса математической статистики, варианты контрольных работ, указания по выполнению контрольной работы, решения типовых задач, решенный вариант контрольной работы, список рекомендуемой литературы.
Выборки и их характеристики
Статистическое оценивание
Метод моментов
При заданном виде закона распределения случайной величины Х неизвестные параметры этого распределения можно оценить, то есть выразить как функцию вариант выборки.
Одним из методов нахождения точечных оценок неизвестных параметров заданного распределения является так называемый метод моментов.
Этот метод состоит в том, что приравниваются соответствующие теоретические и эмпирические моменты и из полученных уравнений находятся оценки параметров. В случае одного параметра в теоретическом распределении для его оценки достаточно составить одно уравнение. Если имеются два параметра в теоретическом распределении, то нужно приравнять соответственно два теоретических и эмпирических момента и т.д.
Для оценки двух параметров закона распределения запишем следующие равенства:
, = ,
где - начальный момент первого порядка закона распределения случайной величины;
- эмпирический момент первого порядка;
- центральный момент второго порядка закона распределения случайной величины;
- центральный эмпирический момент второго порядка.
Так как - математическое ожидание случайной величины , - дисперсия случайной величины , , , то получаем два уравнения:
, .
Пример 10. Имеются данные за шесть месяцев об остатках вкладов населения на счетах некоторого коммерческого банка (млн. руб.):
Месяц | ||||||
Остатки вкладов |
Остатки вклада на первое число каждого месяца являются случайной величиной, для характеристики которой принят показательный закон распределения
( ).
Найти оценку параметра .
Решение.
Так как закон распределения содержит лишь один параметр , то для его оценки требуется составить одно уравнение.
Находим выборочную среднюю:
.
Определяем математическое ожидание:
.
Интегрируя по частям, получаем:
.
Тогда
,
Откуда
.
Последнее равенство является приближенным, так правая часть его является случайной величиной. Таким образом, из полученного уравнения получается не точное значение , а его оценка :
.
Коэффициент корреляции
Для характеристики корреляционной зависимости между случайными величинами вводится понятие коэффициента корреляции .
Коэффициент корреляции между двумя случайными величинами и вычисляется по формуле:
,
где , - средние квадратические отклонения случайных величин соответственно.
Отметим некоторые свойства коэффициента корреляции:
1. Если независимые случайные величины, то коэффициент корреляции равен нулю.
2. Коэффициент корреляции принимает значения на отрезке , то есть . В зависимости от того, насколько приближается к 1, в математической статистике различают (шкала Шеддока): связи нет ( ), связь слабую ( ), умеренную ( ), тесную и очень тесную .
3. Если , то между случайными величинами имеет место функциональная, а именно линейная зависимость.
4. Коэффициент корреляции указывает на направление связи. Если , то связь прямая, если отрицателен, то это свидетельствует о наличии обратной связи.
Квадрат коэффициента корреляции называется коэффициентом детерминации:
.
Коэффициент детерминации показывает, какая часть общей вариации обусловлена вариацией .
Пример 15. С целью анализа влияния заработной платы на текучесть рабочей силы на пяти однотипных предприятиях проведены измерения уровня зарплаты (тыс.руб.) и числа уволившихся за год рабочих :
5,5 | |||||
Определить степень влияния заработной платы на текучесть рабочей силы.
Решение.
Для определения тесноты связи вычислим коэффициент корреляции, для чего составим расчетную таблицу:
5,5 | 30,25 | ||||
23,5 | 116,25 |
Так как коэффициент корреляции рассчитывается по формуле
, то:
1. Найдем средние значения: (сумма значений второго столбца, деленная на число строк:
;
среднее значение (сумма значений третьего столбца, деленная на число строк):
;
среднее значение (среднее значение шестого столбца):
.
2. Найдем средние квадратические отклонения :
где рассчитывается как среднее значение четвертого столбца.
Аналогично ,
где - среднее значение пятого столбца.
3. Подставляя найденные значения в формулу коэффициента корреляции, получим:
.
Таким образом, можно сделать вывод, что связь между заработной платой и текучестью рабочей силы очень тесная и обратная, так как полученный коэффициент корреляции отрицательный. Это говорит о том, что чем меньше заработная плата ( ), тем больше число уволившихся.
Выясним, какая часть вариации обусловлена вариацией . Вычислим коэффициент детерминации:
.
То есть вариации текучести рабочей силы ( ) на 92% обусловлена вариацией заработной платы ( ).
Линейная парная регрессия.
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень тесноты, обычно переходят к математическому описанию вида зависимостей с использованием регрессионного анализа. Если коэффициент корреляции , то согласно шкале Шеддока связи между переменными нет, а следовательно не имеет смысла описывать модель связи.
Регрессионная модель представляет собой математическое выражение, связывающее случайные величины . Уравнение регрессии – это зависимость величины от .
Часто встречающейся моделью зависимости является линейная парная корреляция. Вообще говоря, уравнение регрессии может описывать взаимосвязь не двух, а более переменных (то есть быть не парной, а множественной). Кроме того, связь между переменными далеко не всегда линейна.
В общем случае уравнение регрессии имеет вид:
,
где параметры модели, ошибка наблюдений.
Уравнение парной линейной регрессии выглядит следующим образом:
,
где и - параметры уравнения линейной регрессии.
Для нахождения параметром применяют метод наименьших квадратов, согласно которому неизвестные и выбираются таким образом, чтобы сумма квадратов отклонений эмпирических средних значений от значений, найденных по уравнению регрессии была минимальной:
.
Получим систему нормальных уравнений для нахождения искомых параметров:
Разделив обе части уравнений на , получим систему нормальных уравнений в виде:
Решая систему уравнений, найдем:
зная, что и формулу для вычисления коэффициента корреляции можем записать:
Коэффициент называется коэффициентом регрессии. Он показывает, на сколько единиц в среднем изменяется переменная при изменении на одну единицу.
Замечание. Знак коэффициента регрессии указывает на направление связи: если , связь прямая, если - обратная. Очевидно, что знаки коэффициентов корреляции и регрессии должны совпадать.
Решая систему относительно параметра , получим:
.
Для установления влияния на зависимую переменную независимой переменной, то есть для интерпретации модели используется коэффициент эластичности:
.
Коэффициент эластичности показывает, на сколько процентов изменится при изменении на 1 %.
Пример 16. В условиях предыдущей задачи найти уравнение линейной регрессии, выражающее зависимость между заработной платой рабочих и числом уволившихся.
Решение.
1. Для определения параметров и линии регрессии составим систему нормальных уравнений:
2. Подставляя найденные в предыдущей задаче средние значения , , , получим:
3. Решая эту систему, найдем ; 98,85. Тогда уравнение регрессии:
.
Отрицательный коэффициент регрессии подтверждает то, что связь между заработной платой рабочих и текучестью кадров обратная. Вычислим коэффициент эластичности:
.
Полученный коэффициент свидетельствует о том, что при увеличении заработной платы на 1%, число увольняющихся в среднем сократиться на 2,3%.
Указания к выполнению РГР
Цель РГР – углубление и закрепление студентами знаний, полученных в процессе изучения настоящего курса.
Работа оформляется на одной стороне стандартного листа бумаги формата А4 с использованием любых средств печати либо рукописно.
Работа состоит из двух задач, связанных с математическими расчетами, построением таблиц и вычерчиванием графиков. Решение задач должно быть представлено подробно (поэтапно) с указанием формулировки условия, соответствующих формул и вычислений. Таблицы и графики следует изображать с соблюдением общих правил оформления табличного и графического материала.
Варианты заданий РГР
Задание 1. По имеющимся данным требуется:
1. Построить статистический ряд распределения. изобразить получившийся ряд графически с помощью полигона или гистограммы. Найти функцию распределения, построить ее график.
2. Найти: выборочную среднюю, выборочную дисперсию, среднее квадратическое отклонение выборки, моду и медиану.
3. Проверить при уровне значимости гипотезу о соответствии имеющего статистического распределения нормальному закону.
4. Считая данные нормально распределенной случайной величиной найти:
а) точечную оценку математического ожидания изучаемой совокупности;
б) доверительный интервал для математического ожидания с доверительной вероятностью 0,95.
Вариант 1.Имеются данные о численности работающих в фирмах отрасли, человек:
Вариант 2. Имеются следующие данные о количестве произведенной продукции по предприятиям отрасли, тыс.руб.:
Вариант 3.Имеются данные о стаже работы сотрудников предприятия, лет.
Вариант 4.Имеются данные о средненедельном объеме продаж торговых точек фирмы в тыс.руб.
104,9 | 57,1 | 43,0 | 62,9 | 62,1 | 125,9 | 61,5 | 100,3 | 75,8 | 96,1 |
76,9 | 100,4 | 149,2 | 45,6 | 84,2 | 65,3 | 76,0 | 39,3 | 33,3 | 46,2 |
76,1 | 22,1 | 96,4 | 63,1 | 86,4 | 79,8 | 2,1 | 58,6 | 103,6 | 72,8 |
26,2 | 91,7 | 84,1 | 94,2 | 83,0 | 79,0 | 98,1 | 79,3 | 117,9 | 17,6 |
147,2 | 113,4 | 52,4 | 75,8 | 124,5 | 26,9 | 115,6 | 84,7 | 124,9 | 57,6 |
Вариант 5.Имеются данные о располагаемом денежном доходе на душу населения в руб. в 2006 г.
Вариант 6.По данным обследования автомобилей некоторой марки имеются данные о расходе бензина в литрах на 100 км:
7,9 | 7,6 | 7,3 | 7,0 | 5,7 | 7,1 | 8,0 | 6,6 | 7,4 | 7,3 |
7,5 | 6,5 | 7,0 | 6,9 | 7,2 | 7,3 | 7,0 | 6,3 | 5,9 | 7,0 |
6,8 | 7,5 | 6,6 | 7,7 | 7,1 | 5,7 | 7,0 | 6,9 | 8,1 | 6,6 |
6,8 | 8,2 | 6,9 | 6,8 | 7,2 | 6,4 | 6,9 | 6,7 | 6,5 | 7,1 |
7,1 | 7,3 | 6,4 | 6,1 | 6,7 | 7,3 | 6,9 | 6,8 | 7,6 | 7,0 |
Вариант 7.По данным статистического наблюдения имеются данные о количестве пользователей, посетивших сайт одной из торговых компаний, чел. в час:
Вариант 8.Имеются данные о прибыли коммерческих банков региона, млн. руб.:
7,9 | 13,7 | 36,8 | 5,3 | 38,1 | 25,6 | 12,5 | 23,9 | 19,1 | 7,3 |
25,1 | 15,4 | 2,0 | 22,1 | 40,3 | 18,0 | 37,5 | 34,0 | 9,7 | 20,3 |
23,5 | 13,4 | 26,7 | 0,2 | 28,5 | 0,1 | 37,6 | 27,2 | 34,4 | 13,6 |
27,6 | 33,5 | 49,3 | 45,2 | 16,8 | 25,3 | 35,4 | 25,3 | 31,7 | 5,1 |
Вариант 9.Имеются данные за несколько лет об урожайности пшеницы в некоторой области, ц/га:
33,4 | 27,0 | 31,2 | 23,2 | 19,1 | 24,4 | 36,6 | 26,6 | 30,6 |
35,5 | 19,5 | 31,1 | 23,2 | 31,4 | 28,1 | 28,3 | 23,3 | 27,9 |
33,9 | 20,3 | 30,9 | 32,7 | 31,7 | 24,2 | 31,2 | 31,5 | 19,9 |
26,9 | 33,9 | 32,3 | 42,1 | 34,5 | 32,0 | 28,7 | 21,6 | 38,8 |
29,1 | 37,5 | 23,6 | 25,9 | 23,2 | 28,4 | 20,0 | 37,8 | 21,5 |
Вариант 10.Получены следующие данные о технике чтения первоклассников в марте, слов в минуту:
Задание 2. По приведенным ниже данным требуется:
1. Оценить степень зависимости между переменными;
2. Найти уравнение линейной регрессии;
3. Интерпретировать полученную модель, сделать выводы.
Вариант 1. По годовым отчетам промышленных предприятий получена следующая информация:
Среднесписочное число работников, чел. | Объем продукции, млн.руб. | Среднесписочное число работников, чел. | Объем продукции, млн.руб. | |
Вариант 2. По группе грузовых автотранспортных предприятий города имеется следующая информация за отчетный год:
Грузооборот, млн.ткм | Сумма затрат на перевозки, тыс. руб. | Грузооборот, млн.ткм | Сумма затрат на перевозки, тыс. руб. | |
Вариант 3. Рабочие фирмы по производству пластиковых окон характеризуются следующими показателями:
Стаж работы, лет | Месячная зарплата, тыс. руб. | Стаж работы, лет | Месячная зарплата, тыс. руб. | Стаж работы, лет | Месячная зарплата, тыс. руб. | ||
1,40 | 1,60 | 2,50 | |||||
1,50 | 1,75 | 3,00 | |||||
2,20 | 1,55 | 1,50 | |||||
1,85 | 1,50 | 2,65 | |||||
1,50 | 2,80 | 2,80 | |||||
2,40 | 2,80 | 2,90 | |||||
1,80 | 1,80 | 1,50 | |||||
1,50 | 1,70 | 1,25 | |||||
1,85 | 3,00 | 1,65 |
Вариант 4. Имеются следующие данные по группе промышленных предприятий за отчетный год:
Объем продукции, млн. руб. | Прибыль, тыс. руб. | Объем продукции, млн. руб. | Прибыль, тыс. руб. | |
197,7 | 13,5 | 204,7 | 30,6 | |
592,0 | 136,2 | 466,8 | 111,8 | |
465,5 | 97,6 | 292,2 | 49,6 | |
296,2 | 44,4 | 423,1 | 105,8 | |
584,1 | 146,0 | 192,6 | 30,7 | |
480,0 | 110,4 | 360,5 | 64,8 | |
578,5 | 138,7 | 208,3 | 33,3 |
Вариант 5. По сотовым телефонам некоторой марки имеются следующие данные:
Вес, гр. | Цена, усл.ед. | Вес, гр. | Цена, усл.ед. | |
Вариант 6. Имеются следующие данные по промышленным заводам региона:
Основные производственные фонды, млн.руб. | Среднесписочное число работниковчел. | Основные производственные фонды, млн.руб. | Среднесписочное число работников чел. | Основные производственные фонды, млн.руб. | Среднесписочное число работниковчел. | ||
13,3 | 56,6 | 18,0 | |||||
21,1 | 63,0 | 22,0 | |||||
28,0 | 31,0 | 10,0 | |||||
38,0 | 28,0 | 16,0 | |||||
55,0 | 78,0 | 10,0 | |||||
18,0 | 42,0 | 21,0 | |||||
19,0 | 14,0 | 17,0 | |||||
43,0 | 15,0 | 15,0 |
Вариант 7. Имеются следующие данные по предприятиям отрасли:
Основные производствен-ные фонды, млн.руб. | Прибыль предприя-тия, тыс.руб. | Основные производственные фонды, млн.руб. | Прибыль предприя-тия, тыс.руб. | Основные производственные фонды, млн.руб. | Прибыль предприя-тия, тыс.руб. | ||
31,1 | 23,0 | 62,0 | |||||
42,0 | 26,0 | 39,0 | |||||
28,0 | 38,5 | 29,0 | |||||
55,0 | 78,0 | 60,0 | |||||
61,2 | 42,0 | 41,8 | |||||
65,0 | 44,0 | 27,0 | |||||
23,0 | 57,0 | 88,0 | |||||
27,9 | 32,2 | 58,5 | |||||
42,7 | 30,0 | 70,0 | |||||
30,5 | 30,6 | 45,0 | |||||
24,9 | 36,7 | 60,8 | |||||
41,7 | 51,4 | 48,7 | |||||
44,0 | 58,3 | 43,6 |
Вариант 8.Рабочие фирмы по производству металлических дверей характеризуются следующими показателями:
Стаж работы, лет | Выработка шт./чел. | Стаж работы, лет | Выработка, шт./чел. | Стаж работы, лет | Выработка, шт./чел. | ||
Вариант 9. Имеются основные показатели деятельности коммерческих банков региона, млн. руб.:
Кредитные вложения, млн.руб. | Прибыль, млн. руб. | Кредитные вложения, млн.руб. | Прибыль, млн. руб. | Кредитные вложения, млн.руб. | Прибыль, млн. руб. | ||
50,2 | 25,1 | 136,4 | 3,9 | 180,0 | 2,0 | ||
0,5 | 0,1 | 150,8 | 0,4 | 198,1 | 2,4 | ||
89,8 | 2,0 | 135,4 | 13,4 | 215,0 | 49,3 | ||
88,3 | 5,3 | 99,9 | 17,2 | 211,0 | 2,2 | ||
21,0 | 22,1 | 111,3 | 5,6 | 250,5 | 6,6 | ||
59,1 | 0,2 | 167,1 | 12,3 | 199,7 | 16,8 | ||
0,1 | 0,9 | 98,3 | 1,1 | 256,7 | 19,1 | ||
156,0 | 5,9 | 171,0 | 4,8 | 366,8 | 9,7 | ||
145,5 | 0,1 | 148,3 | 3,6 | 298,5 | 34,4 | ||
93,3 | 0,1 | 117,3 | 13,6 | 302,5 | 5,1 |
Вариант 10. Имеются следующие данные о работниках предприятия:
Стаж работы, лет | Месячная зарплата, руб. | Стаж работы, лет | Месячная зарплата, руб. | Стаж работы, лет | Месячная зарплата, руб. | ||
Пример выполнения РГР
Задание 1. В результате статистического исследования, проведенного среди работников некоторого промышленного объединения на основе случайной выборки, получены следующие данные о величине совокупного месячного дохода (т