Нахождение выборочных уравнений прямых линий
Цель работы
Овладеть методами:
а) сбора, систематизации и первичной обработки статистических данных;
б) получения выборочных характеристик статистического распределения и оценивания параметров генеральной совокупности по данному распределению.
Выполнению лабораторной работы № 1 предшествует изучение соответствующих разделов «Математической статистики» и может быть использована следующая литература:
[1. –гл. 15: § 1, 2-8; гл. 16: § 1-5, 8-10, 13].
[2. –гл. 6: § 1-4; гл. 7: § 1].
[3. –гл. 25: 25.1-25.5; гл. 27: 27.1-27.4, 27.6].
[4. –гл. 8: § 1,2, 5; гл. 9: §1-4].
[5. –гл. VI : § 1].
Последовательность выполнения работы:
1. Провести наблюдение над некоторой случайной величиной. Вид случайной величины задаётся преподавателем. Простым случайным повторным или бесповторным отбором данных собрать результаты наблюдения над изучаемой случайной величиной. Выборка должна иметь объем не менее 100 единиц.
2. Наблюдаемые значения изучаемого признака представить в виде интервального вариационного ряда. Построить таблицу для подсчета частот по интервалам и по ней составить статистическое распределение для случайной величины.
3. Построить гистограмму плотности относительных частот выборки.
4. Составить дискретный вариационный ряд и статистическое распределение частот и относительных частот выборки.
5. Построить полигон относительных частот.
6. Найти эмпирическую функцию распределения и построить ее график.
7. Найти точечные характеристики выборки: выборочную среднюю или , выборочную дисперсию или , выборочное среднее квадратическое отклонение или , выборочные коэффициенты асимметрии или и эксцесса или .
Теоретический материал
1. Статистическая обработка результатов наблюдений в случае выборки большого объема начинается с группировки значений признака . С этой целью наблюдаемые значения признака разбиваются на частичные интервалы, длина которых находится по формуле:
,
где - объём выборки, и – соответственно наибольшее и наименьшее наблюдаемые значения признака. Полученное значение следует округлить, сохраняя столько разрядов, сколько содержится в записи значений изучаемого признака.
2. Таблицу для подсчета частот строим по интервальному вариационному ряду. За начало первого частичного интервала примем . Правый конец этого интервала будет равен . Все последующие значения правых границ частичных интервалов получаются путем прибавления шага к значению левого конца, а левый конец совпадает с правым предыдущего интервала. Перебирая все выборочные данные, подсчитываем частоты - количество значений изучаемого признака, попавших в каждый интервал. По сгруппированным данным строим статистические распределения частот , относительных частот и плотности относительных частот вариационного ряда. Сумма относительных частот должна быть равной единице, т.е. .
3. Наглядное изображение эмпирического распределения можно представить в виде гистограммы (частот, относительных частот или плотности относительных частот), которая состоит из примыкающих друг к другу прямоугольников. Основанием (шириной) прямоугольников являются частичные интервалы, а высотами могут служить соответственно частоты, относительные частоты или плотности относительных частот.
4. Дискретный вариационный ряд строится по интервальному вариационному ряду. За значения вариант выбираются середины частичных интервалов, т.е. с соответствующими частотами или относительными частотами.
5. Полигоном частот или относительных частот называют ломаную линию, отрезки которой соединяют точки с координатами соответственно или , .
6. Эмпирическая функция распределения определяет для каждого значения относительную частоту события : , где -число выборочных значений, меньших , -объём выборки. Функция представляет собой ступенчатую кусочно-постоянную линию и служит для оценки теоретической функции распределения всей генеральной совокупности.
7. К точечным характеристикам статистического распределения относятся:
1) выборочное среднее ;
2) выборочная дисперсия ;
3) выборочное среднее квадратическое отклонение ;
4) выборочный коэффициент асимметрии
;
5) выборочный коэффициент эксцесса
.
Оформление лабораторной работы № 1
1. Пусть требуется изучить показатель товарооборота в процессе работы магазинов одного типа в пределах некоторого региона. Предположим, что в результате выборочного обследования были собраны данные о товарообороте 100 однотипных магазинов. Наблюдаемые значения признака - товарооборот магазина (ден. ед.) представлены в таблице 1.
Таблица 1 – Данные о товарообороте магазинов
N | X | N | X | N | X | N | X | N | X |
В нашем примере , , . За число интервалов берется одно из ближайших целых чисел (т.к. наблюдаемые значения записаны в целых числах), т.е. .
1. Составляем таблицу для подсчета частот (таблица 2). За начало первого частичного интервала примем =15-5=10. Правый конец этого интервала будет равен =15+5=20. Все последующие значения правых границ интервалов получаем по формуле .
Таблица 2 – Подсчет частот по интервалам
Частичные интервалы | Подсчет частот | Частоты |
(10-20] | ||
(20-30] | ||
(30-40] | ||
(40-50] | ||
(50-60] | ||
(60-70] | ||
(70-80] | ||
(80-90] | ||
Контроль |
По сгруппированным данным строим статистические распределения частот , относительных частот и плотности относительных частот вариационного ряда (таблица3). Для контроля просуммируем относительные частоты. В нашем примере .
.
Таблица 3 – Статистическое распределение выборки
Частичные интервалы | (10-20] | (20-30] | (30-40] | (40-50] | (50-60] | (60-70] | (70-80] | (80-90] |
Частоты | ||||||||
Относит. частоты | 0.05 | 0.11 | 0.15 | 0.20 | 0.19 | 0.14 | 0.13 | 0.03 |
Плотность относит. частот | 0.005 | 0.011 | 0.015 | 0.020 | 0.019 | 0.014 | 0.013 | 0.003 |
3. Для построения гистограммы плотности относительных частот по оси абсцисс откладываем частичные интервалы, и на них, как на основаниях, строим прямоугольники с высотами равными плотностям относительных частот (рис. 1).
4. По сгруппированной выборке строим дискретный вариационный ряд и статистическое распределение частот и относительных частот (таблица 4).
Таблица 4 – Дискретный вариационный ряд
Середины интервалов | ||||||||
Частоты | ||||||||
Относительные частоты | 0.05 | 0.11 | 0.15 | 0.20 | 0.19 | 0.14 | 0.13 | 0.03 |
5. Для построения полигона относительных частот соединяем отрезками прямых точки с координатами , полученная ломаная является полигоном (рис. 2).
6. Для нахождения эмпирической функции распределения построим таблицу 5, где произведем подсчет числа значений изучаемого признака, меньших начала каждого частичного интервала.
Таблица 5 – Значения эмпирической функции распределения
Начало интервалов | |||||||||
Число значений, меньших | |||||||||
0.05 | 0.16 | 0.31 | 0.51 | 0.70 | 0.84 | 0.97 |
График эмпирической функции приведён на рис. 3.
7. Для нахождения точечных характеристик выборки составим расчетную таблицу 6.
Таблица 6 – Расчетная таблица
Середина интервала | Частоты | |||||
– 34.6 | 5985.8 | – 207108.68 | 7165960.320 | |||
– 24.6 | 6656.76 | –163756.296 | 4028404.882 | |||
– 14.6 | 3197.4 | – 46682.04 | 681557.784 | |||
– 4.6 | 423.2 | – 1946.72 | 8954.912 | |||
5.4 | 554.04 | 2991.816 | 16155.8064 | |||
15.4 | 3320.24 | 51131.696 | 787428.12 | |||
25.4 | 8387.08 | 213031.832 | 5411008.533 | |||
35.4 | 3759.48 | 133085.592 | 4711229.957 | |||
Сумма | – 19252.8 | 22023272.2 |
Используя полученные в таблице значения, найдем точечные выборочные статистические характеристики в пределах данной выборки.
ден.ед.;
;
ден.ед.;
;
.
При защите лабораторной работы:
1. Объяснить полученные результаты.
2. Ответить на контрольные вопросы.
3. Решить задачи и упражнения.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. В чем заключается сущность выборочного метода? На каких теоремах теории вероятностей основан этот метод?
2. Что означает термин “репрезентативная выборка”? Каким образом она обеспечивается?
3. Приведите примеры дискретных и непрерывных вариационных рядов.
4. Назовите свойства эмпирической функции распределения. Какова разница между ней и теоретической функцией распределения?
5. Перечислите числовые характеристики выборки и формулы, по которым они вычисляются. Что характеризует каждая из них?
6. Что такое точечная оценка неизвестного параметра закона распределения?
7. Какими свойствами должны обладать точечные оценки?
8. Назовите точечные оценки, которые обладают всеми необходимыми свойствами.
ЗАДАЧИ И УПРАЖНЕНИЯ
1. Получено распределение работников предприятия по заработной плате в усл.ед.:
Зар.плата, у.е. | 3.5 | 4.5 | ||||
Число рабочих |
а) найти среднюю заработную плату работников данного предприятия, оценить абсолютный разброс заработной платы вокруг средней;
б) построить график эмпирической функции распределения;
в) найти дисперсию, исходя из определения ,
и пользуясь формулой .
2. Найти точечные оценки генеральной совокупности по выборке, записанной в виде интервального вариационного ряда
Частичные интервалы | (1 – 3] | (3 – 5 ] | (5 – 7] | (7 – 9] |
Частоты, |
3. При изучении химического состава творога было обследовано 10 образцов и получены следующие данные о содержании жира в %: 4.9, 4.6, 5.4, 4.9, 6.5, 7.5, 8.4, 8.8, 6.8, 7.3.
Определить среднее содержание жира в твороге, оценить абсолютный разброс жирности исследуемых образцов.
РАСЧЕТНАЯ РАБОТА 2
Проверка статистических гипотез
Цель работы
Овладеть методами:
а) проверки статистической гипотезы о нормальном распределении генеральной совокупности, из которой извлечена выборка, по критерию Пирсона;
б) нахождения доверительных интервалов для оценки параметров нормального распределения.
Перед выполнением лабораторной работы № 2 необходимо изучить соответствующие разделы «Математической статистики», для этого может быть использована следующая литература:
[1 – гл. 19: § 1-4, 23,24; гл. 16: §14, 15, 18; гл. 17: § 6, 7].
[2 –гл. 8: § 3-5].
[3 –гл. 30: 30.1-30.3].
[4 –гл. 9: 9.6, 9.7; гл. 10: 10.7].
[5 –гл. VI: § 4; гл.VII: § 1, 3].
Последовательность выполнения работы:
1. Выдвинуть нулевую гипотезу о виде распределения.
2. Провести предварительную проверку эмпирического распределения на нормальность.
3. По критерию согласия Пирсона проверить нулевую гипотезу. С этой целью сравнить эмпирические и теоретические частоты.
4. Вычислить случайную величину по найденным значениям теоретических частот ;
5. По заданному для вариантов уровню значимости (приложение А) и по числу степеней свободы найти соответствующее значение (приложение В). Сравнить и , и сделать вывод о принятии или непринятии нулевой гипотезы .
6. Построить на одном чертеже полигон относительных частот и нормальную кривую по теоретическим вероятностям .
7. Найти доверительный интервал для оценки параметра нормального распределения с заданной доверительной вероятностью .
8. Найти доверительный интервал для оценки параметра нормального распределения с заданной доверительной вероятностью .
Теоретический материал
1. Статистической гипотезой называют предположение (высказывание) либо о виде неизвестного распределения, либо о параметрах известных распределений. Нулевой (основной) называют выдвинутую гипотезу . Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой. В данной лабораторной работе выдвигается нулевая гипотеза о виде предполагаемого распределения. В лабораторной работе № 1 получены гистограмма и полигон относительных частот, которые напоминают кривую Гаусса. Поэтому можно предположить, что закон распределения изучаемой случайной величины является нормальным.
Нормальный закон распределения занимает среди других законов распределения особое положение и является наиболее часто встречающимся на практике. Главная его особенность состоит в том, что он является предельным законом, к которому приближаются другие законы распределения при часто встречающихся типичных условиях.
Если рассматриваемая случайная величина является суммой достаточно большого числа других независимых или слабо зависимых случайных величин, влияние каждой из которых на нее очень мало, то эта случайная величина будет иметь распределение, близкое к нормальному. Случайная величина – товарооборот, изучаемая в работе, зависит от множества факторов (наличия у населения денег, количества и качества товаров, качества обслуживания и т.д.), которые не зависят друг от друга, и каждый из которых влияет на нее незначительно. Учитывая сказанное, можно выдвинуть нулевую гипотезу : генеральная совокупность, из которой извлечена выборка, распределена по нормальному закону.
2. Для предварительной проверки эмпирического распределения на нормальность используем основные свойства нормального распределения (правило трех сигм):
а) практически все отклонения от среднего значения, а именно 99,73% из них, должны быть меньше трех сигм.
б) примерно 2/3 (68,26%) всех отклонений должно быть меньше .
3. Согласно критерию согласия Пирсона, сравниваются эмпирические, т.е. наблюдаемые, частоты и теоретические частоты , вычисленные в предположении нормального распределения. Теоретические вероятности попадания случайной величины в интервал вычисляются по формуле:
.
Замечание. В каждом интервале должно быть не менее 5 вариант, малочисленные интервалы следует объединить с соседними, суммируя частоты.
4. В качестве критерия проверки нулевой гипотезы примем случайную величину
.
Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина этого критерия, и следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений. Этот критерий называют критерием согласия «хи квадрат». Используя вычисленные теоретические частоты , находится наблюдаемое значение критерия
.
5. По заданному уровню значимости и числу степеней свободы находят по таблице (приложение В) критическую точку . Число степеней свободы определяется по формуле: , где - число интервалов после объединения, – число параметров предполагаемого распределения, которые оценены по данным выборки.
Сравнивая значения и , сделаем вывод о принятии или непринятии нулевой гипотезы .
Если , то нет оснований отвергнуть нулевую гипотезу.
Если , то нулевую гипотезу отвергают.
Замечание. Если при заданном в варианте уровне значимости нулевая гипотеза не принимается, то следует выяснить, при каком уровне значимости она принимается.
6. На чертеже, где показан полигон относительных частот (рисунок 2), построить нормальную кривую по точкам .
7. По заданной доверительной вероятности найдём интервальную оценку параметра нормального закона распределения. Вычислим погрешность интервального оценивания , где параметр находится (при больших объемах выборки ) из равенства или , где - функция Лапласа. Доверительный интервал для оценки математического ожидания находится из неравенства .
8. Доверительный интервал для оценки параметра нормального распределения при заданной доверительной вероятности находится из неравенства , где исправленное выборочное среднее квадратическое отклонение при выборках большого объема приближенно равно , а находится по таблице (приложение Г). В данном неравенстве предполагается, что , в противном случае, учитывая, что оцениваемый параметр , доверительный интервал принимает вид .
Оформление лабораторной работы № 2
1. Построенные в лабораторной работе № 1 гистограмма (рис. 1) и полигон относительных частот (рис. 2) напоминают кривую Гаусса. Поэтому выдвинем нулевую гипотезу : генеральная совокупность, из которой извлечена выборка, распределена по нормальному закону.
2. Для предварительной проверки эмпирического распределения на нормальность используем основные свойства нормального распределения (проверку проводим по таблице 6 лабораторной работы № 1):
а) все отклонения усредненных значений признака от среднего значения , меньше ;
б) 68% отклонений меньше .
Оба условия проверки выполняются, следовательно, будем проверять нулевую гипотезу с помощью критерия согласия Пирсона.
3. Согласно критерию согласия Пирсона, сравниваются эмпирические, частоты и теоретические частоты , для нахождения которых необходимо вычислить теоретические вероятности попадания случайной величины в интервал . Учитывая замечание, два последних интервала объединим. Составим расчетную таблицу, где будут использованы значения и , вычисленные в лабораторной работе № 1.
Таблица 1 – Расчет теоретической вероятности попадания случайной величины в заданный интервал
( ;20] | -1.64 | -0.5 | -04495 | 0.0505 | ||
(20; 30] | -1.64 | -1.01 | -0.4495 | -0.3438 | 0.1057 | |
(30; 40] | -1.01 | -0.53 | -0.3438 | -0.2019 | 0.1419 | |
(40; 50] | -0.53 | 0.02 | -0.2019 | 0.0080 | 0.2099 | |
(50; 60] | 0.02 | 0.58 | 0.0080 | 0.2190 | 0.2110 | |
(60; 70] | 0.58 | 1.13 | 0.2190 | 0.3708 | 0.1518 | |
(70; ] | 1.13 | 0.3708 | 0.5000 | 0,1292 |
Контроль: , где – число объединённых интервалов.
4. В качестве проверки нулевой гипотезы по критерию Пирсона примем случайную величину
.
Составим расчетную таблицу.
Таблица 2–Вычисление наблюдаемого значения критерия
Середины интервалов | |||||
0.0505 | |||||
0.1051 | |||||
0.1419 | 0.07 | ||||
0.2099 | 0.05 | ||||
0.2110 | 0.19 | ||||
0.1518 | 0.07 | ||||
0.1292 | 0.69 | ||||
Итак, вычисленное по данным наблюдений значение критерия, .
5. Зададим уровень значимости , найдем число степеней свободы , учитывая, что, число интервалов после объединения =7, а для нормального распределения =2, получим .
По таблице критических точек распределения (приложение В**), по уровню значимости и по числу степеней свободы , находим соответствующее значение . Поскольку , то нет оснований отвергнуть нулевую гипотезу о нормальном распределении случайной величины .
6. Построим на одном чертеже полигон относительных частот (рисунок 2 из лабораторной работы №1) и нормальную кривую по серединам частичных интервалов и соответствующим им вероятностям , полученным в таблице 2.
Рис. 1. Полигон относительных частот и нормальная кривая
7. По заданной доверительной вероятности найдём интервальные оценки параметров нормального закона распределения. Найдём доверительный интервал для оценки параметра нормального распределения с заданной доверительной вероятностью . Параметр при нахождении погрешности интервального оценивания найдем по таблице Лапласа (приложение Б*) из равенства или , соответственно . Погрешность оценивания . Доверительный интервал найдём по формуле и учитывая, что выборочное среднее, найденное в лабораторной работе , получим:
или .
Таким образом, с вероятностью (в 90% случаев) можно утверждать, что доверительный интервал (46,63; 52,57) покроет математическое ожидание значения товарооборота; в 10% случаев математическое ожидание может выйти за границы доверительного интервала.
8. Доверительный интервал для оценки параметра нормального распределения при заданной доверительной вероятности найдем из неравенства , учитывая, что при выборках большого объема можно принять = =18, а =0.1 найден по таблице (приложение Г). Искомый доверительный интервал будет иметь вид: или .
Итак, доверительный интервал (16.2; 19.8) с надежностью покрывает неизвестное генеральное среднее квадратическое отклонение .
При защите лабораторной работы:
1. Объяснить полученные результаты.
2. Ответить на контрольные вопросы.
3. Решить задачи и упражнения.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Что такое статистическая гипотеза? Назовите виды гипотез.
2. Что такое ошибки первого и второго рода, уровень значимости?
3. Каким образом вычисляются теоретические частоты? Чем они отличаются от эмпирических частот?
4. В чём состоит критерий согласия Пирсона?
5. Дать определение доверительной вероятности, доверительного интервала.
6. Чем отличается вычисление доверительного интервала для выборки «малого» и «большого» объёмов?
7. Что происходит с длиной доверительного интервала при изменении объёма выборки? При изменении доверительной вероятности?
ЗАДАЧИ И УПРАЖНЕНИЯ
1. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением равным 3. Найти доверительный интервал для оценки неизвестного математического ожидания а по выборочной средней = 16, если объём выборки равен 12 и задана надёжность оценки = 0,99.
2. Количественный признак Х генеральной совокупности распределён нормально с известным средним квадратическим отклонением = 3. Найти доверительный интервал, покрывающий неизвестное математическое ожидание а по выборочной средней = 20, если объём выборки равен 50 и задана надёжность оценки = 0,999.
3. Количественный признак Х генеральной совокупности распределён нормально. По выборке объёма n = 25 найдено “исправленное” среднее квадратическое отклонение s = 0.75. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надёжностью = 0,95.
4. При уровне значимости 0.05 проверить гипотезу о нормальном распределении генеральной совокупности,
Эмпирические | |||||||
Теоретические |
если известны эмпирические частоты и теоретические.
РАСЧЕТНАЯ РАБОТА 3
Нахождение выборочных уравнений прямых линий
Регрессии
Цель работы
Овладеть методами:
а) установления связи между случайными величинами и при большом и малом числе наблюдений;
б) определения параметров выборочного уравнения прямой линии регрессии;
в) проверки гипотезы о значимости выборочного коэффициента корреляции.
Перед выполнением лабораторной работы № 3 необходимо изучить соответствующие разделы «Математической статистики», для этого может быть использована следующая литература:
[1 – гл. 18: § 1-3, 5-8; гл. 19: § 22].
[2 – гл. 9: § 1-3,5-7].
[3 – гл. 21: 21.5-21.7].
[4 – гл. 12: 12.1-12.3].
[5 – гл. IX: § 1-3].
Последовательность выполнения работы:
1. Составить таблицу для подсчета количества пар значений , попадающих в частичные интервалы.
2. Составить корреляционную таблицу по серединам частичных интервалов и найденному количеству пар .
3. Построить корреляционное поле. По характеру расположения точек на нем выбрать вид зависимости между случайными величинами и .
4. Вычислить выборочный корреляционный момент и выборочный коэффициент корреляции . По найденному значению сделать вывод о тесноте связи между и .
5. Найти выборочные уравнения регрессии на и на . Построить полученные прямые на корреляционном поле и найти точку пересечения прямых линий регрессии.
6. Проверить гипотезу о значимости выборочного коэффициента корреляции.
Теоретический материал
1. Изучение связи между случайными величинами и начинается с составления таблицы, в которой используются полученные в лабораторной работе № 1 частичные интервалы для случайных величин и . По этим интервалам составляется таблица, в которой в частичных интервалах проводится подсчет количества пар значений , для которых попало соответственно в -ый, а в -ый интервалы ( ).
2. В корреляционной таблице в первой строке и первом столбце записываются середины частичных интервалов для случайных величин и , использованные в предыдущей таблице, и проставляется найденное в ней количество пар .
3. Корреляционное поле строится следующим образом. В системе координат по оси абсцисс отмечаются середины интервалов признака , по оси ординат середины интервалов признака и отмечается количество пар значений . По характеру расположения точек на корреляционном поле выбирается вид зависимости между изучаемыми признаками и .
4. Предполагая линейный характер зависимости между товарооборотом и средними товарными запасами , вычисляется выборочный корреляционный момент по формуле:
.
Для проверки вычислений значение можно вычислять двумя способами: а) ;
б) .
Выборочный коэффициент корреляции находится по формуле:
,
он определяет тесноту связи между признаками и . Одним из свойств является то, что , чем ближе к единице модуль значения , тем теснее связаны изучаемые признаки.
5. Выборочными уравнениями регрессии на ( ) и на ( ) являются уравнения вида:
;
.