Статистическое распределение выборки
Глава 5 МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Математическая статистика – раздел математики, в котором изучаются методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений для выявления существующих закономерностей. В математической статистике решаются две категории задач: оценивание и статистическая проверка гипотез. Первая задача разделяется на точечное оценивание и интервальное оценивание параметров распределения. Вторая задача заключается в том, что мы делаем предположение о распределении вероятностей случайной величины и решаем, согласуются ли эти значения параметров с полученными результатами наблюдения.
Выборочный метод
Совокупность всех подлежащих изучению объектов или возможных результатов наблюдений, проводимых в неизменных условиях над одним объектом, называется генеральной совокупностью.
Выборочной совокупностью (выборкой) называется совокупность объектов, отобранных случайным образом из генеральной совокупности. Число объектов в совокупности называется ее объемом. Считается, что объем генеральной выборки бесконечен. Конкретные значения выборки, полученные в результате наблюдений, называют реализацией выборки и обозначают Выборки разделяются на повторные (с возвращением) и бесповторные (без возвращения). Выборка должна достаточно полно отражать особенности всех объектов генеральной совокупности, т.е. выборка должна быть репрезентативной.
Выборки различаются по способу отбора:
1) Простой случайный выбор – все элементы генеральной совокупности нумеруются и их таблицы случайных чисел берут, например, последовательность любых 30-ти идущих подряд чисел.
2) Типический отбор – производится тогда, когда генеральную совокупность можно представить в виде объединения подмножеств, состоящих из однородных объектов.
3) Механический – отбирают каждый сотый интервал.
4) Серийный отбор.
Статистическое распределение выборки
Пусть изучается случайная величина, над ней производится ряд независимых опытов. Величина принимает то или иное значение. Пусть она приняла раз значение , раз – значение ,…, раз – значение . При этом объем выборки. Значения называются вариантами случайной величины . Всю совокупность значений случайной величины необходимо ранжировать – расположить признаки по неубыванию. Полученная последовательность называется вариационным рядом. Числа , показывающие сколько раз встречаются варианты в ряде наблюдений, называются частотами, а отношение их к объему выборки – частостями или относительными частотами , т.е.
где . (1)
Перечень вариантов и соответствующих им частот (или частостей) называется статистическим распределением выборки или статистическим рядом.
Пример 1: В результате тестирования группа из 10 абитуриентов набрала баллы: 5,3,0,1,4,2,5,4,1,5. Записать выборку в виде: вариационного ряда, статистического ряда.
Решение: а) проранжируем данные, получим вариационный ряд (0,1,1,2,3,4,4,5,5,5);
б) Считаем частоту и частости вариантов , получим статистическое распределение выборки
Получили вариационный ряд.
или
Получили статистический ряд.·
В случае, когда число значений признака велико или признак является непрерывным, составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки , которые берут обычно одинаковыми по длине: . Для определения величины интервала можно использовать формулу Стерджеса: , где разность между наибольшим и наименьшим значениями признака, - число интервалов . За начало первого интервала рекомендуется брать величину . Во второй строчке статистического ряда вписывают количество наблюдений , попавших в каждый интервал.
Пример 2: Измерили рост (с точность до см) 30 наудачу отобранных студентов. Результаты измерений таковы: 178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169, 179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд.
Решение: Для удобства проранжируем полученные данные: 153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169, 170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186. непрерывная случайная величина. ; по формуле Стерджеса, при , находим длину частичного интервала
.
Примем . Тогда . Исходные данные разбиваем на 6 интервалов: Подсчитав число студентов , попавших в каждый из полученных промежутков, получим интервальный статистический ряд:
Рост | [150-156) | [156-162) | [162-168) | [168-174) | [174-180) | [180-186) |
Частота | ||||||
Частость | 0,13 | 0,17 | 0,20 | 0,23 | 0,17 | 0,10 |
Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.
Статистическое распределение изображается графически в виде полигона и гистограммы. Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами ; полигоном частостей - с координатами . Варианты откладываются на оси абсцисс, а частоты (частности) – на оси ординат.
Для примера 1 полигон частот имеет вид:
Гистограммой частот (частостей) называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длины , а высоты равны отношению - плотность частоты. Очевидно, площадь гистограммы частот равна объему выборки, а площадь гистограммы частостей равна единице.
Пример 3: Построим гистограмму частот для примера 2.
Решение: Находим высоты прямоугольников: . Если соединить середины верхних оснований прямоугольников отрезками прямой, то получим полигон распределения.