Статистическое распределение выборки. Полигон и гистограмма
Глава 5. Математическая статистика
Математическая статистика занимается изучением закономерностей, которым подчиняются массовые явления, на основе наблюдений. Первая задача математической статистики – это разработка методов сбора и группировки статистического материала, полученного в результате наблюдений за случайными процессами.
Вторая задача состоит в разработке методов анализа полученных статистических данных. Этот анализ включает оценку вероятностей события, функции распределения вероятностей или плотности вероятности, оценку параметров известного распределения, а также связей между случайными величинами.
Математическая статистика опирается на теорию вероятностей и, в свою очередь, служит основой для обработки и анализа статистических результатов в конкретных областях человеческой деятельности.
Выборочная и генеральная совокупности
Пусть требуется изучить некоторую совокупность однородных объектов по некоторому признаку , который для нее является случайной величиной.
Например:
1) Кипа волокон хлопка. Признаками этой совокупности являются длина волокна, прочность, сорт и т.д.
2) Студенты вуза. Признаки: пол, возраст, рост, количество отличных оценок и т.д.
Для изучения такой совокупности по выбранному признаку можно измерить числовое значение признака у всех объектов совокупности и обработать полученные результаты. Общее количество объектов в данном случае и составляет генеральную совокупность.
В некоторых же случаях неудобно или невозможно получить результаты измерений на всех объектах и поэтому выбирают определенную часть из этой генеральной совокупности, которую называют выборочной совокупностью или выборкой. Обрабатывая результаты измерений выборки, получают обобщенные характеристики, с помощью которых оценивают параметры генеральной совокупности.
Опр. Объемом совокупности (генеральной или выборочной) называют число ее объектов.
Опр.Повторной называют выборку, при которой объект перед отбором следующего возвращается в генеральную совокупность.
Опр. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.
Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности необходимо, чтобы выборка была репрезентативной (представительной). В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно, т.е. все объекты должны иметь одинаковую вероятность попасть в выборку.
Статистическое распределение выборки. Полигон и гистограмма
Пусть из генеральной совокупности произведена выборка объема по некоторому признаку . Т.к. признак является случайной величиной, то при обследовании получим ее числовых значений , называемых вариантами. Среди этих вариант могут оказаться и одинаковые.
Если все варианты записать в порядке возрастания, то получим вариационный ряд (причем, одинаковые варианты записываются столько раз, сколько раз они встречаются).
Число наблюдений варианты называется частотой, а отношение частоты к объему выборки ( ) называется относительной частотой или частостью. Статистическим распределением выборки называют перечень различных вариант и соответствующих им частот или относительных частот.
Если – дискретная случайная величина, то удобно составить таблицу частот и частостей (табл.1)
Таблица1. Таблица частот и частостей (дискретный случай)
Варианты | Частоты | Частости | Накопленные частоты | Накопленные частости |
… | … | … | … | … |
где и .
Если на плоскость нанести точки и соединить их отрезками прямых, то полученная ломаная линя называется полигоном частот (рис. 1).
Аналогично строят полигон относительных частот, соединяя точки отрезками прямых.
Если признак – непрерывная случайная величина, то одинаковых вариант может и не оказаться. В таком случае находят интервал , содержащий все варианты и разбивают его на несколько частичных интервалов и подсчитывают число вариант, попадающих в каждый частичный интервал, а затем заполняют таблицу 2.
Рисунок 1. Полигон частот
Таблица 2. Таблица частот и частостей (непрерывный случай)
Частичные интервалы | Середины интервалов | Интервальные частоты | Интервальные частости | Накопленные частоты | Накопленные частости | Плотность частоты |
… | … | … | … | … | … | … |
… | … | … | … | … | … | … |
где и .
При составлении таблицы 2 рассматривают интервалы одинаковой длины . Существует несколько формул для вычисления шага разбиения интервала .
, k – число интервалов или .
Визуализируем данные таблицы 2 (изобразим графически). Получаем полигон частот и гистограмму частостей. Для гистограммы по оси абсцисс откладываются частичные интервалы длинной , а на каждом из них строится прямоугольник высотой (плотность частоты) или (плотность относительной частоты).
Заметим, что в гистограмме частот площадь того прямоугольника равна , т.е. интервальной частоте, а площадь всей гистограммы равна сумме всех частот, т.е. объему выборки (рис.2).
Гистограмму и полигон выборочного распределения можно использовать для подбора модели распределения изучаемой случайной величины .
Рисунок 2. Гистограмма частот