Генеральная совокупность и выборочная

Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений.

Экспериментальные данные - это результаты измерения некоторых признаков объектов, выбранных из большой совокупности объектов.

Часть объектов исследования, определенным образом выбранная из более обширной совокупности, называется выборкой, а вся исходная совокупность, из которой взята выборка,- генеральной (основной) совокупностью.

Исследования, в которых участвуют все без исключения объекты, составляющие генеральную совокупность, называются сплошными исследованиями. Может использоваться выборочный метод, суть которого в том, что для обследования привлекается часть генеральной совокупности (выборка), но по результатам этого обследования судят о свойствах всей генеральной совокупности.

Предметом изучения в статистике являются варьирующиеся признаки (называемые статистическими). Они делятся на качественные и количественные.

Качественными признаками объект обладает либо не обладает. Они не поддаются непосредственному измерению (спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).

Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.

Например, измеряемая температура воздуха в некотором пункте – непрерывная случайная величина (может меняться на сколь угодно малую величину), и соответствующая генеральная совокупность представляет собой бесконечное множество значений.

Повторнойназывают выборку, при которой объект перед отбором следующего возвращается в генеральную совокупность. Бесповторнойназывают выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Если выборка правильно отражает соотношения в генеральной совокупности, то ее называют репрезентативной(представительной). Например, результаты социологического опроса населения будут зависеть от того, в каком месте он проводится, среди каких групп.

4.1.2. Вариационный ряд, полигон частот и гистограмма эмпирическая функция распределения

Пусть Х — некоторый признак изучаемого объекта или явления (срок службы электролампы, вес студента, диаметр шарика для подшипника и т.п.). Генеральной совокупностью является множество всех возможных значений этого признака, а результаты n наблюдений над признаком Х дадут нам выборку объема n — первоначальные статистические данные, значения Генеральная совокупность и выборочная - student2.ru (простая выборка, не сгруппированные данные)

При этом значение Генеральная совокупность и выборочная - student2.ru получено при первом наблюдении случайной величины Х, Генеральная совокупность и выборочная - student2.ru – при втором наблюдении той же случайной величины и т.д.

Выборку преобразуют в вариационный ряд, располагая результаты наблюдений в порядке возрастания: Генеральная совокупность и выборочная - student2.ru Каждый член Генеральная совокупность и выборочная - student2.ru вариационного ряда называется вариантой.

Пример 4.1.

1. Измерена масса тела 10-ти детей 6-ти лет. Полученные данные образуют простой статистический ряд: 24 22 23 28 24 23 25 27 25 25.

2. Из 10000 выпущенных на конвейере электрических лампочек отобрано 300 штук для проверки качества всей партии. Здесь Генеральная совокупность и выборочная - student2.ru а Генеральная совокупность и выборочная - student2.ru

Отдельные значения статистического ряда называются вариантами. Если варианта хi появилась m раз, то число m называют частотой, а ее отношение к объему выборки m/n – относительной частотой.

Последовательность вариант, записанная в возрастающем (убывающем) порядке, называется ранжированным рядом.

Пример 4.2. Для ранжированного ряда: 23 23 24 24 25 25 25 27 28 в нижеприведенной таблице в первой строке записаны все значения величины (варианты), во второй – соответствующие им частоты (безынтервальный вариационный ряд), в третьей – накопленные частоты, в четвертой – относительные частоты (табл.4.1).

Таблица 4.1. Значения вариант и их частот

Х
ni
nн
Генеральная совокупность и выборочная - student2.ru 0.1 0.2 0.2 0.3 0.1 0.1

Полигоном частот называют ломаную линию, отрезки которой соединяют точки с координатами (хi; ni) (рис. 4.1).

Отметим, что сумма частот статистического ряда равна объему выборки. Часто статистический ряд составляют, используя относительные частоты вариант: Генеральная совокупность и выборочная - student2.ru (m — количество различных вариант). Сумма относительных частот равна единице.

Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки с координатами (хi; hi).

Генеральная совокупность и выборочная - student2.ru Генеральная совокупность и выборочная - student2.ru
а) б)


Рисунок 4.1. Полигон частот а), кумулятивная кривая б)

Эмпирическим аналогом графика интегральной функции распределения является кумулятивная кривая (кумулята). Для ее построения на оси ОХ откладывают значения вариант, на оси ОY – накопленные частоты или относительные частоты. Полученная плавная кривая называется кумулятой.

В том случае, если выборка представлена большим количеством различных значений непрерывной случайной величины, то группировку данных проводят в виде интервального вариационного ряда (ИВР). Для этого диапазон варьирования признака разбивают на несколько (5–10) равных интервалов и указывают количество вариант, попавших в каждый интервал.

Алгоритм построения интервального вариационного ряда.

1. Исходя из объема выборки (n), определить количество интервалов (k) (см. табл. 4.2).

Таблица 4.2.Рекомендуемое соотношениеобъем выборки-число интервалов

n 25–40 40–60 60–100 100–200 >200
k 5–6 6–8 7–10 8–12 10–15

2. Вычислить размах ряда: R=Xmax – Xmin

3. Определить ширину интервала: h=R/(k–1)

4. Найти начало первого интервала X0 = Xmin – h/2

5. Составить интервальный вариационный ряд.

Графическим изображением ИВР является гистограмма. Для ее построения на оси ОХ откладывают интервалы шириной h, на каждом интервале строят прямоугольник высотой m/h. Величина m/h называется плотностью частоты. Гистограмма является эмпирическим аналогом графика дифференциальной функции распределения.

Пример 4.3. Измерена масса тела 100 женщин 30 лет, получены значения от 60 до 90 кг. Построить интервальный вариационный ряд (табл. 4.3) и гистограмму.

Таблица 4.3. Интервальный вариационный ряд

Интервал Середина интервала m m/h
60–65 62.5 2.8
65–70 67.5 6.4
70–75 72.5 5.6
75–80 77.5 2.8
80–85 82.5 1.4
85–90 87.5 0.4
 

Генеральная совокупность и выборочная - student2.ru

Рисунок 4.2. Гистограмма

Эмпирическая функция распределения находится по следующей формуле (отношение накопленных частот к объему выборки):

Генеральная совокупность и выборочная - student2.ru (4.1)

Статистическое оценивание

4.2.1. Оценка параметров генеральной совокупности. точечная оценка и ее свойства

Числовые характеристики генеральной совокупности называются параметрами генеральной совокупности.

Например, для нормального распределения это математическое ожидание и среднее квадратическое отклонение (СКО), для равномерного распределения – это границы интервала, в котором наблюдаются значения этой случайной величины

Оценка параметра – соответствующая числовая характеристика, рассчитанная по выборке. Если оценка определяется одним числом, она называется точечной оценкой.

Например, среднее арифметическое выборочных значений служит оценкой математического ожидания. Выборочные значения случайны, поэтому оценки можно рассматривать как случайные величины. Построим точечную оценку параметра Генеральная совокупность и выборочная - student2.ru по выборке Генеральная совокупность и выборочная - student2.ru как значение некоторой функции и перечислим «желаемые» свойства оценки Генеральная совокупность и выборочная - student2.ru .

Определение 4.1. Оценка Генеральная совокупность и выборочная - student2.ru называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра: Генеральная совокупность и выборочная - student2.ru .

Данное свойство характеризует отсутствие систематической ошибки, т.е. при многократном использовании вместо параметра Генеральная совокупность и выборочная - student2.ru его оценки Генеральная совокупность и выборочная - student2.ru среднее значение ошибки приближения Генеральная совокупность и выборочная - student2.ru равно нулю.

Так, выборочное среднее арифметическое Генеральная совокупность и выборочная - student2.ru является несмещенной оценкой математического ожидания, а выборочная дисперсия Генеральная совокупность и выборочная - student2.ru – смещенная оценка генеральной дисперсии D. Несмещенной оценкой генеральной дисперсии является оценка («исправленная дисперсия») Генеральная совокупность и выборочная - student2.ru

Определение 4.2. Оценка Генеральная совокупность и выборочная - student2.ru называется состоятельной, если она сходится по вероятности к оцениваемому параметру Генеральная совокупность и выборочная - student2.ru при Генеральная совокупность и выборочная - student2.ru Генеральная совокупность и выборочная - student2.ru

Данное свойство характеризует улучшение оценки с увеличением объема выборки.

Сходимость по вероятности означает, что при большом объеме выборки вероятность больших отклонений оценки от истинного значения мала.

Определение 4.3.. Несмещенная оценка является эффективной, если она имеет наименьшую среди всех несмещенных оценок дисперсию.

Пример 4.4.:

1. Вычислить среднее значение массы тела детей 6 лет.

Генеральная совокупность и выборочная - student2.ru

2. Если выборочное среднее вычисляется по вариационному ряду, то находят сумму произведений вариант на соответствующие частоты, и делят на количество элементов в выборке: Генеральная совокупность и выборочная - student2.ru .

Генеральная совокупность и выборочная - student2.ru

3. В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов. Так, для вычисления среднего значения массы тела женщин 30 лет из примера 4.3. используют формулу:

Генеральная совокупность и выборочная - student2.ru .

Другими характеристиками являются модаи медиана.

В теории вероятностей модой Мо дискретной случайной величины называется ее значение, которое имеет максимальную вероятность. Модой непрерывной случайной величины называется такое ее значение, при котором достигается максимум плотности распределения Генеральная совокупность и выборочная - student2.ru Закон распределения называется унимодальным, если мода единственна. В математической статистике мода Мо определяется по выборке, как варианта с наибольшей частотой.

Медианой называется варианта, расположенная в центре ранжированного ряда. Если ряд состоит из четного числа вариант, то медианой считают среднее арифметическое двух вариант, расположенных в центре ранжированного ряда.

Пример 4.5. Найти моду и медиану выборочной совокупности по массе тела детей 6 лет.

Ответ: Мо = 24; Ме = 24.

Основные числовые характеристики выборочной совокупности:

1) размах вариационного ряда R=Xmax – Xmin. Этот показатель является наиболее простой характеристикой рассеяния и показывает диапазон варьирования величины. Этой характеристикой пользуются при работе с малыми выборками;

2) выборочное среднее находится как взвешенное среднее арифметическое Генеральная совокупность и выборочная - student2.ru , которое характеризует среднее значение признака X в пределах рассматриваемой выборки;

3) выборочная дисперсия определяется по формуле: Генеральная совокупность и выборочная - student2.ru , которая является мерой рассеяния возможных значений показателя X вокруг своего среднего значения, и ее размерность совпадает с квадратом размерности варианты;

4) выборочное среднее квадратическое отклонение Генеральная совокупность и выборочная - student2.ru описывает абсолютный разброс значений показателя X. Его размерность совпадает с размерностью варианты;

5) «исправленная» дисперсия (вычисляют при малых n, n<30) Генеральная совокупность и выборочная - student2.ru и «исправленное» стандартное отклонение Генеральная совокупность и выборочная - student2.ru ;

6) коэффициент вариации Генеральная совокупность и выборочная - student2.ru характеризует относительную изменчивость показателя X, то есть относительный разброс вокруг его среднего значения Генеральная совокупность и выборочная - student2.ru . Коэффициент вариации является безразмерной величиной, поэтому он пригоден для сравнения рассеяния вариационных рядов, варианты которых имеют различную размерность.

Пример 4.6.: Измерена длина (Х) и масса тела (Y) девочек 10-ти лет. Получены следующие показатели: Х=130 см, sХ = 5 см, Y = 32 кг, sY = 4 кг. Какая величина имеет большую вариативность?

Так как длина и масса тела измеряются в разных единицах, то вариативность нельзя сравнить при помощи СКО. Необходимо вычислить относительный показатель вариации.

Генеральная совокупность и выборочная - student2.ru

Таким образом, масса тела имеет большую вариативность, чем длина тела.

4.2.2. Оценка с помощью интервалов

Оценка параметров с помощью интервалов заключается в нахождении интервалов, называемых доверительными, между границами которых с определенными вероятностями (доверительными) находятся истинные значения оцениваемых параметров. Интервальная оценка определяется двумя числами - концами интервала.

Пусть найденная по данным выборки величина q* служит оценкой неизвестного параметра q. Оценка q* определяется тем точнее, чем меньше
|q - q*|, т. е. чем меньше d в неравенстве |q - q*|< d, d > 0.

Доверительной вероятностью (надежностью) оценки q* параметра q называется вероятность ¡, с которой оценивается неравенство |q - q*|< d.

Число a=1 - ¡ называется уровнем значимости, определяющим вероятность того, что оцениваемый параметр не попадет в доверительный интервал.

Обычно задается надежность ¡ и определяется d. Чаще всего вероятность ¡ задается значениями от 0.95 и выше. Неравенство |q - q*|< d можно записать в виде

- d < q - q* < d или q* - d < q < q* + d.

Доверительным интервалом называется интервал (q* - d, q* + d), который покрывает неизвестный параметр q с заданной надежностью.

Определение доверительного интервала для среднего значения нормально распределенной измеряемой случайной величины Х при известной дисперсии Генеральная совокупность и выборочная - student2.ru .

Нам уже известно, что Генеральная совокупность и выборочная - student2.ru . Можно показать [1-5], что Генеральная совокупность и выборочная - student2.ru (сумма Генеральная совокупность и выборочная - student2.ru нормально распределенных случайных величин Генеральная совокупность и выборочная - student2.ru сама является нормальной).

Зададим доверительную вероятность ¡ и найдем доверительный интервал ( Генеральная совокупность и выборочная - student2.ru - d, Генеральная совокупность и выборочная - student2.ru + d), который покрывал бы неизвестный параметр Генеральная совокупность и выборочная - student2.ru с заданной надежностью ¡.

Согласно формуле В (свойства нормального распределения, раздел 3)

Генеральная совокупность и выборочная - student2.ru . (4.1)

Таким образом, для отыскания величины доверительной границы случайного отклонения результатов наблюдений по доверительной вероятности ¡ имеем уравнение:

Генеральная совокупность и выборочная - student2.ru , где Генеральная совокупность и выборочная - student2.ru ,

где значение Генеральная совокупность и выборочная - student2.ru находим по таблице Лапласа (приложение 1), Генеральная совокупность и выборочная - student2.ru .

Пример 4.7. По результатам наблюдений была найдена оценка неизвестного математического ожидания m случайной величины Генеральная совокупность и выборочная - student2.ru если точечная оценка Генеральная совокупность и выборочная - student2.ru =10.2, а дисперсия оценки Генеральная совокупность и выборочная - student2.ru =4. Требуется оценить доверительныйинтервал для оценки математического ожидания по 36-ти наблюдениям с заданной надежностью ¡=0.99.

Решение. Из (4.1) следует, что Генеральная совокупность и выборочная - student2.ru . Отсюда получаем, что Генеральная совокупность и выборочная - student2.ru =2.58 и половина искомого интервала Генеральная совокупность и выборочная - student2.ru . Так как Генеральная совокупность и выборочная - student2.ru , то с вероятностью 0.99 доверительныйинтервал для оценки математического ожидания: Генеральная совокупность и выборочная - student2.ru .

Со случаем, когда распределение результатов наблюдений нормально, но их дисперсия неизвестна, можно ознакомится в [3, 4, 6].

Наши рекомендации