Генеральная совокупность и выборка

Изучаемое множество, состоящее из большого числа объектов, называется в математической статистике генеральной совокупностью, а выбранное из него для изучения ограниченное число объектов- выборкой. Если объекты имеют некоторый числовой признак или характеристику, то случайный выбор объекта из генеральной совокупности порождает дискретную случайную величину. Число её значений заведомо не превышает объёма генеральной совокупности. При большом объёме генеральной совокупности, однако, такую случайную величину считают непрерывной и описывают функцией распределения, что значительно удобнее, чем хранить миллионы значений. Так, если генеральная совокупность- население страны, а числовой признак- возраст, то расстояние между соседними точками дискретного распределения составляет доли секунды и непрерывная модель вполне оправдана.

При таком подходе выборка (х1, х2,…, хn) числовых значений признака из генеральной совокупности рассматривается как n независимых последовательных реализаций случайной величины Х. Выборочным средним называется среднее арифметическое элементов выборки Так как элементы выборки– это случайные величины, то и выборочное среднее– случайная величина. Если МХ=m, DX=s2, то 1) М =m, 2) Первое из этих равенств говорит о том, что выборочное среднее– несмещённая оценка математического ожидания, а второе- что точность этой оценки растёт с ростом n.

Выборочной дисперсией Dв называется величина Можно показать, что т.е. выборочная дисперсия является смещённой оценкой дисперсии. Однако, её легко подправить так, чтобы получить несмещенную оценку.

Исправленной выборочной дисперсией называется величина

На практике разница между выборочной дисперсией и исправленной выборочной дисперсией существенна лишь при небольшом объёме выборки.

Если в выборке объёма n есть повторяющиеся значения, так что всего имеется k<n различных значений, то её удобно задать таблицей частот значений

х1 х2 хк
n1 n2 nк

при этом сумма частот равна объёму выборки: n1+ n2+…+ nк= n.

В этом случае формулы для выборочного среднего и выборочной дисперсии запишутся в виде:

В медицине и биологии при изучении воздействия на живые организмы различных препаратов, а также в вопросах, связанных с маркетингом, возникает задача о сравнении средних двух генеральных совокупностей. Пусть имеется 2 распределения Х и Y: МХ=mх, DX=sх2, МY=mу, DY=sу2. С целью проверки равенства mх=mу из них извлечены выборки объёмов соответственно n и m, найдены средние и и исправленные выборочные дисперсии и Если mх=mу и объёмы выборок достаточно велики (не менее 30 каждая), то, опираясь на центральную предельную теорему, можно считать, что величина

распределена по закону N(0,1). Поэтому, если Z оказывается большим по абсолютной величине, то мы склонны отбросить гипотезу о равенстве математических ожиданий. Сформулируем точное правило.

Пусть взято малое положительное число a, 0<a<<1, которое в дальнейшем будем называть уровнем значимости. По таблице нормального распределения найдём кр такое, что . Теперь, если абсолютное значение величины , то гипотезу о равенстве математических ожиданий отвергаем. Обычно полагается при этом кр=1,95.

Рассмотрим пример. Пусть две выборки, объёмом 30 каждая, заданы таблицей частот:

         
 
х
у

,

,

,

,

Так как кр(0,05)=1,95 и 1,24 1,95, то при уровне значимости 0,05 нет оснований отвергать гипотезу о равенстве математических ожиданий МХ=МY.

Наши рекомендации