Совокупность и выборка. Репрезентативность выборки
Статистическая совокупность - объект статистического изучении, состоящий из качественно однородных единиц, но отличающихся по каким-то другим признакам.
Генеральная совокупность - совокупность единиц, подлежащая изучению, ее численность обозначается N.
Выборочная совокупность - часть единиц генеральной совокупности, отобранная в случайном порядке, ее численность обозначается n. Выборочное наблюдение - не сплошное наблюдение, при котором обследованию подвергается определенная часть единиц изучаемой совокупности, отобранная в случайном порядке.
Преимущества выборочного наблюдения:
1) при обследовании слишком больших совокупностей, когда сплошное наблюдение требует огромных затрат труда и средств;
2) при необходимости получения информации в сжатые сроки;
3) при невозможности сплошного наблюдения.
Основные принципы выборочного наблюдения
1) обеспечение случайности - заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку
1) -обеспечение достаточного числа отобранных единиц.
Репрезентативность выборки - представительность отобранной из всей изучаемой совокупности части в отношении тех признаков, которые изучаются или оказывают влияние на формирование обобщающих характеристик.
Суть выборочного метода - получение первичных данных наблюдением выборки, анализом и их распространением на всю генеральную совокупность, с целью получения достоверной информации, об исследуемом явлении.
Характеристики генеральной совокупности - средняя, дисперсия, доля - называются генеральными и соответственно обозначаются х, , р, где р - доля, отношение числа М единиц, обладающих данным признаком, ко всей численности генеральной совокупности, т. е. р = М/N.
Обобщающие характеристики в выборочной совокупности называются выборочными и обозначаются соответственно x, , , где - частость, отношение числа единиц, обладающих данным признаком, в выборочной совокупности л, т.е. = m/n.
Разность x - х= x, называется ошибкой репрезентативности выборочной средней, соответственно разность - р = называется ошибкой частости и разность - = - ошибкой дисперсии.
Ошибка репрезентативности - расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности.
Систематические ошибки репрезентативности - ошибки, возникающие в связи с особенностями принятой системы отбора и обработки данных наблюдений или в связи с нарушением установленных правил отбора.
Случайные ошибки репрезентативности ошибки, возникающие в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности.
Стандартная ошибка выборки:
Предельная ошибка выборки: (t-коэффициент доверия).
Величина случайной стандартной и предельной ошибки зависит:
1) от принятого способа формирования выборочной совокупности;
2) от объема выборки;
3) от степени колеблемости изучаемого признака в генеральной совокупности.
3)Случайный отбор и его виды. Простой случайный бесповторный отбор и простой случайный повторный отбор. Типический, механический и серийный отбор.
На практике применяются различные способы Отбора. Принципиально эти способы можно подразделить на два вида:
1. Отбор, не требующий расчленения генеральной совокупности на части. Сюда относятся: а) простой случайный бесповторный отбор; б) простой случайный повторный отбор.
2. Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся: а) типический отбор; б) механический отбор; в) серийный отбор. Простым случайным называют такой отбор, при котором объекты извлекают по одному из всей генеральной совокупности. Осуществить простой отбор можно различными способами. Например, для извлечения п объектов из генеральной совокупности объема N поступают так: выписывают номера от 1 до N на карточках, которые тщательно перемешивают, и наугад вынимают одну карточку; объект, имеющий одинаковый номер с извлеченной карточкой, подвергают обследованию; затем карточку возвращают в пачку и процесс повторяют, т. е. карточки перемешивают, наугад вынимают одну из них и т. д. Так поступают п раз; в итоге получают простую случайную повторную выборку объема п.Если извлеченные карточки не возвращать в пачку, то выборка является простой случайной бесповторной. При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким. В этом случае пользуются готовыми таблицами «случайных чисел», в которых числа расположены в случайном порядке. Для того чтобы отобрать, например, 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами. Если бы оказалось, что случайное число таблицы превышает число N, то такое случайное число пропускают. При осуществлении бесповторной выборки случайные числа таблицы, уже встречавшиеся ранее, следует также пропустить. Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности. Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесообразен. Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь, и т. д. Следует указать, что иногда механический отбор может не обеспечить репрезентативности выборки. Например, если отбирают каждый двадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае следует устранить совпадение ритма отбора с ритмом замены резца, для чего надо отбирать, скажем, каждый десятый валик из двадцати обточенных. Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.Подчеркнем, что на практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы. Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты.
4)Вариационный ряд. Эмпирическая функция распределения. Гистограмма и полигон.
Пусть в некотором опыте наблюдается случайная величина Х с функцией распределения F(x). И пусть однократное осуществление опыта позволяет нам найти одно из возможных ее значений. Предположим, что опыт в одних и тех же условиях можно повторять какое угодно число раз, и что сами опыты (испытания) являются независимыми.
Результаты рассматриваемых n опытов представляют собой последовательность x1, x2, … , xn действительных чисел, которая называется выборкой объема n. Такова практическая трактовка выборки. Каждое xi (i=1, 2, …, n) называется вариантой(элементом выборки, наблюденным значением, значением признака).
Полученные в результате n опытов наблюдаемые значения x1, x2 xn представляют собой выборку из всей совокупности значений, которые может принимать интересующая нас величина Х. Принято говорить, что мы имеем дело с набором значений, соответствующим некоторой выборке из генеральной совокупности. Рассматриваемая выборка должна обладать свойством репрезентативности (представительности), то есть быть такой, чтобы по ее данным можно было получить правильное представление об всей генеральной совокупности в целом. Будет рассматриваемая выборка репрезентативной или нет – это зависит от способа отбора.
В математической литературе слово «выборка» гораздо чаще используется в другом смысле. Конкретную выборку x1, x2, …, xn мы можем рассматривать как реализацию значений системы случайных величин (X1, X2, …, Xn), распределенных одинаково, по тому же закону, что и Х.
Выборкой объема n из распределения случайной величины Х называется последовательность x1, x2, …, xn независимых и одинаково распределенных – по тому же закону, что и Х – случайных величин.
Часто в практических ситуациях возникает следующая задача: имеется выборка и отсутствует всякая информация о виде функции распределения F(x). Требуется построить оценку (приближение) для этой неизвестной функции F(x).
Наиболее предпочтительной оценкой функции F(x) является эмпирическая функция распределения Fn(x), которая определяется следующим образом
где nx – число вариант меньших х (х принадлежит R), n – объем выборки.
Функция Fn(x) служит хорошим приближением для неизвестной функции распределения для большихn.
Эмпирическая функция распределения
Пусть известно статистическое распределение частот количественного признака X. Введем обозначения:
– число наблюдений, при которых наблюдалось значение признака, меньшее ;
– общее число наблюдений (объем выборки).
Ясно, что относительная частота события равна .
Если будет изменяться, то будет изменяться и относительная частота, то есть относительная частота есть функция от .
Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.
Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения относительную частоту события .
Итак, по определению , где – число вариант, меньших , – объем выборки.
Из определения функции вытекают следующие ее свойства:
1) значения эмпирической функции принадлежат отрезку
2) – неубывающая функция;
3) если – наименьшая варианта, то , при ;
если – наибольшая варианта, то при .
Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.
Для наглядности строят различные графики статистического распределения.
По данным дискретного вариационного ряда строят полигон частот или относительных частот.
Полигоном частот называют ломанную, отрезки которой соединяют точки (x1; n1), (x2; n2), ..., (xk; nk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им частоты ni. Точки ( xi; ni) соединяют отрезками прямых и получают полигон частот (Рис. 1).
Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x1; W1), (x2; W2), ..., (xk; Wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им относительные частоты Wi. Точки ( xi; Wi) соединяют отрезками прямых и получают полигон относительных частот.
В случае непрерывного признака целесообразно строить гистограмму.