Глава 9. выборочный метод в статистических исследованиях понятие о выборочном исследовании
Статистическое исследование может осуществляться по данным несплошного наблюдения, основная цель которого состоит в получении характеристик изучаемой совокупности по обследованной ее части. Одним из наиболее распространенных в статистике методов, применяющим несплошное наблюдение, являетсявыборочный метод.
Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части на основе положений случайного отбора. При выборочном методе обследованию подвергается сравнительно небольшая часть всей изучаемой совокупности (обычно до 5 - 10%, реже до 15 - 25%). При этом подлежащая изучению статистическая совокупность, из которой проводится отбор части единиц, называетсягенеральной совокупностью. Отобранная из генеральной совокупности некоторая часть единиц подвергающаяся обследованию, называетсявыборочной совокупностью, или простовыборкой.
Значение выборочного метода состоит в том, что при минимальной численности обследуемых единиц проведение исследования осуществляется в более короткие сроки и с минимальными затратами труда и средств. Это повышает оперативность статистической информации, уменьшает ошибки регистрации.
По сравнению с другими методами, применяющими несплошное наблюдение, выборочный метод имеет важную особенность. В основе отбора единиц для обследования положены принципы равных возможностей попадания в выборку каждой единицы генеральной совокупности. Именно в результате соблюдения этих принципов исключается образование выборочной совокупности только за счет лучших или худших образцов. Это предупреждает появление систематических (тенденциозных) ошибок и делает возможным производить количественную оценку ошибки представительства (репрезентативности).
Поскольку изучаемая статистическая совокупность состоит из единиц с варьирующими признаками, то состав выборочной совокупности может в той или иной мере отличаться от состава генеральной совокупности. Это объективное возникающее расхождение между характеристиками выборки и генеральной совокупности составляетошибку выборки. Она зависит от ряда факторов: степени вариаций изучаемого признака, численности выборки, методов отбора единиц в выборочную совокупность, принятого уровня достоверности результата исследования.
Способы определения ошибки выборки при различных приемах формирования выборочных совокупностей и распространение характеристик выборки на генеральную совокупность составляют основное содержание статистической методологии выборочного метода.
Проведение исследования социально-экономических явлений выборочным методом складывается из ряда последовательных этапов:
1) обоснование (в соответствии с задачами исследования) целесообразности применения выборочного метода;
2) составление программы проведения статистического исследования выборочным методом;
3) решение организационных вопросов сбора и обработки исходной информации;
4) установление доли выборки, т. е. части подлежащих обследованию единиц генеральной совокупности;
5) обоснование способов формирования выборочной совокупности;
6) осуществление отбора единиц из генеральной совокупности для их обследования;
7) фиксация в отобранных единицах (пробах) изучаемых признаков;
8) статистическая обработка полученной в выборке информации с определением обобщающих характеристик изучаемых признаков;
9) определение количественной оценки ошибки выборки;
10) распространение обобщающих выборочных характеристик на генеральную совокупность.
Применяя выборочный метод, обычно используют два основных вида обобщающих показателей: относительную величину альтернативного признака и среднюю величину количественного признака.
Относительная величина альтернативного признака характеризует долю (удельный вес) единиц в статистической совокупности, которые отличаются от всех других единиц этой совокупности только наличием изучаемого признака. Например, доля нестандартных изделий во всей партии товара, удельный вес продукции собственного производства в товарообороте предприятия общественного питания, удельный вес продавцов в общей численности работников магазина и т. д.
Средняя ветчина количественного признака - это обобщающая характеристика варьирующего признака, который имеет различные значения у отдельных единиц статистической совокупности. Например, средний образец в товароведении, средняя выработка одного продавца, средняя заработная плата одного работника магазина и т. д.
В генеральной совокупности доля единиц, обладающих изучаемым признаком, называетсягенеральной долей (обозначается р) а средняя величина изучаемого варьирующего признака- генеральной средней (обозначается ).
В выборочной совокупности долю изучаемого признака называютвыборочной долей, иличастостью (обозначается w), а среднюю величину в выборке- выборочной средней (обозначается ).
Основная задача выборочного обследования состоит в том, чтобы на основе характеристик выборочной совокупности (частости w или средней ) получить достоверные суждения о показателях доли р или средней генеральной совокупности. Для уяснения этого рассмотрим следующий пример.
Пример. При контрольной проверке качества хлебобулочных изделий проведено 5%-ное выборочное обследование партии нарезанных батонов из муки высшего сорта. При этом из 100 отобранных в выборку батонов 90 шт. соответствовали требованиям стандарта. Средний вес одного батона в выборке составлял 500,5 г при среднем квадратическом отклонении ± 15,4 г.
На основе полученных в выборке данных нужно установить возможные значения доли стандартных изделий и среднего веса одного изделия во всей партии.
Прежде всего устанавливаются характеристики выборочной совокупности. Выборочная доля, или частость, w определяется из отношения единиц, обладающих изучаемым признаком m, к общей численности единиц выборочной совокупности n:
w= m/n (1)
Поскольку из 100 изделий, попавших в выборку n, 90 ед. оказались стандартными m, то показатель частости равен:
w = 90:100 = 0,9
Средний вес одного изделия в выборке =500,5 г определен взвешиванием. Но полученные показатели частости (0,9) и средней величины (500,5 г) характеризуют долю стандартной продукции и средний вес одного изделия лишь в выборке. Для определения соответствующих показателей для всей партии товара надо установить возможные при этом значения ошибки выборки.
Ошибка выборки
В связи с тем, что изучаемые статистикой признаки варьируют, т. е. товар состоит из неодинаковых по качеству и весу изделий, то состав единиц, попавших в выборку, может не совпасть (по изучаемым признакам) с составом изделий во всей партии. Это значит, что обобщающие показатели в выборке (w и ) могут в той или иной мере отличаться от значений этих характеристик в генеральной совокупности (р и ). Возможные расхождения между характеристиками выборочной и генеральной совокупности измеряются средней ошибкой выборки m. В математической статистике доказывается, что значения средней ошибки выборки определяются по формуле
Использование формулы (2) предполагает, что известна генеральная дисперсия . Но при проведении выборочных обследований эти показатели, как правило, неизвестны. Применение выборочного метода как раз и предполагает определение характеристик генеральной совокупности.
На практике для определения средней ошибки выборки обычно используются дисперсии выборочной совокупности . Эта замена основана на том, что при соблюдении принципа случайного отбора дисперсия достаточно большого объема выборки стремится отобразить дисперсию в генеральной совокупности.
В математической статистике доказывается следующее соотношение между дисперсиями в генеральной и выборочной совокупностях:
(3)
Из формулы (3) видно, что дисперсия в выборочной совокупности меньше дисперсии в генеральной совокупности на величину
Если n достаточно велико, то отношение близко к единице.
Например, при n= 100 значение =1,01, а при n=500 значение = = 1,002 и т.д.
При замене генеральной дисперсии дисперсией выборочной , а формула расчета средней ошибки записывается так:
(4)
При этом для показателя доли альтернативного признака дисперсия в выборочной совокупности определяется по формуле
(5)
Для показателя средней величины дисперсия количественного признака в выборке определяется по формулам:
Следует иметь в виду, что формула (4) применяется для определения средней ошибки выборки лишь при так называемомповторном отборе. Сущность повторного отбора состоит в том, что каждая попавшая в выборку единица после фиксации значения изучаемого признака должна быть возвращена в генеральную совокупность, где ей опять представляется равная возможность попасть в выборку. Но на практике повторный отбор осуществляется редко. Обычно выборочные обследования проводятся по схеме бесповторного отбора, при котором повторное попадание в выборку одних и тех же единиц исключено.
Поскольку при бесповторном отборе численность генеральной совокупности N в ходе выборки сокращается, то в формулу для расчета средней ошибки выборки включают дополнительный множитель 1 - Формула средней ошибки выборки принимает следующий вид:
(7)
Формулу (7) используем для решения нашего примера, так как она соответствует характеру проведенного при этом обследования. Определим значения средней ошибки выборки:
а) для показателя доли стандартных изделий
б) для показателя среднего веса изделия
(Значение = 15,4 из условия задачи.)
Полученные значения средней ошибки выборочной доли (±0,029) и средней ошибки выборочной средней (± 1,5 г) необходимы для установления возможных значений генеральной доли р и генеральной средней .
Одно из возможных значений, в пределах которых может находиться доля стандартных изделий во всей партии, определяется по формуле
(8)
т. е. р=0,9 ± 0,029, что соответствует значениям от 0,9-0,029=0,871 до 0,9+0,029=0,929.
В общем виде это записывается: 0,871 р 0,929 и читается так: удельный вес стандартных изделий во всей партии продукции находится в пределах от 87,1% до 92,9%.
Одно из возможных значений среднего веса изделия по всей партии продукции определяется по формуле
= (9)
т. е. =500,5 ± 1,5 (г), что соответствует значениям от 500,5-1,5=499 г и до 500,5+1,5=502 г. В общем виде, это записывается так: 499 502, т. е. можно полагать, что средний вес одного изделия во всей партии продукции находится в пределах от 499 г до 502 г.
Полученные таким образом характеристики доли р и средней в генеральной совокупности отличаются от показателей выборочной доли и средней на величины средней ошибки выборки ± .
Но такое суждение можно гарантировать не с абсолютной достоверностью, а лишь с определенной степенью вероятности.
В математической статистике доказывается, что пределы значений характеристик генеральной совокупности (р и ) отличаются от характеристик выборочной совокупности ( и ) на величину ± лишь с вероятностью, которая определена числом 0,683.
Это означает, что в 683 случаях на 1000 генеральная доля р и генеральная средняя будут находиться в установленных пределах р= ± w,. и = ± c В остальных же 317 случаях (1000-683) они могут выйти за эти пределы.
Вероятность суждения можно повысить, если расширить пределы отклонений, приняв в качестве меры среднюю ошибку выборки, увеличенную в t раз.
Так, при удвоенном значении , (т. е. при t =2) вероятность суждения достигает 0,954. Это значит, что только в 46 случаях из 1000 (т. е.1000-954) характеристики могут выйти за пределы двух При этом расширяются и границы характеристик генеральной совокупности. Это можно видеть на данных нашего примера.
При удвоенной средней ошибке выборки изучаемые характеристики во всей партии продукции будут находиться в пределах:
а) доля стандартной продукции
р = ±2 = 0,9 ± 2 • 0,029 . Это соответствует значениям: от 0,9-0,058=0,842 до 0,9+0,058=0,958. В общем виде это записывается так: 842 р 0,958, т, е. с вероятностью, равной 0,954, можно утверждать, что удельный вес стандартных изделий во всей партии (р ) находится в пределах от 84,2% до 95,8%;
б) средний вес одного изделия = ±2 = 500,5 ± 2 • 1,5 , или от 500,5-3,0 г и до 500,5+3,0 г, т. е. с вероятностью 0,954 можно утверждать, что в генеральной совокупности средняя величина веса изделия находится в пределах от 497,5 г до 503,5 г.
Если взять, например, утроенное , то вероятность суждения повышается до 0,997. При этом только в трех случаях из 1000 характеристики генеральной и выборочной совокупностей могут отличаться более чем на 3 . Расчет заданных показателей в этом случае
производится так:
а) для доли стандартных изделий
р = ± З = 0,9 ± 3 • 0,029 ;
б) для среднего веса одного изделия
= ± З = 500,5 ±3.1,5(г).
Таким образом, показатели р и генеральной совокупности по показателям выборки и определяются:
а) при изучении доли альтернативного признака
p= ± t · w (10)
б) при изучении средней величины количественного признака
= ± t · c (11)
Множитель t в формулах (10) и (11) (в статистике он называетсякоэффициентом доверия) определяется в зависимости от того, с какой доверительной вероятностью надо гарантировать результаты выборочного обследования. Итак, в чем же состоит смысл средней ошибки выборки?
Исчисленные характеристики выборочной доли и выборочной средней по своей природе являются случайными величинами. Они могут принимать различные значения в зависимости от того, какие конкретные единицы генеральной совокупности попадут в выборку. Это значит, что в каждом варианте отбора будет различная ошибка выборки. При этом каждый из возможных результатов выборки, а, следовательно, и каждая из возможных ошибок выборки имеют определенную вероятность возникновения. Поэтому средняя ошибка выборки, по существу, представляет среднюю квадратическую величину из отдельных ошибок, взвешенную по вероятности их возникновения.
Для практики выборочных обследований важно, что средняя ошибка выборки применяется для установления предела отклонений характеристик выборки из соответствующих показателей генеральной совокупности небезотносительно. Лишь с определенной степенью вероятности можно утверждать, что это отклонение не превысит величины t· , которая в статистике называется предельной ошибкой выборки
Предельная ошибка выборки D связана со средней ошибкой выборки отношением:
D= t· (13)
При этом t как коэффициент кратности средней ошибки выборки зависит от вероятности, с которой гарантируется величина предельной ошибки выборки.
Если в формулу (13) подставить конкретное содержание , то расчет предельной ошибки выборки при бесповторном отборе можно записать следующими алгоритмами:
а) доля альтернативного признака
(14)
6) средняя величина количественного признака
(15)
При этом следует иметь в виду, что при сравнительно небольшом проценте единиц, взятых в выборку (до 5%), множитель близок к единице. Поэтому на практике, при расчете величины предельной ошибки выборки при бесповторном отборе множитель можно опустить, и расчет производится по формулам повторного отбора, т. е.
Опуская в формулах (16) и (17) множитель , мы несколько преувеличиваем результаты выборки. Это видно на данных рассматриваемого примера. Так, средняя ошибка выборки по схеме повторного отбора составляет:
а) для доли стандартных изделий
б) для среднего веса изделия
Сравнение этих величин со значениями, полученными при расчете по схеме бесповторного отбора ( w =±0,029 и c=±1,5),показывает, что разница между ними незначительная.
Малая выборка
При контроле качества товаров в экономических исследованиях эксперимент может проводиться на основе малой выборки. Подмалой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. Объем малой выборки обычно не превышает 30 единиц и может доходить до 4-5 единиц.
Величина ошибки малой выборки определяется по формулам, отличным от формул выборочного наблюдения со сравнительно большим объемом выборки (п> 100). Средняя ошибка малой выборки м.в. вычисляется по формуле
(18)
где - дисперсия малой выборки.
По формуле (3) имеем:
Но поскольку при малой выборке - имеет существенное значение, то вычисление дисперсии малой выборки производится с учетом гак называемого числа степеней свободы. Под числом степеней свободы понимается количество вариантов, которые могут принимать произвольные значения, не меняя величины средней. При определении дисперсии число степеней свободы равно n - 1:
(19)
Предельная ошибка малой выборки Dм.в определяется по формуле
Dм.в =t м.в (20)
При этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента, в которых даны распределения стандартизованных отклонений:
(21)
Пример. При контрольной проверке качества поставленной в торговлю колбасы получены следующие данные о содержании поваренной соли в пробах, %: 4,3; 4,2; 3,8; 4,3; 3,7; 3,9; 4,5; 4,4; 4,0; 3,9.
По данным выборочного обследования нужно установить с вероятностью 0,95 предел, в котором находится средний процент содержания поваренной соли в данной партии товара.
Для вычисления необходимых значений составим расчетную табл.
По тогам табл. определяется средняя проба малой выборки:
По формуле (19) и итоговым данным табл. определим дисперсию малой выборки:
По формуле 18 определим среднюю ошибку малой выборки:
Исходя из численности выборки (n=10) и заданной вероятности St =0,95, устанавливается по распределению Стьюдента значение коэффициента доверия t=2,263.
Пробы ci | i - | ( i - )2 |
4,3 | 0,2 | 0,04 |
4,2 | 0,1 | 0,01 |
3,8 | 0,3 | 0,09 |
4,3 3,7 | 0,2 -0,4 | 0,04 0,16 |
3,9 | -0,2 | 0,04 |
4,5 | 0,4 | 0,16 |
4,4 | 0,3 | 0,09 |
4,0 | -0,1 | 0,01 |
3,9 | -0,2 | 0,04 |
å41,0 0,68
По формуле 20 предельная ошибка малой выборки составит:
Dм.в = 2,263(±0,087) = ±0,2% .
Следовательно, с вероятностью 0,95 можно утверждать, что во всей партии колбасы содержание поваренной соли находиться в пределах:
= ±Dм.в .=4,1% ± 0,2%, от 4,1 - 0,2% = 3,9%
до 4,1+0,2% =4,3%.