Ошибки выборочного наблюдения
Информация, получаемая в результате выборочного наблюдения, может иметь расхождение с реальной действительностью. Т.к. речь идет о варьирующих признаках и обследованию подвергается не вся совокупность, а только ее часть, можно с уверенностью утверждать, что статистические показатели, рассчитанные по выборке, не будут абсолютно совпадать с показателями генеральной совокупности.
Так, средняя величина признака в генеральной совокупности имеет всегда одно и то же значение. В то же время средняя, рассчитанная по выборке, будет колебаться по мере того, как будут меняться единицы, отобранные в выборку. То же можно утверждать и о доле и частости.
Следовательно, речь должна идти о том, чтобы:
во-первых, максимально приблизить показатели выборки к показателям генеральной совокупности;
во-вторых, знать возможные пределы их отклонений;
в-третьих, знать условия, от которых зависит величина этих отклонений.
Расхождения между характеристиками выборочной совокупности и характеристиками генеральной совокупности носят название ошибки выборочного наблюдения.
Различают ошибки выборки и ошибки регистрации (раздел 2.4).
Ошибки выборки называют ошибками репрезентативности. Возникают они вследствие естественного расхождения характеристики выборочной и генеральной совокупности, носят случайный характер и с равной вероятностью могут либо увеличивать, либо уменьшать характеристики генеральной совокупности.
Различают ошибки выборки:
- средние (стандартные);
- предельные.
Средними ошибки называются потому, что они будут разные в зависимости от того, какие единицы попали в выборку, т.е. речь идет о средней величине из возможных ошибок.
Средняя ошибка выборки ( ) зависит от: а) объема (численности) выборочной совокупности (чем больше n, тем меньше ); б) степени вариации изучаемого признака (чем больше , тем больше ); в) схемы отбора единиц из генеральной в выборочную совокупность.
Степень вариации признака в данном случае оценивается дисперсией . При проведении выборочного наблюдения обычно генеральная дисперсия неизвестна. Представляется возможным расчет лишь выборочной дисперсии. Доказано, что при достаточно больших n, когда величина близка к 1, выборочная дисперсия приближенно равна генеральной:
.
При случайном повторном отборе величина средней ошибки рассчитывается по формуле
(7.5)
Учитывая, что :
, (7.6)
где − выборочная дисперсия.
Тогда: а) для средней величины
, (7.7)
б) для доли
. (7.8)
При случайном бесповторном отборе численность единиц генеральной совокупности уменьшается в процессе отбора. Следовательно, и вероятность ошибки уменьшается. Потому при исчислении средних ошибок для бесповторного отбора в формулы вводится дополнительный множитель ( ) ( − доля отобранных единиц из генеральной совокупности).
Величина средней ошибки в этом случае определяется по формулам:
а) для средней величины
; (7.9)
б) для доли
. (7.10)
Т.к. n < N, выражение , ошибки при бесповторном отборе будут меньше, чем при повторном.
При механическом отборе средняя ошибка определяется по формуле случайного бесповторного отбора.
В случае типического отбора в качестве показателя вариации выступает средняя из внутригруппировых дисперсий (см. раздел 6.3). Поэтому средняя ошибка выборки при типическом повторном отборе:
а) для средней величины
(7.11)
где fгр – число единиц в изучаемой группе;
б) для доли
(7.12)
В случае бесповторного отбора также добавляется множитель , то есть при типическом бесповторном отборе средняя ошибка рассчитывается:
а) для средней величины
; (7.13)
б) для доли
. (7.14)
При серийном отборе оценка вариации признака производится по межсерийной дисперсии (см. раздел 6.3), а численность выборки характеризуется числом отобранных серий – r.
Тогда для повторного серийного отбора средняя ошибка определяется как:
, (7.15)
а для бесповторного
. (7.16)
Зная среднюю величину (средний размер) признака в выборке и среднюю ошибку, можно записать пределы (границы) генеральной средней:
. (7.17)
Аналогично для доли:
. (7.18)
Вместе с тем, утверждать, что генеральная средняя или доля не выйдут за указанные пределы, можно только с определённой степенью вероятности − 0,683. Это означает, что если в генеральной совокупности 1000 единиц, то 683 из них будут находиться в указанных пределах, а 317 могут выходить за эти пределы. Следовательно, оценка генеральной совокупности по или является довольно приблизительной, грубой.
На практике чаще всего требуется получение более точного результата. Для того, чтобы повысить вероятность гарантии пределов характеристик выборки, прибегают к исчислению не средних, а предельных ошибок. Известные математики П.Л. Чебышев и А.М. Ляпунов предложили для повышения вероятности невыхода значений генеральной совокупности за пределы характеристик выборки удвоить или утроить среднюю ошибки. То есть – средняя ошибка, то предельная ошибка:
, (7.19)
где t – коэффициент доверия.
t = 1,2,3 (чаще всего, хотя могут быть другие промежуточные значения).
Аналогично для доли:
. (7.20)
Коэффициент доверия определяет вероятность, с которой можно утверждать, что максимальная ошибка выборки не превысит величины .
При этом для t = 1 эта вероятность − 0,683; для t = 2 вероятность − 0,954; а для t = 3 вероятность − 0,997.
То есть с вероятностью 0,997 можно утверждать, что
. (7.21)
После того, как рассчитаны показатели выборки, они распространяются на характеристики генеральной совокупности с помощью предельных ошибок:
или . (7.22)
Предельные ошибки являются абсолютными величинами. Но на их основе могут быть рассчитаны и предельные относительные ошибки:
или . (7.23)
Пример 1. С вероятностью 0,997 необходимо определить, в каких пределах находится средний % выполнения норм выработки, если из 1000 рабочих под обследование выбрано случайным бесповторным методом 50 человек и получены следующие показатели: средний % выполнения норм выработки по выборке − 105%, а дисперсия выполнения норм выработки по выборке составила 112,5 %.
1. Определяем величину средней ошибки:
.
2. Определяем величину предельной ошибки, учитывая, что гарантировать вероятность 0,997 может предельная ошибка при t = 3:
.
3. С вероятностью 0,997 можно утверждать, что средний % выполнения норм выработки рабочими (всеми) находится в пределах:
Пример 2. Определить с вероятностью 0,954, в каких пределах находится удельный вес нестандартной продукции в партии изделий в 1000 единиц, если в отобранных случайным повторным методом 40 единицах оказалось 8 нестандартных.
1. Определяем частость:
.
2. Определяем дисперсию:
w – частость нестандартной продукции, 1-w − частость стандартной продукции.
.
3. Определяем среднюю ошибку:
.
4. Определяем предельную ошибку, вероятность 0,954, следовательно, t = 2:
.
5. С вероятностью 0,954 можно утверждать, что доля нестандартной продукции в исследуемой партии находится в пределах:
,
от 7,4 % до 32,6 %