Ошибки выборки. Построение доверительных границ для средней и доли
Из одной и той же генеральной совокупности объема N можно извлечь множество различных выборок заданного объема n. Тогда в каждом случае рассчитанные отклонения выборочных характеристик от генеральных будут различны, т.е. различными будут ошибки извлеченных выборок. Если рассчитать среднюю из ошибок всех возможных выборок заданного объема, извлеченных из одной и той же генеральной совокупности, то получим их обобщающую характеристику – среднюю ошибку выборки ( ).
Средняя ошибка выборки показывает, насколько отклоняется в среднем параметр выборочной совокупности от соответствующего параметра генеральной.
В теории выборочного наблюдения выделяют два способа отбора единиц из генеральной совокупности: повторный и бесповторный.
Бесповторным является такой отбор, в результате которого однажды отобранная в выборку единица наблюдения не может быть отобранной из генеральной совокупности во второй раз.
Повторный – отбор, в результате которого попавшая в выборку единица наблюдения вновь возвращается в совокупность и ее можно отобрать во второй, третий раз и т.д.
Предельная ошибка выборки ( ) равна t – кратному числу средних ошибок выборки (в выборочной теории коэффициент t принято называть коэффициентом доверия): .
Уровень предельной ошибки выборки зависит от следующих факторов:
- степени вариации единиц генеральной совокупности;
- выбранных схем отбора (бесповторный отбор дает меньшую величину ошибки);
- объема выборки;
- уровня доверительной вероятности.
Если объем выборки больше 30, то значение t определяется по таблице нормального распределения, если меньше – по таблице распределения Стьюдента.
Построение доверительных границ для генерального среднего и доли осуществляется следующим образом:
.
Определение границ генеральной средней и доли состоит из следующих этапов:
- нахождение выборочного значения средней (или доли);
- определение в соответствии с выбранной схемой отбора и видом выборки;
- задание доверительной вероятности Р и определение коэффициента доверия t;
- вычисление предельной ошибки выборки ;
- построение доверительного интервала для среднего (или доли).
Виды выборок
В статистике в зависимости от способов отбора различают следующие виды выборок: собственно-случайная, механическая, типическая, серийная, комбинированная, многоступенчатая, многофазная и малая выборки.
3.1 Собственно-случайная выборка
Выборочная совокупность образуется в результате случайного отбора отдельных единиц изучаемой совокупности.
Прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку. Следует также установить четкие границы генеральной совокупности таким образом, чтобы включение или не включение в нее отдельных единиц не вызывало сомнений.
Собственно-случайный отбор может быть как повторным, так и бесповторным.
Таблица 1 – Формулы для расчета средней ошибки собственно-случайной выборки
Схема отбора | ||
повторная | бесповторная | |
При оценивании среднего При оценивании доли При оценивании суммарного значения признака |
3.2 Механическая выборка
Механическая выборка применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в расположении единиц.
Отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы. Так, при 2% выборке отбирается каждая 50 –я единица. Таким образом, в соответствии с принятой долей отбора генеральная совокупность механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.
Для обеспечения репрезентативности выборки все единицы генеральной совокупности должны располагаться в определенном порядке. При упорядоченной генеральной совокупности по существенному признаку в выборочную совокупность должна отбираться та единица, которая находится в середине каждой группы. Это позволяет избежать систематической ошибки выборки.
Средняя ошибка выборки для механического отбора рассчитывается по формулам собственно-случайной выборки при бесповторном способе отбора (см. таблицу 1).
3.3 Типическая выборка
При типической выборке генеральная совокупность расчленяется на однородные типические группы. Из каждой группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность. Репрезентативность типической выборки обеспечивается расчленением на качественно однородные группы. Это обуславливает представительство в выборке каждой типологической группы. Группы образовываются либо методом типической группировки единиц генеральной совокупности, либо могут использоваться уже имеющиеся, естественно сложившиеся группы.
Формулы для оценивания средней ошибки выборки для среднего и доли представлены в таблице 2.
Таблица 2 - Формулы для расчета средней ошибки выборки при использовании типического отбора, пропорционального объему типических групп
Схема отбора | ||
повторная | бесповторная | |
При оценивании среднего При оценивании доли При оценивании суммарного значения признака | ||
- среднегрупповая дисперсия типических групп |
3.4 Серийная (гнездовая) выборка
Серийной называется выборка, при которой происходит случайный или механический отбор однородных между собой (по отношению к изучаемым признакам) серий или групп объектов, а затем сплошное наблюдение всех единиц, составляющих отобранные серии (группы, гнезда).
В практике центрального статистического органа страны Росстата серийная выборка нашла довольно широкое применение при обследованиях сельскохозяйственного производства, в статистике населения, где гнездами часто служат определенные территориальные образования, извлекаемые на случайной бесповторной или механической основе из всей совокупности территорий.
Средняя ошибка серийной выборки зависит только от величины среднего квадрата отклонений серийных средних от общей средней (межсерийная дисперсия), т.к. при этом виде отбора отсутствует влияние внутрисерийной (внутигрупповой) дисперсии из-за того, что внутри отобранных гнезд обследуются все единицы без исключения.
В случае отбора равновеликими сериями величина средней ошибки выборки находится по формулам, приведенным в таблице 3.
Таблица 3 - Формулы для расчета средней ошибки выборки в случае серийного отбора равновеликими сериями
Схема отбора | ||
повторная | бесповторная | |
При оценивании среднего При оценивании доли При оценивании суммарного значения признака | ||
- межсерийная дисперсия средней; - межсерийная дисперсия доли; R – число серий в генеральной совокупности; r – число отобранных серий в выборочную совокупность. |
3.5 Малая выборка
Необходимый объем выборки определяется исходя из заданной исследователем величины выборочной ошибки, доверительной вероятности и способа отбора. Однако в некоторых случаях извлечение требуемого числа единиц невозможно или нецелесообразно из-за больших финансовых и трудовых затрат. В этих случаях прибегают к малым выборкам, объем которых может достигать лишь 5 – 6 единиц.
Использование малых выборок следует ограничить ситуациями, когда распределение признака в генеральной совокупности является нормальным или приближается к нему. Только в этих случаях построенные доверительные интервалы или рассчитанные доверительные вероятности будут иметь реальное практическое значение.
Выборка считается малой, если количество объектов, отобранных для выборочного наблюдения, не превышает 20 единиц.
В связи с таким небольшим объемом выборочной совокупности те формулы для определения ошибок выборки, которые использовались нами ранее при больших выборках, становятся неподходящими и требуют корректировки. Это связано с тем обстоятельством, что при определении выборочных ошибок величину генеральной дисперсии условно принимают равной величине выборочной дисперсии.
Действительно, погрешность, на которую они различаются - при больших n (больше 100 единиц), становится несущественной. При малом же количестве выборочных единиц коэффициент возрастает, и дисперсию следует определять другими способами, а именно:
.
Среднюю ошибку малой выборки можно определить как .
Предельная ошибка малой выборки: .
Распределение значений выборочных средних всегда имеет нормальный закон распределения (или приближается к нему) при , независимо от характера распределения генеральной совокупности. Однако в случае малых выборок действует иной закон распределения – распределение Стьюдента. В этом случае коэффициент доверия находится по таблице t – распределения Стьюдента в зависимости от величины доверительной вероятности Р и объема выборки n.