Сущность и особенности выборочного исследования
Выборочным называется такое наблюдение, с помощью которого можно судить обо всей генеральной совокупности единиц на основе обследования только некоторой ее части, отобранной в случайном порядке.
Выборочное исследование имеет ряд преимуществ перед сплошным, что открывает перед ним широкие возможности. На практике оно может использоваться самостоятельно для решения специальных задач, может занимать место сплошного наблюдения, либо применяться в сочетании со сплошным наблюдением.
Различают генеральную совокупность, из которой производится отбор, и выборочную, которая отобрана из генеральной и подвергнута наблюдению. (Таблица 6.1)
Таблица 6.1 - Основные характеристики совокупностей, их обозначения и формулы
Название показателя | Его обозначение и формула | |
генеральная совокупность | выборочная совокупность | |
Число единиц совокупности | N | n |
Число групп | R | г |
Число единиц, обладающих данным признаком | М | m |
Доля единиц, обладающих данным признаком | P= | w= |
Дисперсия доли | ||
Средняя количественного признака | ||
Дисперсия количественного признака |
В результате случайного отбора выборочная характеристика может оказаться больше или меньше генеральной. Ошибкой выборки D (прописная буква греческого алфавита «дельта») называется разность соответствующих выборочных и генеральных характеристик:
Источниками этих расхождений являются ошибки регистрации индивидуальных величин и несплошной характер наблюдения. Последние называют иначе ошибками репрезентативности – представительства.
Фактическую (предельную) ошибку выборки при собственно случайном повторном отборе определяют по формуле:
где t – число показывающее, сколько средних ошибок содержится в предельной ошибке (коэффициент доверия);
µ(строчная буква греческого алфавита «мю») – средняя (стандартная) ошибка;
s2– дисперсия;
n – число отобранных единиц.
Наряду с абсолютной величиной предельной ошибки выборки рассчитывается и отµносительная ошибкавыборки:
В теории математической статистики доказывается, что возможные ошибки подчиняются закону нормального распределения, и что средняя или доля генеральной совокупности располагается в диапазонах средней ошибки выборки с вероятностью 0,683, Величина вероятности (Ф) вычисляется по интегралу вероятностей Лапласа. Ниже приводится выдержка из специальной таблицы для некоторых характерных значений t (Таблица 6.2).
Таблица 6.2 – Величина вероятности
t | 1,65 | 1,96 | 2,58 | |||
Ф(t) | 0,683 | 0,9 | 0,95 | 0,954 | 0,99 | 0,997 |
Пример 1. Найти с вероятностью 0,954 предельную ошибку выборочной средней и доверительные пределы среднего экзаменационного балла студентов вуза, если средний выборочный балл 100 студентов 4,05, а выборочная дисперсия успеваемости равна 0,36.
Предельную ошибку определяем по формуле повторного отбора, т.к. численность генеральной совокупности N неизвестна. Из представленных значений Ф(t) (см. табл.) для вероятности Ф=0,954 находим t=2.
Следовательно, предельная ошибка выборки:
Генеральная средняя будет равна , а доверительные интервалы (пределы) генеральной средней исчисляем, исходя из двойного неравенства :
Таким образом, с вероятностью 0,954 можно утверждать, что средний экзаменационный балл студентов колеблется в пределах от 3,93 до 4,17.
Пример 2. Найти с вероятностью 0,9 удельный вес стандартных изделий во всей партии, если среди обследуемых 400 изделий 384 оказались стандартными.
Находим выборочную долю стандартных изделий:
и предельную ошибку доли
, или ±1,16%.
Следовательно, с вероятностью 0,9 (90%) можно утверждать, что генеральная доля стандартных изделий будет находиться в пределах , или 96%±1,6%.
При проектировании выборочного наблюдения с заранее заданным значением допустимой ошибки важно правильно определить численность (объем) выборочной совокупности, которая с определенной вероятностью обеспечит заданную точность результатов наблюдения.
Путем несложного преобразования приведенных ранее формул можно получить формулы для определения необходимой численности (объема) выборки:
Пример 3. Какое количество станков необходимо обследовать, чтобы ошибка (D) среднего срока службы станка не превышала 1 года с вероятностью 0,997 (тогда t=3), если среднее квадратическое отклонение (s) срока службы станков равно 5 годам?
станков.
Величина коэффициента доверия t зависит от того, с какой вероятностью необходимо гарантировать пределы ошибки выборки. Эта величина диктуется существом дела. Если требуется, чтобы такая гарантия была дана с вероятностью 0,9, то из таблицы видно, что для этих условий t=1,65. Если достаточна вероятность 0,95, то t=1,96 и т.д.
Пример 4. Какова вероятность того, что предельная ошибка выборочной средней продолжительности горения электрической лампочки не превысит 18 часов, при объеме выборки n=16 и s=24ч?
Находим коэффициент доверия t:
, следовательно, Ф(t)=0,997.
Способы отбора
Репрезентативность выборки зависит не только от того, достаточно ли количество единиц отобрано, но и от того, каким способом они отбираются.
Систему организации отбора единиц из генеральной совокупности называют способом отбора.
В зависимости от того, участвует ли отобранная единица в дальнейшей выборке, различают повторный и бесповторный отбор. При повторном отборе однажды отобранная единица возвращается обратно в генеральную совокупность и снова участвует в выборке. При бесповторном отборе однажды отобранная единица обратно не возвращается.
Ранее были приведены формулы расчета ошибок при повторном способе отбора. Ошибка бесповторного отбора равна соответствующей ошибке повторного, умноженной на коэффициент (К), который всегда меньше единицы:
.
Положим, что, соблюдая условия примера 2, производится не повторный, а бесповторный отбор, причем известно, что во всей партии 2000 изделий.
Тогда предельная ошибка выборки составит:
, или ±1,4%.
Мы видим, что предельная ошибка выборки бесповторного отбора на 0,2% меньше ошибки повторного отбора, т.е. бесповторный отбор точнее повторного. Поправку на бесповторный отбор имеет смысл вводить, если доля выборки равна 10% и более.
Необходимая численность бесповторной случайной выборки составит:
.
Положим, что соблюдая условия примера 3, производится не повторный, а бесповторный отбор, причем известно, что на предприятии 600 станков.
Тогда необходимая численность выборки будет равна:
станка, что на 61 станок меньше нежели при повторном способе отбора.
Повторный и бесповторный отбор применяется в сочетании с разными способами отбора. В практической деятельности употребляется 5 способов отбора: случайный, механический, типический, групповой и комбинированный.
Каждый способ отбора имеет свои особенности при проведении выборки и свои методы расчета средней ошибки.
Собственно-случайным называется такой отбор, при котором единицы отбираются из всей генеральной совокупности на основе жеребьевки или по таблицам случайных чисел. Все приведенные ранее формулы расчета ошибок выборки относятся к собственно-случайному, отбору.
Механический отбор заключается в отборе единиц из генеральной совокупности, производимом в каком-либо механическом порядке, например в отборе каждой пятой, каждой десятой и т.д. единицы, при определенном положении единиц в генеральной совокупности, например по алфавиту,
Чаще всего механический отбор применяют там, где имеются элементы случайности в расположении материала. Поэтому средняя ошибка механической выборки определяется по формулам случайного отбора.
Сущность группового (серийного) отбора заключается в том, что вместо случайного отбора единиц осуществляется отбор группами (сериями, гнездами). Внутри отобранных групп производится сплошное наблюдение.
Применение серийной выборки обусловлено тем, что многие товары упаковываются в ящики, пачки и т.п. Поэтому при контроле качества упакованного товара рациональнее проверить несколько пачек (серий), чем из всех упаковок отбирать необходимое количество изделий.
Поскольку внутри групп (серий) обследуются все единицы, средняя ошибка выборки зависит только от межгрупповой дисперсии или иначе дисперсии групповых средних. Серии могут быть равновеликими и неравновеликими.
Межгрупповая дисперсия вычисляется по формулам:
для средней количественного признака ,
где – средняя в отдельных сериях; – общая средняя по всей выборочной совокупности; r – число отобранных серий;