Определение ошибки выборки
При выборочном наблюдении регистрируется только часть единиц генеральной совокупности. Но эта часть по объему должна быть такова, чтобы получаемые сведения оказались репрезентативными, т. е. достаточно верно отражали содержание и закономерности изучаемого явления в целом. Под репрезентативностью понимается свойство выборочной совокупности воспроизводить характеристики генеральной совокупности.
Разность между данными генеральной и выборочной совокупностей называют ошибкой репрезентативности, или ошибкой выборки. Например, генеральная совокупность правонарушителей составляет 500 человек. Удельный вес лиц, воспитанных в неполной семье, среди них равен 30%. При выборочном наблюдении было изучено 50 человек, среди которых удельный вес таких лиц оказался 25%. Ошибка выборки равна: 30% — 25% = 5% (0,5). Аналогичным образом выводится ошибка репрезентативности и для количественного признака. Предположим, что средняя арифметическая величина возраста преступников в генеральной совокупности была равна 28,3 года. В выборочной совокупности она составила 26,5 года. Ошибка равна: 28,3 — 26,5 = 1,8 года.
Ошибки бывают тенденциозными, или систематическими, и случайными. Первые — результат неправильного или преднамеренного отбора исследователем тех или иных показателей, вторые — результат случайностей неполного отбора.
Тенденциозные ошибки возникают тогда, когда исследователь неправильно сформировал выборку, не знал научных правил отбора единиц совокупности, сознательно отобрал наиболее показательные единицы. Например, исследуя правосознание граждан, анкетер в целях экономии времени воспользовался аудиторией студентов-юристов и опросил их. Полученные данные, естественно, отражали правовые взгляды лишь этих респондентов и не соответствовали взглядам всех граждан. Выводы, сделанные на основе тенденциозных выборок, будут ошибочными. Они могут причинить вред делу.
Истории известны многие курьезы, связанные с пренебрежением правилами выборочного наблюдения. Один из них произошел в США в 1936 г. при прогнозировании исхода президентских выборов. Журнал «Литерари Дайджест», используя телефонные книги, опросил свыше 2 млн человек. По итогам опроса президентом должен быть избран Ландон. Социологи Геллап и другие опросили только 4 тыс. жителей и пришли к однозначному выводу: победит Рузвельт. Их прогноз оправдался. В чем причина таких расхождений? Первая выборка отражала мнение лишь состоятельных консервативных слоев населения, которые имели телефоны, вторая — всех слоев населения. Она оказалась более представительной, хотя была в 500 раз меньше первой. Роковую роль сыграли тенденциозные ошибки.
Научно-практическая задача выборочного наблюдения сводится не только к тому, чтобы при малых затратах сил и средств максимально приблизить данные выборки к данным всей генеральной совокупности, но и к тому, чтобы точно измерить, в каких пределах результаты выборки отличаются от данных генеральной совокупности. Здесь и встает вопрос о характере ошибок.
Тенденциозные (систематические) ошибки нельзя измерить. Они могут быть самыми разными по величине и содержанию. Тенденциозные ошибки тем меньше, чем выше квалификация исследователя, чем лучше он знаком с объектом изучения и возможными источниками систематических ошибок.
Измерить можно лишь случайные ошибки, т. е. ошибки, обусловленные неполнотой изучения реально существующей совокупности. Случайные ошибки — непреднамеренные неточности статистического наблюдения, которые могут быть направлены как в сторону преувеличения показателей признака, так и в сторону их преуменьшения. При относительно большом изучении случайные ошибки взаимопогашаются (вспомним третий этап эксперимента по извлечению пронумерованных карточек, когда было сделано 30 выборок по 40 извлечений каждая), в результате чего данные выборочной совокупности становятся близкими к данным генеральной. Оставшиеся различия можно относительно точно измерить на основе теории вероятностей, закона больших чисел и закономерностей распределения случайных величин.
Для того чтобы избежать тенденциозных ошибок, необходимо строго соблюдать правила случайного отбора единиц выборочной совокупности. Случайные ошибки в выборочном наблюдении объективны. Их нельзя избежать, но можно уменьшить путем увеличения объема выборки и точно вычислить.
Необходимость в точном расчете ошибки выборки возникает тогда, когда произведенное выборочное наблюдение надо оценить с точки зрения его репрезентативности и достоверности. Формула для вычисления ошибки выборки в общем виде выглядит так:
где W — ошибка выборки; а — средний квадрат отклонения (дисперсия); о — среднее квадратическое отклонение; п — число единиц выборки.
Исходя из этой формулы, ошибка репрезентативности прямо пропорциональна дисперсии или среднему квадратическо-му отклонению и обратно пропорциональна числу единиц выборки. Ошибка выборки будет тем меньше, чем меньше дисперсия (колеблемость признака) и чем больше численность выборки. Объем выборочной совокупности, как правило, всегда известен, если исследование уже произведено. Остается вычислить дисперсию, порядок расчета которой мы излагали в предыдущем параграфе. Подставляя значение дисперсии в формулу ошибки выборки для качественного и количественного признака получаем:
w =w =I/
Эти формулы позволяют рассчитывать ошибку выборки на основе исходных показателей. Рассчитаем ее по данным предыдущих примеров. Дисперсия качественного признака — состояния опьянения, удельный вес которого в структуре изучаемых преступлений составлял 35%, оказалась равной 0,23. Численность выборки определим в 100 единиц (уголовных дел, статкарт, приговоров). В этом случае
W = ,/0,0023 = 0,048, или 4,8
Это означает, что при правильной случайной выборке в 100 единиц удельный вес лиц, совершивших преступления в состоянии опьянения, будет колебаться относительно удельного веса данного признака в генеральной совокупности в пределах ± 4,8%, т. е. 35% ± 4,8% или от 30,2 до 39,8%. Если мы увеличим выборку вчетверо, т. е. до 400 единиц, то ошибка выборки уменьшится вдвое и будет составлять ± 2,4%. При максимальной дисперсии качественного признака (0,25) и 100 единицах выборки ошибка выборки будет равняться 0,05, или ± 5%, а при 400 единицах выборки — 0,025, или ± 2,5%.
Обратимся к примеру с количественными признаками --к 100 осужденным к разным срокам лишения свободы. Дисперсия количественного признака равнялась 2,29 года. Рассчитаем ошибку выборки:
w = V0.0229 = ± 0,048 года.
При увеличении выборки вчетверо, т. е. до 400 единиц, ошибка выборки уменьшится вдвое и составит ±0,075 года.
Приведенные примеры наглядно показывают, что при правильном отборе выборочной совокупности даже при небольшом объеме в 100 единиц ошибка репрезентативности может быть признана вполне допустимой, а при выборке в 400 единиц -- тем более. При максимальной дисперсии качественного признака и выборке в 100 единиц ошибка выборки, например, не превышала ± 5%. Эти величины постоянные, что и используется в заранее рассчитанных таблицах.
Дисперсия и ошибка выборки количественных признаков выражаются не в относительных числах (процентах, долях), как у качественных показателей, а в именованных числах, т. е. в годах, рублях, классах, часах и т. д. Они могут иметь самые разные содержательные и численные значения. Их нельзя рассчитать заранее безотносительно к конкретному признаку, и поэтому готовых таблиц ошибок выборки для количественных признаков нет.
Все предшествующие формулы и расчеты ошибки репрезентативности имеют значение для повторной выборки. При ней каждая отобранная из генеральной совокупности единица (например, статкарта на преступление) вновь возвращается в массив. Поэтому не исключена возможность ее повторного отбора. Наряду с таким отбором есть отбор бесповторный. При нем каждая отобранная единица исключается из числа единиц генеральной совокупности, а поэтому может попасть в выборку лишь один раз. В связи с этим ошибка выборки для качественных и количественных признаков вычисляется соответственно по разным формулам:
где и — число выборочной совокупности; N — число генеральной совокупности.
Проанализируем эти формулы на конкретном примере. Предположим, что в одном из городов бесповторным способом был произведен опрос 300 граждан о знании ими УК РФ. Удельный вес лиц, которые не знали ничего о кодексе, составил 20%. Общая численность взрослого населения города составила 15 тыс. человек. Необходимо установить репрезентативность произведенного изучения. В данном случае W =0,2(1-0,2) 30015000J= Г'V 300(1 - 0,02) = ±0,022
Однократная ошибка выборки составила ± 0,022, или ± 2,2%, а двукратная -- ± 4,4%. Если опрос граждан производился при строгом соблюдении процедуры, то удельный вес тех из них, которые не знают ничего об УК, в структуре всех граждан может колебаться в пределах 20 ± 4,4% или от 15,6 до 24,4%. Возможные отклонения существенны, но для практических целей результаты могут быть признаны вполне удовлетворительными.
Анализ формул ошибки бесповторной выборки показывает, что дополнительный множитель (1— n/N) не может быть больше единицы, следовательно, он лишь уменьшает величину ошибки выборки. В данном случае этот множитель составил 0,98 и уменьшил все подкоренное выражение на 0,00001, а ошибку выборки — на 0,1%. В других случаях это уменьшение может быть большим. Таким образом, наличие данного множителя позволяет более точно вычислить ошибку бесповторной выборки, причем в сторону ее минимизации. Поэтому, если исследователю неизвестна численность генеральной совокупности, а он произвел бесповторную выборку, то можно рассчитать ошибку репрезентативности по формуле повторной выборки. Незначительной неточностью, связанной с завышением расчетной ошибки, можно пренебречь, поскольку социально-правовые исследования не требуют особой точности.
При рассмотрении закономерностей нормального распределения (рис. 6) говорилось о правиле трех сигм. Вспомним, что если площадь выборки заключена в пределах Зс, то она составит 99,7% (0,997) всей площади, ограниченной кривой распределения, если в пределах 2о — 95,4% (0,954), если в пределах 1о -68,3% (0,683). Эта закономерность используется для расчета коэффициента доверия (t).
Не вникая в математическую сторону этого вопроса, скажем, что вероятность отклонения изучаемого признака, как качественного, так и количественного, в пределах однократной ошибки репрезентативности, т. е. при /= 1, равна 0,683. Это означает, что из 1000 изучаемых единиц 683 будут находиться в пределах однократной ошибки выборки, а остальные 317 единиц — за ее пределами. При коэффициенте доверия, равном 2 (/=2), вероятность отклонения изучаемого признака будет находиться в пределах двукратной ошибки репрезентативности и равняться 0,954, те. из 1000 изучаемых единиц 954 будут находиться в пределах двукратной ошибки. При коэффициенте доверия, равном 3 (/=3), из 1000 изучаемых единиц 997 будут находиться в пределах трехкратной ошибки.
Символ t именуют коэффициентом кратности ошибки репрезентативности, или коэффициентом доверия. Его увеличение повышает репрезентативность выборки, но не само по себе, а через увеличение выборочной совокупности. Если, например, при проведении криминологического или социально-правового изучения есть необходимость в том, чтобы ошибка репрезентативности не превышала ± 4,8%, как было в нашем примере, а коэффициент доверия был равен не 1, а 3, т. е. t— 3, то численность выборочной совокупности придется увеличить в 6 раз, или до 600 единиц. При t=2 численность выборки должна быть увеличена в 4 раза, т. е. до 400 единиц.
Выше говорилось, что если уменьшить ошибку выборки в 2 раза, то выборочную совокупность следует увеличить в 4 раза. Поставим задачу по-иному. Если нас удовлетворяет величина ошибки выборки, но необходимо повысить коэффициент доверия до 1=2, чтобы в 954 случаях из 1000 величина единиц изучения не отклонялась от заданной ошибки, также надо увеличить объем выборочной совокупности в 4 раза. Ошибка сохраняется та же, а коэффициент доверия повышается. При криминологических, социально-правовых исследованиях и при изучении в практических оперативных целях может быть допустима точность с коэффициентом доверия /= 1. При решении важных научных или практических вопросов желательно, чтобы ошибка репрезентативности принималась с коэффициентом доверия t = 2. Изучение с коэффициентом доверия / = 3 в юридической статистике практически нигде не требуется.
Предельная ошибка выборки обозначается греческой буквой А (дельта). Она равна произведению однократной ошибки выборки на соответствующий коэффициент доверия Д = W't. Заменив W соответствущими формулами для повторной выборки, получим:
Для бссповторной выборки эти формулы будут иметь следующий вид:
Избежать сложных математических расчетов при определении пределов ошибки репрезентативности качественных характеристик при заданном числе наблюдений помогают специальные таблицы, рассчитанные математиками (табл. 5).
Таблица 5 Предел ошибки при заданном числе наблюдений и t = 2, %
Удельный вес наблюдений, % | Число наблюдений | |||||||||
5 (95) 10 (90) 15 (85) 20 (80) 25 (75) 30 (70) 35 Г6М | 4,4 6,0 7,2 8,0 8,7 9,2 SU 9,9 10,0 10,0 | 3,1 4,3 5,1 5,7 6,2 6,5 6,8 7,0 7,1 7,1 | 2,8 3,5 4,1 4,6 5,0 5,3 5,5 5,6 5,7 5,8 | 2,5 3,0 3,6 4,0 4,3 4,6 4J& 4,9 5,0 5,0 | 1,9 2,7 3,2 3,6 3,9 4,1 4,3 4,4 4,5 4,5 | 1,8 2,5 2,9 3,3 3,5 3,7 3,9 4,0 4,1 4,1 | 1,6 2,3 2,7 3,0 3,3 3,5 3,6 3,7 3,8 3,8 | 1,5 2,1 2,5 2,8 3,1 3,2 3,4 3,5 3,5 3,5 | 1,4 2,0 2,4 2,7 2,9 3,1 3,2 3,3 3,3 3,3 | 1,4 1,9 2,3 2,5 2,7 2,9 3,0 3,1 3,1 3,2 |
40 (60) 45 (55) |
Используя эту далеко не полную таблицу, определим предельную ошибку репрезентативности по уже известным данным о лицах, совершивших преступления в состоянии опьянения. Вспомним эти данные: удельный вес указанных лиц составлял 35%, объем выборочной совокупности 100 и 400 единиц. Ошибка репрезентативности, рассчитанная по формулам, оказалась равной соответственно ± 4,8 и ± 2,4%. Если наши расчеты были верными, то они совпадут с данными табл. 5.
Находим в графе 1 таблицы значение показателя, равное 35% (оно подчеркнуто). На этой же строке в графе 2, соответствующей 100 наблюдениям, находим ошибку репрезентативности ± 9,6%, а в графе 5, соответствующей 400 наблюдениям, — ошибку репрезентативности ± 4,8%. Сопоставим расчетные ошибки с табличными. Последние оказались вдвое больше тех, которые были получены путем расчета. Однако никакой ошибки здесь нет. Пределы ошибок, указанные в табл. 5, рассчитаны при коэффициенте доверия, равном 2 (/=2), а мы рассчитывали без учета коэффициента доверия (т. е. при /= 1). Если использовать формулы расчета предельных ошибок с /= 2, то получим те же самые данные, которые указаны в табл. 5.
д = tW = 2 • 4,8 = ±9,6%; Д = tW = 2 • 2,4 = ±4,8%.
Коэффициент доверия, равный 2, означающий, что в 954 случаях из 1000 единицы изучения не будут выходить за пределы заданной ошибки репрезентативности, практически надежен. Поэтому таблицы предельных ошибок рассчитаны применительно к нему.