Размер вероятностной выборки

Вопрос об оптимальном размере вероятностной выборки всегда был спор­ным и, в значительной мере, остается таковым. Мы обсудим лишь основные принципы, лежащие в основе современного подхода к оптимизации размера выборки.

Решение относительно размера выборки принимают с учетом целого ряда фак­торов, среди которых самую существенную роль играют два: 1) ценность и но­визна получаемой в результате опроса информации и 2) затраты на проведение опроса (включая временные) при заданном размере выборки.

Некоторые исследователи полагают, что принятие решения о размере выборки может основываться на сугубо статистическом подходе[22]. При этом в расчет принимают допустимую величину ошибки в оценке исследуемого параметра (например, дохода). Существуют статистические формулы, связывающие раз­мер выборки с вероятностью ошибки и величиной доверительного интервала, задающего пределы этой ошибки (два последних понятия подробнее обсужда­ются в гл. 8). Так как использование этих формул требует принятия определен­ных предположений о том, как распределена интересующая исследователя ве­личина, возникает необходимость в предварительной информации, относящей­ся к тому самому параметру, который мы решили изучить. Трудности, возникающие при использовании классического статистического подхода к оп­ределению размера вероятностной выборки, можно описать одной фразой, принадлежащей известному специалисту по массовым опросам С. Судману: «Очевидно, что формула, описывающая зависимость размера выборки от пред­полагаемой ширины доверительного интервала и приемлемой вероятности ошибки, попросту заменяет проблему определения размера выборки другой, не менее трудной проблемой — определения ширины доверительного интерва­ла»[23].

Во многих важных случаях можно руководствоваться сложившейся практикой, т.е. размером выборки, использовавшейся в аналогичных исследованиях. Кроме того, нужно помнить о простейших «правилах левой руки»для определения размера выборки.

Размер выборки растет

— при необходимости опубликовать данные для отдельных подгрупп (размеры подвыборок при этом суммируются, и выборка в целом растет пропорционально числу подгрупп);

— при проведении общенациональных обследований, когда велика генеральная совокупность (заданная доля генеральной совокупности/будет определять тем больший объем выборки, чем больше генеральная совокупность);

— если уже имеющаяся информация по ключевым вопросам (например, о намерениях избирателей голосовать за ту или иную партию) явно недостаточна, и степень неопределенности значительна

Размер выборки уменьшается

— при исследовании организаций, институтов и прочих «первичных единиц отбора», если сравнительно невелика величина генеральной совокупности, из которой производится отбор (например, совокупности сотрудников рекламных агентств, школьников, пациентов и т. п.);

— при проведении локальных и региональных исследований;

— если уже существующая информация относительно полна, и все еще остающаяся степень неопределенности незначительна.

«Типичные» размеры выборок для общенациональных опросов варьируют в пределах 1000—2500 респондентов (в зависимости от числа анализируемых подгрупп), для региональных опросов и опросов специальных популяций — от 200 до 500 (при анализе многочисленных подгрупп размер региональной или специальной выборки обычно возрастает как минимум до 1000 человек). Указанные значения, разумеется, могут служить лишь самым общим ориентиром дляопределения оптимального размера выборки.

Целевой отбор

Иногда социологи вынуждены применять не основанные на вероятностях выборки. Отбор в этом случае базируется не на принципе рандомизации, а на следовании тем или иным субъективным критериям — доступности, типичности, равного представительства и т. п. Многие из этих критериев при систематическом использовании позволяют добиться достаточно высокого качества социологических данных. Часто такой отбор называют целевым, так как он в боль­шой степени определяется целями исследования. Кроме того, в конкретной ис­следовательской ситуации может оказаться, что осуществление случайной вы­борки — это практически невыполнимое или экономически неэффективное мероприятие (затраты на построение выборки превышают ценность получае­мой в результате исследования информации). Наконец, использование вероят­ностного отбора лишено всякого смысла, если речь идет об исследовании уни­кальных событий, групп или ситуаций — полетов на Луну, войн или любовных историй (об этнографическом методе, применяемом в такого рода исследовани­ях, говорится в гл. 2).

Основной недостаток неслучайных процедур отбора связан с тем, что не суще­ствует строгих статистических методов, позволяющих обобщить результаты, полученные в ходе исследования выборки. Оценка точности и валидности этих результатов (и основанных на них выводов) остается делом субъективного суж­дения, опыта, теоретических предпочтений.

Самый распространенный тип не основанной на вероятности выборки — это выборка доступных случаев. Такого рода выборка может считаться корректной лишь тогда, когда используется в экспериментальном (или квазиэксперимен­тальном) исследовании. Так, в большинстве психологических экспериментов испытуемыми являются студенты. Это позволяет экономить скудные финансо­вые ресурсы, отпускаемые на сугубо академические изыскания. Для того что­бы исключить влияние посторонних, смешивающих факторов, эксперимента­тор в случайном порядке распределяет выборку доступных случаев (т. е. дос­тупных испытуемых) по двум группам — экспериментальной и контрольной. В нашем обсуждении роли рандомизации в эксперименте (гл. 4) подчеркива­лось ее значение для получения точных и обоснованных выводов. Однако слу­чайное приписывание испытуемых-добровольцев к экспериментальной и контрольной группам, строго говоря, не является достаточным основанием для обоб­щения результатов эксперимента для всей генеральной совокупности, из которой осуществлялась выборка доступных случаев. Точнее, в ситуации отбора дос­тупных случаев невозможно с полной уверенностью сказать, что, собственно, являлось генеральной совокупностью в процессе исследования, так как после­дняя не была определена с самого начала. Поэтому, в частности, шутливое оп­ределение предмета психологии гласит, что это наука, изучающая студентов-второкурсников гуманитарных факультетов. В социологии выборкой доступ­ных случаев чаще всего приходится довольствоваться при изучении таких специальных популяций, которые практически не поддаются локализации. Речь идет, прежде всего, об относительно малочисленных группах, находящихся вне сферы институционального (например, административного) контроля. Для таких групп трудно найти какую-то основу выборки — скажем, посетители стрелковых тиров едва ли состоят на каком-нибудь государственном учете. «Про­сеивание» большой случайной выборки из генеральной совокупности с целью рекрутирования сколько-нибудь значительного числа респондентов в специаль­ную выборку требует непомерных затрат. Поэтому социологам иногда прихо­дится уподобляться орнитологам и отбирать членов экзотических популяций в местах их «естественного обитания» или вероятного скопления. Многие иссле­дования посетителей массовых библиотек проводятся в библиотеках, посети­телей выставок — в музеях, ветеранов войны — в клубах ветеранов и т. п. В этой ситуации исследователю приходится прилагать дополнительные усилия для получения высококачественной информации. Следует заметить, что некоторая статистическая «небезупречность» получаемых таким образом результатов, при должной методической культуре исследователей, иногда окупается, и мы узна­ем нечто принципиально новое об относительно «закрытых» областях челове­ческого поведения[24]. Однако если целью исследования является описание рас­пределения признаков во вполне определенной генеральной совокупности (по­купателей зубной пасты, избирателей, читателей газет), то социолог, использующий выборку доступных случаев, понапрасну тратит деньги заказ­чика (и пренебрегает профессиональной этикой). Квалифицированному заказ­чику в этом случае также не стоит принимать всерьез рассуждения о принципи­ально новых, нестатистических и даже «мягких» методах проведения массо­вых опросов.

Значительно реже социологи используют две другие разновидности целевого отбора — отбор «критических случаев» и отбор «типичных случаев». В обоих случаях исследователь полагается на какие-то теоретические представления или предыдущий опыт, чтобы отобрать ограниченное число «симптоматических», характерных наблюдений, позволяющих сделать более широкие обобщения и предсказания. Иногда это удается, но следует помнить о том, что опыт и теоре­тические суждения обычно бывают субъективны. В печально знаменитых пре­зидентских выборах 1948 г. в Америке (Г. Трумэн против Т. Дьюи) ошибочные прогнозы сделали все знаменитые институты опросов общественного мнения. При этом некоторые из них избрали в качестве «типичного» случая население штата Мэн, так как прежде жители этого штата всегда «угадывали» будущего президента. В описываемом случае «нетипично» (т.е. за проигравшего выборы Дьюи) проголосовали только два штата — Мэн и Вермонт. Поэтому поговорку «Как голосует Мэн, голосует вся Америка» пришлось перефразировать: «Как голосует Мэн, так голосует Вермонт»[25].

Метод «снежного кома» — это еще один (наряду с выборкой доступных случа­ев) интересный подход к отбору из «редких» совокупностей. Его идея такова: первоначально идентифицированная небольшая группа членов интересующей социолога совокупности служит источником сведений о других членах этой совокупности, так что выборка постепенно разрастается вширь подобно снеж­ному кому, катящемуся с горы. Этот метод использовал, например, П. Лазарсфельд с коллегами в исследовании «влиятельных людей» и неформальных связей. Помимо властвующих элит данный метод применяют в изучении других групп, также избегающих широкой известности, — например, наркоманов или коллекционеров антиквариата. Для этого метода существуют определенные приемы оценки систематической ошибки, однако они слишком сложны, чтобы обсуждаться здесь.

К выборкам, не основанным на случайном отборе, относится и квотная выбор­ка, когда-то чрезвычайно популярная даже среди профессиональных статисти­ков и практически не используемая сейчас. Идея квотной выборки проста: изу­чаемая совокупность разбивается на такие социально-демографические груп­пы, которые исследователь почему-либо считает важными. Обычно критериями разбивки становятся пол, возраст, национальная принадлежность, место жи­тельства и т. п. Далее, основываясь на уже известных (обычно из официальной статистики) пропорциях этих групп в генеральной совокупности, социолог со­ставляет полевые задания для интервьюеров, указывая, сколько женщин, муж­чин, лиц с высшим образованием и т. п. нужно опросить. Например, интервью­ер получает задание опросить десять женщин старше 50 лет, восемь мужчин 35 — 45 лет и трех восемнадцатилетних девушек, проживающих в г. Санкт-Пе­тербурге. В результате должна получиться выборка, представляющая все за­данные пропорции групп в генеральной совокупности.

Основная проблема квотного отбора заключается в том, что он носит неслучай­ный характер и осуществляется лично интервьюером. Последний выбирает респондентов, в конечном счете, по собственному усмотрению. Хотя число муж­чин или женщин, рабочих или пенсионеров, которых следует опросить в дан­ном районе или местности, задано заранее, интервьюер решает, в какую квар­тиру ему удобнее позвонить, с кем из членов семьи провести интервью, куда вернуться вторично, если на звонок никто не ответил, и т. п. Это неизбежно ведет к систематическим смещениям в процессе отбора, причем не суще­ствует никаких методов для оценки величины возникающей систематичес­кой ошибки.

Еще один очевидный недостаток квотного отбора связан с тем, что обычно невозможно даже приблизительно оценить количество отказов от участия в опросе. Если интервьюер сталкивается с человеком, не желающим отвечать на вопросы, или просто недоброжелательным, или вызывающим у него ан­типатию, интервьюер всегда волен попрощаться и попытать счастья в со­седней квартире.

По указанным причинам квотные выборки «вышли из моды» среди социоло­гов, несмотря на свою относительную дешевизну.

Оценивая полезность и применимость вышеописанных «неслучайных» мето­дов отбора в исследовательской практике, следует, прежде всего, сказать, что в определенных обстоятельствах никакой другой альтернативы просто не суще­ствует. В ситуации нехватки денег, персонала, времени либо первичной инфор­мации о генеральной совокупности социологи использовали и будут использо­вать впредь выборки доступных случаев, метод «снежного кома» и даже (к со­жалению) квотную выборку. При этом профессиональный долг социолога заключается в том, чтобы оценить, пусть даже очень приблизительно, величи­ну и источники возникающей выборочной ошибки.

Безусловно, разумно использовать целевые выборки в пилотажных исследова­ниях, в экспериментах, в том числе методических (т. е. нацеленных на проверку и отработку анкет, опросников, шкал и т. п.).

Однако всегда следует помнить о том, что возможность обобщения любых оце­нок, полученных на целевой выборке, для генеральной совокупности в целом, т. е. внешняя валидность результатов исследования, чаще всего оказывается сомнительна[26].

Дополнительная литература

Кокрен У. Методы выборочного обследования. М.: Статистика, 1976.

Петренко Е. С., Ярошенко Т. М. Социально-демографические показатели в социологических исследованиях. М.: Статистика, 1979.

Территориальная выборка в социологических исследованиях. М.: Наука, 1980.

Чурилов Н. Н. Проектирование выборочного социального исследования. Киев: Наукова думка, 1986.

[1] Напомним, что под индуктивным выводом обычно понимают рассуждение по схеме «от частных наблюдений — к общей эмпирической закономерности».

[2] Более детальные сведения о развитии выборочного метода можно найти, в частности, в интересной и доступной книге: Дружинин Н. К. Выборочное наблюдение и экспери­мент. М.: Статистика, 1979.

[3] См.: Fisher R. A. The Design of Experiment. 3rd ed. L.: Oliver& Boyd, 1942.

[4] В дальнейшем мы будем использовать термины «случайнаявыборка» и «вероятност­ная выборка» как взаимозаменяемые.

[5] RouncefieldM., Holmes P. Practical Statistics. Basingstoke: Macmillan Education Ltd, 1989. P. 122.

[6] Gallup G. A. Guide to Public Opinion Polls. Princeton:Princeton University Press, 1948.

[7] Здесь и далее речь идет о случайной безвозвратной выборке, так как выборка с возвращением отобранной единицы в совокупность на каждом шаге отбора не очень удобна практически (хотя и обладает рядом статистических преимуществ).

[8] Составлено на основе таблицы: Appendix С: Random Numbers // Zeller R. A., Carmines E. G. Statistical Analysis of Social Data. Chicago: Rand McNally, 1978. P. 364—367.

[9] В отечественной литературе сравнительный анализ разных основ и их применения в конкретных исследованиях осуществлен, например, в книге: Арутюнян Ю. В., Дробижева Л. М., Кондратьев В. С., Сусоколов А. А. Этносоциология: цели, методы и некото­рые результаты исследования. М.: Наука, 1984. Гл. IV.

[10] Подробнее об источниках смещений в основе выборки инекоторых способах борьбы со смещениями см.: Kish L. Survey sampling. N. Y.: J. Wiley, 1965. P. 53—59.

[11] В действительности нам понадобится как минимум 20%-й запас карточек с именами и адресами для замещения тех респондентов, которые окажутся недоступными даже 2—3 посещений. Доля «недоступных» в исследовании специфических популяций (например, зубных врачей или читателей «Вопросов литературы») может составить 40—50%, включая и длительно отсутствующих, и отказавшихся от сотрудничества и т. п. Соответственно в последнем случае «запас» должен составлять 40—50% от первоначально запланированного объема выборки.

[12] Обсуждение «послевыборочных» последствий различных процедур отбора можно найти, в частности, в книге: Henry G. T. Practical sampling (Appl. Research Methods Series. Vol. 21). Newbury Park etc.: Sage, 1990. Ch. 8.

[13] Henry G. T. Op. cit. P. 25.

[14] Подробнеесм.: Sudman S. Applied sampling. N. Y.: Academic Press, 1975. P. 126—130.

[15] Соответственно использование кластерной процедуры отбора лишено смысла при проведении почтовых опросов, централизованных телефонных интервью и локальных обследований.

[16] Sudman S. Op. cit. P. 70.

[17] В нашем случае так называемой территориальной кластерной выборки таковыми являются различия в численности населения отдельных деревень и хуторов.

[18] См.: Sudman S. Op. cit. P. 73—78.

[19] Источник: Hansen M., Hurwitz W. N., Madav W. G. SampleSurvey Methods and Theory. N. Y.: Wiley and Sons, 1953. 2 vols. (Vol. 1. P. 264. Table 3). Знаки «0» перед запятой опущены.

[20] См.:Sudman S. Op. cit. P. 78—79; Hansen M., Hurwitz W. N.. Madow W. G. Op. cit.

[21] Примером многофазной (многоступенчатой) стратифицированной выборки может служить выборка «Всесоюзного этносоциологического исследования» (рук. Ю. В. Арутюнян, 1971—1976 гг.). См. подробнее: Арутюнян Ю. В., Дробижева Л. М., Кондрать­ев В. С., Сусоколов А. А. Цит. соч. С. 111—123. Отметим также, что впервые в отече­ственной социологии многоступенчатая территориальная вероятностная выборка использовалась в исследовании читателей газеты «Правда», проводившемся В. Э. Шляпентохом в 1970-е гг.

[22] См.: Кокрен У. Методы выборочного исследования. М.: Статистика, 1976.

[23] Sudmап S. Op. cit. P. 89.

[24] В отечественной литературе примеры очень интересных исследований, основанных на целевом отборе, особенно многочисленны (причиной чему, очевидно, является хроническая недостаточность финансирования социологических исследований). Общее представление об используемых в них методах повышения качества информации можно составить, ознакомившись с несколькими хорошими работами, например: 47 пятниц. Функционирование общественного мнения в условиях города (программы и документы исследования). М.: ССА, 1969. Вып. 1.; Шубкин В. Н. Начало пути. М.: Молодая гвардия, 1919; Клявина Т. А., Хршановская С. П. В поисках зрителя (итоги опроса руко­водителей театров РСФСР) // Социологические исследования. 1988. № 3. С. 47—53.

[25] Henry G. Т. Op. cit. P. 21.

[26] Предвыборные опросы общественного мнения, проводившиеся различными россий­скими исследовательскими центрами в первой половине 1990-х гг., изобилуют столь многочисленными подтверждениями этой истины, что трудно выбрать один «негатив­ный пример» для критического рассмотрения. Систематический анализ просчетов в организации выборки таких опросов содержится в работах: Шляпентох В. Э. Предвы­борные опросы 1993 г. в России (критический анализ) // Социологические исследова­ния. 1995. № 10. С. 3—10; Мансуров В. А., Петренко Е. С. Изучение общественного мнения в России и СССР // Социология в России. М.: На Воробьевых, 1996. Богатый эмпирический материал, относящийся к ошибочным прогнозам итогов выборов в Думу 1995 г., см. в статье: Рубинов А. Социология сказала... // Лит. газета. 1995. 13 дек.

Наши рекомендации