Размер вероятностной выборки
Вопрос об оптимальном размере вероятностной выборки всегда был спорным и, в значительной мере, остается таковым. Мы обсудим лишь основные принципы, лежащие в основе современного подхода к оптимизации размера выборки.
Решение относительно размера выборки принимают с учетом целого ряда факторов, среди которых самую существенную роль играют два: 1) ценность и новизна получаемой в результате опроса информации и 2) затраты на проведение опроса (включая временные) при заданном размере выборки.
Некоторые исследователи полагают, что принятие решения о размере выборки может основываться на сугубо статистическом подходе[22]. При этом в расчет принимают допустимую величину ошибки в оценке исследуемого параметра (например, дохода). Существуют статистические формулы, связывающие размер выборки с вероятностью ошибки и величиной доверительного интервала, задающего пределы этой ошибки (два последних понятия подробнее обсуждаются в гл. 8). Так как использование этих формул требует принятия определенных предположений о том, как распределена интересующая исследователя величина, возникает необходимость в предварительной информации, относящейся к тому самому параметру, который мы решили изучить. Трудности, возникающие при использовании классического статистического подхода к определению размера вероятностной выборки, можно описать одной фразой, принадлежащей известному специалисту по массовым опросам С. Судману: «Очевидно, что формула, описывающая зависимость размера выборки от предполагаемой ширины доверительного интервала и приемлемой вероятности ошибки, попросту заменяет проблему определения размера выборки другой, не менее трудной проблемой — определения ширины доверительного интервала»[23].
Во многих важных случаях можно руководствоваться сложившейся практикой, т.е. размером выборки, использовавшейся в аналогичных исследованиях. Кроме того, нужно помнить о простейших «правилах левой руки»для определения размера выборки.
Размер выборки растет
— при необходимости опубликовать данные для отдельных подгрупп (размеры подвыборок при этом суммируются, и выборка в целом растет пропорционально числу подгрупп);
— при проведении общенациональных обследований, когда велика генеральная совокупность (заданная доля генеральной совокупности/будет определять тем больший объем выборки, чем больше генеральная совокупность);
— если уже имеющаяся информация по ключевым вопросам (например, о намерениях избирателей голосовать за ту или иную партию) явно недостаточна, и степень неопределенности значительна
Размер выборки уменьшается
— при исследовании организаций, институтов и прочих «первичных единиц отбора», если сравнительно невелика величина генеральной совокупности, из которой производится отбор (например, совокупности сотрудников рекламных агентств, школьников, пациентов и т. п.);
— при проведении локальных и региональных исследований;
— если уже существующая информация относительно полна, и все еще остающаяся степень неопределенности незначительна.
«Типичные» размеры выборок для общенациональных опросов варьируют в пределах 1000—2500 респондентов (в зависимости от числа анализируемых подгрупп), для региональных опросов и опросов специальных популяций — от 200 до 500 (при анализе многочисленных подгрупп размер региональной или специальной выборки обычно возрастает как минимум до 1000 человек). Указанные значения, разумеется, могут служить лишь самым общим ориентиром дляопределения оптимального размера выборки.
Целевой отбор
Иногда социологи вынуждены применять не основанные на вероятностях выборки. Отбор в этом случае базируется не на принципе рандомизации, а на следовании тем или иным субъективным критериям — доступности, типичности, равного представительства и т. п. Многие из этих критериев при систематическом использовании позволяют добиться достаточно высокого качества социологических данных. Часто такой отбор называют целевым, так как он в большой степени определяется целями исследования. Кроме того, в конкретной исследовательской ситуации может оказаться, что осуществление случайной выборки — это практически невыполнимое или экономически неэффективное мероприятие (затраты на построение выборки превышают ценность получаемой в результате исследования информации). Наконец, использование вероятностного отбора лишено всякого смысла, если речь идет об исследовании уникальных событий, групп или ситуаций — полетов на Луну, войн или любовных историй (об этнографическом методе, применяемом в такого рода исследованиях, говорится в гл. 2).
Основной недостаток неслучайных процедур отбора связан с тем, что не существует строгих статистических методов, позволяющих обобщить результаты, полученные в ходе исследования выборки. Оценка точности и валидности этих результатов (и основанных на них выводов) остается делом субъективного суждения, опыта, теоретических предпочтений.
Самый распространенный тип не основанной на вероятности выборки — это выборка доступных случаев. Такого рода выборка может считаться корректной лишь тогда, когда используется в экспериментальном (или квазиэкспериментальном) исследовании. Так, в большинстве психологических экспериментов испытуемыми являются студенты. Это позволяет экономить скудные финансовые ресурсы, отпускаемые на сугубо академические изыскания. Для того чтобы исключить влияние посторонних, смешивающих факторов, экспериментатор в случайном порядке распределяет выборку доступных случаев (т. е. доступных испытуемых) по двум группам — экспериментальной и контрольной. В нашем обсуждении роли рандомизации в эксперименте (гл. 4) подчеркивалось ее значение для получения точных и обоснованных выводов. Однако случайное приписывание испытуемых-добровольцев к экспериментальной и контрольной группам, строго говоря, не является достаточным основанием для обобщения результатов эксперимента для всей генеральной совокупности, из которой осуществлялась выборка доступных случаев. Точнее, в ситуации отбора доступных случаев невозможно с полной уверенностью сказать, что, собственно, являлось генеральной совокупностью в процессе исследования, так как последняя не была определена с самого начала. Поэтому, в частности, шутливое определение предмета психологии гласит, что это наука, изучающая студентов-второкурсников гуманитарных факультетов. В социологии выборкой доступных случаев чаще всего приходится довольствоваться при изучении таких специальных популяций, которые практически не поддаются локализации. Речь идет, прежде всего, об относительно малочисленных группах, находящихся вне сферы институционального (например, административного) контроля. Для таких групп трудно найти какую-то основу выборки — скажем, посетители стрелковых тиров едва ли состоят на каком-нибудь государственном учете. «Просеивание» большой случайной выборки из генеральной совокупности с целью рекрутирования сколько-нибудь значительного числа респондентов в специальную выборку требует непомерных затрат. Поэтому социологам иногда приходится уподобляться орнитологам и отбирать членов экзотических популяций в местах их «естественного обитания» или вероятного скопления. Многие исследования посетителей массовых библиотек проводятся в библиотеках, посетителей выставок — в музеях, ветеранов войны — в клубах ветеранов и т. п. В этой ситуации исследователю приходится прилагать дополнительные усилия для получения высококачественной информации. Следует заметить, что некоторая статистическая «небезупречность» получаемых таким образом результатов, при должной методической культуре исследователей, иногда окупается, и мы узнаем нечто принципиально новое об относительно «закрытых» областях человеческого поведения[24]. Однако если целью исследования является описание распределения признаков во вполне определенной генеральной совокупности (покупателей зубной пасты, избирателей, читателей газет), то социолог, использующий выборку доступных случаев, понапрасну тратит деньги заказчика (и пренебрегает профессиональной этикой). Квалифицированному заказчику в этом случае также не стоит принимать всерьез рассуждения о принципиально новых, нестатистических и даже «мягких» методах проведения массовых опросов.
Значительно реже социологи используют две другие разновидности целевого отбора — отбор «критических случаев» и отбор «типичных случаев». В обоих случаях исследователь полагается на какие-то теоретические представления или предыдущий опыт, чтобы отобрать ограниченное число «симптоматических», характерных наблюдений, позволяющих сделать более широкие обобщения и предсказания. Иногда это удается, но следует помнить о том, что опыт и теоретические суждения обычно бывают субъективны. В печально знаменитых президентских выборах 1948 г. в Америке (Г. Трумэн против Т. Дьюи) ошибочные прогнозы сделали все знаменитые институты опросов общественного мнения. При этом некоторые из них избрали в качестве «типичного» случая население штата Мэн, так как прежде жители этого штата всегда «угадывали» будущего президента. В описываемом случае «нетипично» (т.е. за проигравшего выборы Дьюи) проголосовали только два штата — Мэн и Вермонт. Поэтому поговорку «Как голосует Мэн, голосует вся Америка» пришлось перефразировать: «Как голосует Мэн, так голосует Вермонт»[25].
Метод «снежного кома» — это еще один (наряду с выборкой доступных случаев) интересный подход к отбору из «редких» совокупностей. Его идея такова: первоначально идентифицированная небольшая группа членов интересующей социолога совокупности служит источником сведений о других членах этой совокупности, так что выборка постепенно разрастается вширь подобно снежному кому, катящемуся с горы. Этот метод использовал, например, П. Лазарсфельд с коллегами в исследовании «влиятельных людей» и неформальных связей. Помимо властвующих элит данный метод применяют в изучении других групп, также избегающих широкой известности, — например, наркоманов или коллекционеров антиквариата. Для этого метода существуют определенные приемы оценки систематической ошибки, однако они слишком сложны, чтобы обсуждаться здесь.
К выборкам, не основанным на случайном отборе, относится и квотная выборка, когда-то чрезвычайно популярная даже среди профессиональных статистиков и практически не используемая сейчас. Идея квотной выборки проста: изучаемая совокупность разбивается на такие социально-демографические группы, которые исследователь почему-либо считает важными. Обычно критериями разбивки становятся пол, возраст, национальная принадлежность, место жительства и т. п. Далее, основываясь на уже известных (обычно из официальной статистики) пропорциях этих групп в генеральной совокупности, социолог составляет полевые задания для интервьюеров, указывая, сколько женщин, мужчин, лиц с высшим образованием и т. п. нужно опросить. Например, интервьюер получает задание опросить десять женщин старше 50 лет, восемь мужчин 35 — 45 лет и трех восемнадцатилетних девушек, проживающих в г. Санкт-Петербурге. В результате должна получиться выборка, представляющая все заданные пропорции групп в генеральной совокупности.
Основная проблема квотного отбора заключается в том, что он носит неслучайный характер и осуществляется лично интервьюером. Последний выбирает респондентов, в конечном счете, по собственному усмотрению. Хотя число мужчин или женщин, рабочих или пенсионеров, которых следует опросить в данном районе или местности, задано заранее, интервьюер решает, в какую квартиру ему удобнее позвонить, с кем из членов семьи провести интервью, куда вернуться вторично, если на звонок никто не ответил, и т. п. Это неизбежно ведет к систематическим смещениям в процессе отбора, причем не существует никаких методов для оценки величины возникающей систематической ошибки.
Еще один очевидный недостаток квотного отбора связан с тем, что обычно невозможно даже приблизительно оценить количество отказов от участия в опросе. Если интервьюер сталкивается с человеком, не желающим отвечать на вопросы, или просто недоброжелательным, или вызывающим у него антипатию, интервьюер всегда волен попрощаться и попытать счастья в соседней квартире.
По указанным причинам квотные выборки «вышли из моды» среди социологов, несмотря на свою относительную дешевизну.
Оценивая полезность и применимость вышеописанных «неслучайных» методов отбора в исследовательской практике, следует, прежде всего, сказать, что в определенных обстоятельствах никакой другой альтернативы просто не существует. В ситуации нехватки денег, персонала, времени либо первичной информации о генеральной совокупности социологи использовали и будут использовать впредь выборки доступных случаев, метод «снежного кома» и даже (к сожалению) квотную выборку. При этом профессиональный долг социолога заключается в том, чтобы оценить, пусть даже очень приблизительно, величину и источники возникающей выборочной ошибки.
Безусловно, разумно использовать целевые выборки в пилотажных исследованиях, в экспериментах, в том числе методических (т. е. нацеленных на проверку и отработку анкет, опросников, шкал и т. п.).
Однако всегда следует помнить о том, что возможность обобщения любых оценок, полученных на целевой выборке, для генеральной совокупности в целом, т. е. внешняя валидность результатов исследования, чаще всего оказывается сомнительна[26].
Дополнительная литература
Кокрен У. Методы выборочного обследования. М.: Статистика, 1976.
Петренко Е. С., Ярошенко Т. М. Социально-демографические показатели в социологических исследованиях. М.: Статистика, 1979.
Территориальная выборка в социологических исследованиях. М.: Наука, 1980.
Чурилов Н. Н. Проектирование выборочного социального исследования. Киев: Наукова думка, 1986.
ГЛАВА 8. АНАЛИЗ ДАННЫХ
Виды анализа данных
Методы, применяемые социологами для анализа данных, многообразны. Выбор конкретного метода зависит, в первую очередь, от характера исследовательских гипотез, т. е. от того, на какие вопросы мы хотим получить ответ. Если целью является описание одной характеристики выборки в определенный момент времени, разумно ограничиться одномерным анализом, т. е. описанием распределения наблюдений («случаев») вдоль оси интересующего нас признака. Разнообразные техники многомерного анализа позволяют одновременно исследовать взаимоотношения двух и более переменных и в той или иной форме проверять гипотезы о причинных связях между ними. Различия между этими методами — точнее, классами методов — неабсолютны. В реальном исследовании каждое уточнение исходных гипотез или выдвижение новой гипотезы в ходе анализа результатов приводит к необходимости выбора новой техники анализа данных. Так, если изначальная модель взаимоотношения двух переменных (скажем, профессии и дохода) не позволяет выявить определенную закономерность в собранных данных, исследователь выбирает одну из статистических техник, позволяющих контролировать влияние какой-то третьей переменной, например пола, на интересующее его отношение.
Помимо характера исследовательских гипотез на выбор методов статистического анализа влияет и природа полученных социологом данных. Мы уже говорили о том, что разные уровни измерения социологических переменных определяют возможности и ограничения анализа. Для того чтобы охарактеризовать распределение в выборке такого номинального признака, как «пол», мы не можем воспользоваться его среднеарифметическим значением и, следовательно, нам потребуются какие-то другие приемы компактного и точного представления полученной информации.
Методы, используемые для анализа связи между двумя номинальными переменными, также будут отличаться от методов анализа связи между номинальной переменной и переменной, измеренной на интервальном уровне. Таким образом, выбор той или иной статистики будет зависеть и от целей анализа, и от уровня измерения исследуемых переменных.
Существует два основных класса задач, решаемых с помощью статистических методов анализа. Задачей дескриптивной (описательной) статистики является описание распределения переменной-признака в конкретной выборке. Методы дескриптивной статистики позволяют также анализировать взаимосвязь между различными переменными. Другой класс задач, связанный с необходимостью вывести свойства большой совокупности, основываясь на имеющейся информации о свойствах выборки из этой совокупности, решается с помощью методов индуктивной статистики, или теории статистического вывода, основанной на вероятностном подходе к принятию решений. Воспользовавшись какой-то моделью для анализа полученных выборочных данных, социолог обычно также применяет некоторые методы статистического вывода, позволяющие определить, выполняются ли обнаруженные им при анализе данных отношения на уровне большой совокупности, из которой была извлечена выборка.
В этой главе мы уделим основное внимание использованию дескриптивной статистики в анализе социологических данных. Нашей целью здесь будет скорее качественное, содержательное понимание сути этих методов, основанное лишь на самых элементарных математических представлениях и, в некоторых случаях, на интуитивном понимании «физического смысла» статистических моделей. Такое понимание может служить определенным фундаментом для более глубокого изучения прикладной статистики. Кроме того, оно совершенно необходимо для того, чтобы самостоятельно формулировать задачи анализа данных и ориентироваться в существующем разнообразии методов и техник, используемых другими исследователями при решении этих задач.