Расчеты репрезентативной выборки

Объем генеральной совокупности
Объем выборки

Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособно­го населения составляет 100 тыс. человек, выявили, что 33% оп­рошенных покупателей предпочитают продукцию местного мясо­комбината, то с 95%-ной39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).

Сегодня многие трудные расчеты берет на себя техника, а стати­стические программы можно получить по Интернету. Вот и с рас­четом выборки ленивому социологу предоставили такую возмож-

ность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».

Контроль и ремонт выборки

Качество социологической информации может снизить множе­ство факторов: неправильно сформулированные анкетные вопро­сы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др.

Практика эмпирических исследований — зарубежных и отече­ственных, фундаментальных и прикладных — свидетельствует, что ошибки, в том числе при составлении выборки, встречаются по­чти в каждом исследовании. Другой вопрос — значимые или незна­чимые смещения такого рода. А поскольку ошибки, накладки и сме­щения происходят всегда, то для специалистов, занятых контролем и ремонтом выборки, работа всегда найдется. Да и саму эту область методической науки преждевременная старость не ожидает. Не только в науке, но и в любой другой сфере профессия контролеров и ремонтников всегда была хлебной и престижной.

Контролем выборки будем называть процесс научного сравне­ния генеральной и выборочной совокупностей, выявление степе­ни их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле — это уравнивание выборочных и генеральных распределений социаль­но-демографических характеристик респондентов.

Под ремонтам выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.

Таким образом, второй прием выступает практической реали­зацией первого, аналитического, а оба они составляют два обяза­тельных этапа проведения социологического исследования.

Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистичес­кой обработки данных, включающей коррекцию: а) выборочной совокупности; б) распределений социально-демографических ха­рактеристик респондентов; в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных. Указанные виды коррекции призваны отремонтировать самое главное — выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой

и содержательной, но запустили ее на плохом массиве, т.е. нере­презентативной выборке. Усилия всего коллектива пошли насмар­ку, так как цена такой информации почти нулевая. Вот почему в рассматриваемых ниже видах коррекции, даже если они касаются заполнения анкеты и к выборке имеют вроде бы косвенное отно­шение, фокус внимания один-единственный — выборка.

Основная цель ремонта выборки — повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций40.

Коррекция выборочной совокупности. Далеко не всегда отобран­ные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.

Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов: выбор следующего по списку респондента (например, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем слу­чае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, най­денных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к приме­ру, в вашу выборку попал работающий пенсионер такой-то наци­ональности и овдовевший, то желательно подыскать ему в каче­стве замены другого пенсионера сходного возраста, национально­сти, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если спи­сок генеральной совокупности невелик и найти замену не удает­ся, следует отказаться от эквивалентного метода и перейти к дру­гому.

Коррекция распределений демографических характеристик респон­дентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной со­вокупности, то можно применить три способа: 1) удалить те груп­пы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представ-

ленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить — представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все мож­но оставить и так.

Взвешивание исходных данных — математический способ повы­шения или понижения значения ответов конкретной группы рес­пондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респон­денту определенного веса (коэффициента, на который нужно ум­ножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова41, взвешивание — единственный способ восстановления репрезента­тивности в панельных исследованиях без потери точности. По­скольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний ре­шить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невоз­можно контролировать со стороны, другим исследователям. Самый простой способ — численность конкретной социально-демографи­ческой группы, например подростков от 13 до 17 лет, из генераль­ной совокупности (N) делят на количество респондентов, представ­ляющих данную возрастную группу (п), полагая, что один респон­дент представляет мнение jVчеловек генеральной совокупности.

Сотрудники Института социологии АН СССР А.А. Давыдов и А. О. Крыштановский в свое время установили любопытные фак­ты42. Оказывается, демофафические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жиз­нью, оценкой темпов перестройки, одобрением деятельности по­литических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических собы­тиях. Для этих индикаторов перевзвешивание проводить не нуж­но. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.

Специалисты ВЦИОМ обеспечивают при анализе данных тща­тельный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста.

Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из обще­го массива.

Коррекция пропущенных ответов. Пропуски чаще всего воз­никают в открытых и табличных вопросах. Самый простой спо­соб коррекции — исключить их или всю анкету из научного ана­лиза. При пропуске не содержательного вопроса, а того, что. имеется в паспортичке, поступают так. Если социально-демо­графические характеристики не связаны с содержательными от­ветами, то анкете с пропущенными значениями следует присво­ить наиболее часто встречающиеся в выборке социально-демо­графические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак44.

Если данных получено много, то ремонт выборки может осу­ществляться за счет сокращения выборочной совокупности. Это, по мнению А.А. Давыдова и А.О.Крыштановского, наиболее ра­циональный подход к ремонту выборки, поскольку данная стра­тегия не опирается ни на какие дополнительные допущения. Если объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следу­ют из собранного материала и истинность которых трудно про­верить.

Переформирование выборки осуществляется тогда, когда про­верка показала, что выборка не представляет совокупность в це­лом. В этом случае выбираются новые респонденты, и они добав­ляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.

Далеко не все социологи, организующие эмпирическое иссле­дование, включают данные о контроле и ремонте выборки в его «паспортичку». Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществ­лялся ремонт выборки45. Для сравнения отметим: за рубежом ре­монт выборки уже давно стал распространенным методом повы­шения качества социологической информации.

Раньше причины отставания таились в отсутствии вычисли­тельной техники, специализированного программного обеспе­чения, методических пособий, недостаточной квалификации исследователей. Сегодня есть и техника, и нужные программы, но проблема не решена. Видимо, ее нельзя свести лишь к тех­ническим аспектам.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочны­ми средними. В социологии при обследованиях взрослого насе­ления чаще всего используют данные переписей населения, теку­щего статистического учета, предшествующих опросов на том же объекте. В качестве контрольных параметров обычно применяются социально-демографические признаки (пол, возраст, националь­ность, семейное положение). Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой спо­соб контроля называется апостериорным, т.е. осуществляемым после опыта.

Например, институт Дж. Гэллапа, использующий выборки объемом 1500 чел., контролирует репрезентативность по имею­щимся в национальных цензах данным о распределении населе­ния по полу, возрасту, образованию, доходу, профессии, расовой принадлежности (белый — цветной), месту проживания, величи­не населенного пункта46. В исследованиях, проводимых ВЦИОМ, надежность выборочных данных определяется методом апосте­риорного контроля. В анкету мониторинга обязательно включа­ют несколько вопросов, по которым имеется надежная информа­ция в Госкомстате РФ. К ним обычно относятся пол, возраст, об­разование, тип поселения, семейное положение, сфера занятости, должностной статус респондента. Четыре показателя — пол, воз­раст, образование и место жительства респондента используются для выделения контролируемых групп при определении весов

опрошенных — они должны соответствовать аналогичным группам в генеральной совокупности47. Поскольку из официальной статистики известно, сколько в России мужчин и женщин, то легко сравнить по этим цифрам данные мониторинга и определить погрешность.

В обследованиях Центра «Социо-Экспресс» Института социо­логии РАН репрезентативность всероссийской выборки (проект­ный объем 2 тыс. чел.) контролируется по региональным пропор­циям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов. Опрос производится методом форма­лизованного интервью по месту жительства. В основе размещения выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50—500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские насе­ленные пункты. Авторы полагают, что предельная ошибка их вы­борки не превышает 3%48.

Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик ис­следования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммер­ческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не мо­гут являться объектом коммерческой тайны. Более того, отсут­ствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях49.

Паспортичка выборки

При написании научного отчета и публикации статьи в акаде­мическом журнале от авторов исследования всегда требуют чет­ких разъяснений относительно самого исследования и выбороч-

ной совокупности: кто и когда проводил исследование, какие ме­тоды исследования использовались, каковы тип, объем и харак­тер выборки, ошибка репрезентативности, состав выборочной со­вокупности по главным параметрам (например, пол, возраст, на­циональность, образование), контроль данных и др. Если эти сведения отсутствуют, то статью в журнал обычно не принимают, а если они присутствуют лишь частично, то им не доверяют серь­езные исследователи. Таким образом, паспортичка исследования и паспортичка выборки необходимы авторам не меньше, чем ре­дакторам и читателям.

Паспортичка выборки появляется у социолога дважды. Первый раз характеристику типа выборки с кратким обоснованием целе­сообразности ее использования в соответствии с целями исследо­вания, требованиями репрезентативности и организационными возможностями исследования социологу приходится давать в Методическом разделе программы своего исследования. Раздел о выборке содержит ответы на следующие вопросы:

♦ Каков эмпирический объект исследования?

♦ Является ли исследование сплошным или выборочным?

♦ Если оно является выборочным, то претендует ли оно на репрезентативность?

♦ Если оно претендует на репрезентативность, то какова ге­неральная совокупность?

♦ Сколько ступеней отбора применяется в выборке?

♦ Какова единица отбора на каждой ступени?

♦ Какая стратегия отбора применяется на каждой ступени (случайная, квотная)?

♦ Какая конкретно разновидность случайного отбора приме­няется?

♦ Какие параметры используются при квотной выборке?

♦ Что является основой выборки (список, картотека, карта)?

♦ Какова единица наблюдения на последней ступени отбора?

Принципы выборки описываются не только для метода опро­са, но и для каждого метода, используемого в исследовании: ана­лиз документов, наблюдение и т.д.

Условный пример описания выборки.В исследовании эффек­тивности бригадных форм организации труда возможна такая стратегия. 1. В качестве эмпирического объекта принимаются ра­бочие, объединенные в бригадную форму организации труда. 2. Исследование выборочное. 3. Генеральной совокупностью вы­ступают все рабочие, объединенные в бригадную форму. 4. При­меняются три ступени отбора. 5. На первой ступени выделяют­ся бригады, занятые в основном и вспомогательном произвол-

стве. Для последних применяется сплошной опрос (в связи с их малочисленностью), а для первых — выборочный. 6. Вторая сту­пень — отбор бригад, занятых в основном производстве. По по­казателям, характеризующим конечные результаты, бригады раз­деляются на три группы: а) передовые; б) средние; в) отстающие. В зависимости от числа бригад на каждую группу составляют список, и по нему делается случайный непропорциональный отбор (например, по три бригады в каждой) с помощью опреде-ленного «шага выборки». 7. Третья ступень — в отобранных бри­гадах проводится сплошной опрос. Единицей наблюдения выс­тупает отдельный работник50.

Второй раз с описанием выборки социолог встречается уже после проведения исследования — когда пишет научный отчет или научную статью в журнал.

Неполное описание паспортных данных исследования, к сожа-лению, самая распространенная болезнь российских ученых. Не-которые не знают, как именно их составлять, другие считают та-кие сведения необязательными или неважными. А есть и такая ка-тегория исследователей, которым сообщить просто нечего, поскольку, описав все сведения о выборке, они разоблачат свою неграмотность. Распространенный случай — социолог как-то про-вел исследование, каким-то образом построил выборку и что-то там получил. Но сформулировать паспортичку, выразить на на­учном языке свои действия он не может.

Эмпирические данные получились вроде бы интересные, ав-тор спешит поделиться ими с читателем, но описать параметры своего исследования, а тем более обосновать, почему он выбрал именно такой метод или тип выборки, не может.

Хроническая болезнь отечественных социологов — отсутствие или недостаточно высокая методическая культура. Она касается не только организации и проведения полевого исследования, но и публикации его результатов в открытой печати. Подобный факт известен всем и о нем переодически говорят с 1960-х по 2000-е гг. Иногда наших социологов и психологов удается, что называется, застичь на месте преступления.

Согласно данным исследования В.В. Солодникова, который провел вторичный анализ публикаций в трех академических жур- налах: «Социологические исследования», «Вопросы психологии»

и «Психологический журнал» за 1986—1992 гг., ни социологи, ни психологи не утомляют себя выдвижением, обоснованием и про­веркой гипотез. Большинство ученых (от 61 % у психологов до 92% у социологов) обходится без такого познавательного инструмен­та, нарушая все каноны научного метода. Только в 8% социоло­гических публикаций гипотезы формулируются в явном виде. Плохо обстоит дело у социологов и психологов с описанием объек­та исследования: мало кто указывает количество опрошенных, пол и возраст респондентов, редко сообщается уровень образования опрошенных, место проживания, продолжительность семейной жизни (для состоящих в браке), доход и профессиональный ста­тус. Проблема репрезентативности, т.е. сравнение выборочной и генеральной совокупностей по указанным признакам, почти со­всем не обсуждается. Кроме того, единичны упоминания социо­логов о пилотаже инструментария, об использовании ранее апро­бированных методик. Хотя самым распространенным методом сбора эмпирической информации выступает опрос, редко кто опи­сывает, какой именно его вид применялся в зависимости от мес­та, времени или способа заполнения анкеты.

2.12. Репрезентативность

Репрезентативность (франц. representatif— показательный) — свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность выборки означа­ет, что с некоторой наперед заданной или вычисленной на фак­тической выборке погрешностью установленное на выборочной совокупности можно отождествить с генеральной совокупностью или, если использовать язык статистики, найти оценки парамет­ров генеральной совокупности. Во-первых, каждая единица гене­ральной совокупности должна иметь равную вероятность попасть в выборку. Во-вторых, во избежание направленного отбора выбор единиц генеральной совокупности нужно производить независи­мо от изучаемого признака. В-третьих, отбор должен производить­ся по возможности из однородных совокупностей. В-четвертых, число единиц генеральной совокупности, отобранных для обсле­дования, должно быть достаточно большим.

Процесс непосредственного определения репрезентативнос­ти выборки складывается из этапов: сопоставление средних по­казателей распределений выборочной и генеральной совокупно­стей; сопоставление форм распределения этих показателей. Сред­ний показатель распределения обычно берется как средняя 144

арифметическая или средневзвешенная арифметическая этого распределения.

В случае изучения совокупностей с альтернативными призна­ками вместо средней арифметической вычисляется доля единиц, обладающих рассматриваемой характеристикой, относительно всей совокупности. Если обозначить объем совокупности симво­лом N, а явление с данным признаком — М, то Р — доля явлений с этим признаком определяется:

Расчеты репрезентативной выборки - student2.ru

где Q — доля явлений с альтернативным признаком.

Пользоваться выводами, полученными на основании исследо-вания выборочной совокупности, можно в том случае, если раз-ность между средними арифметическими (или средними долями)' признаков выборочной и генеральной совокупностей стремится к нулю. Предполагается, что это требование удовлетворяется при выполнении четырех условий, оговоренных выше. Правда, зная только выборочные средние показатели, нельзя дать точные оцен-ки их разности, так как неизвестны средние показатели генераль-ной совокупности. Кроме того, сами значения выборочных сред­них могут колебаться в зависимости от того, какие единицы ге­неральной совокупности попадут в выборку. Поэтому оценка репрезентативности выборочной совокупности по средним пока­зателям ее распределения сводится к поиску ошибки репрезента­тивности.

Сравнение выборочной и генеральной совокупностей по сред­ним показателям не дает полного представления о генеральной совокупности. Так, в двух совокупностях с одинаковыми средни­ми показателями расхождения между максимальным и минималь­ным значением признака, определяющие форму его распределе­ния, могут быть различны. Если представить такое распределение графически, то оно образует симметричную колоколообразную (нормальную) кривую, отражающую тот факт, что сумма многих независимых произвольно распределенных случайных перемен­ных приближенно распределяется по нормальному закону. Орди­ната у, которая определяет высоту кривой для каждой точки х, представляет собой плотность вероятности для значения хг

Максимум плотности вероятности приходится на среднее зна­чение переменной и равен единице. Это означает, что чем меньше

случайное значение переменной отличается от ее среднего значе­ния, тем больше вероятность его проявления. И наоборот, чем боль­ше отклонение значений переменной от ее средней величины, тем вероятность их появления меньше. Таким образом, значения откло­нений от средних величин, т.е. значения вида х(- х, несут инфор­мацию о вариации изучаемых переменных. Если бы все значения признака были одинаковы и совпадали с его средней величиной, то совокупность значения этого признака была бы предельно од­нородной.

Обычно число положительных отклонений от среднего ариф­метического значения совокупности примерно равно числу отри­цательных отклонений, т.е. сумма всех отклонений неизбежно стремится к нулевому значению. Поэтому, если бы потребовалось просуммировать все отклонения признака в совокупности, эта сумма всегда была бы равна нулю:

Расчеты репрезентативной выборки - student2.ru

Во избежание этого каждое отклонение возводят в квадрат и находят сумму квадратов — дисперсию.

Нормальное распределение в полной мере характеризуется параметрами: jc — среднее значение признака и а — среднее квад­ратичное (стандартное) отклонение. Среднее х определяет поло­жение распределения относительно оси х; стандартное отклоне­ние показывает форму кривой; чем больше значение а, тем шире кривая и тем ниже ее максимум.

Площадь под нормальной кривой располагается таким образом, что в границах х ± о находится 68% всего распределения призна­ка, в границах х ± 2<т — 95,5, в пределах х ± Зет — 99,7%. Вероят­ность того, что разность между случайной переменной, распреде­ленной примерно по нормальному закону, и ее средним значением по абсолютной величине превосходит Зет, меньше 0,3%. Отсюда следует, что практически со стопроцентной точностью можно ут­верждать:

Расчеты репрезентативной выборки - student2.ru

Оценка репрезентативной выборочной совокупности по фор­ме распределения показателей представляет собой сравнение мер вариации этих показателей в выборочной и генеральной совокуп­ностях. Дисперсия генеральной совокупности известна далеко не всегда, однако в математической статистике доказано, что меж-

ду генеральной и выборочной дисперсиями существует соотно­шение вида:

где п — объем выборки.

Расчеты репрезентативной выборки - student2.ru

Проблема репрезентативности выборки имеет важное значение как проблема правомерности экстраполяции выводов, полученных при анализе выборочной совокупности, на всю генеральную со-вокупность52.

Глава 3. ПРОГРАММА

Наши рекомендации