Размер вероятностной выборки
Как только человек сталкивается с проблемой выборки, он думает о количестве человек — о выборке. Но это зависит от исследования.
Как оценить хотя бы порядок числа? (10 или 100 человек?).
Вопрос об оптимальном размере вероятностной выборки всегда был спорным и в значительной степени остается таковым. Конечно, всегда лучше делать большую выборку, но не всегда это возможно. Социологи прибегают к различным приемам, чтобы использовать маленькую, но хорошую выборку.
Основные принципы, лежащие в основе современного подхода к оптимизации размера выборки. Ограничения, которыми пользуются социологи, не являются произвольными. Решение относительно размера выборки принимают с учетом целого ряда факторов, среди которых ведущими (обязательными) являются следующие:
· Ценность и новизна получаемой в результате опроса информации. Иногда информация носит уникальный характер и появление публикации носит огромный интерес.
· Затраты на проведение исследования при заданном размере выборки. Затраты имеются в виду не только финансовые, в ряде случаев время проведения тоже играют огромную роль. Исследовнаия иногда не должно затягиваться надолго.
· Некоторые исследователи полагают, что принятие решения о размере выборки может основываться на сугубо статистическом подходе. При этом в расчет принимают допустимую величину ошибки в оценке исследуемого параметра.
· Однако в ряде случаев приходится руководствоваться и содержательными соображениями, связанными с сутью темы. Например, мы можем исследовать некое масштабное явление, но при этом нам важна не главная тенденция, мода и тренд, а важен ответ определенных групп населения.
Существуют статистические формулы, связыающие размер выборки с вероятностью ошибки и величиной доверительного интервала, задающего пределы этой ошибки. Т к. использование этих формул требует принятия определенных предположений о том, как распределена интересующая исследователя величина, возникает необходимость предварительной информации, относящейся к тем параметрам, которые мы изучаем.
Во многих случаях можно руководствоваться сложившейся практикой, то есть размером выборки, использовавшейся в аналогичных исследованиях.
Ошибка растет с ростом масштабности исследования.
Довольно спокойно можно иметь 5% ошибку. В ряде случаев требуется сплошная выборка.
Таблица В.Ядова:
При 5% ожидаемой ошибки:
Генеральная | |||||
Выборочная |
Это ориентировочные данные. (для общего представления. В каждом случае рассчет выборки делается самостоятельно).
Чем больше смысловых параметров вкладывается в иследования (переменных), тем сильнее растет размер выборки.
Практические рекоммендации:
Размер выборки растет:
· при необходимости опубликовать данные для отдельных подгрупп. Размеры подвыборок при этом суммируются и выборка в целом растет пропорционально числу подгрупп. Например, мы исследуем больницу, где 1000 коек. Больше всего сердечно-сосудистых заболеваний (40%), онкологических (20%), желудочно-кишечные (10%), инфекционные (15%). Но на самом деле к этому списку прибавляется еще одтельные достаточно редкие заболевания, но они и порождают проблемы для социологов. Проблемы носят не социальный, а медицинский характер. Болезни крови уникальны, например. Редкие составляют 5% от общего числа. Получается, что редкую страту мы будем изучать отдельно, а остальных по принципу либо систематической, либо стратифицированной выборки (зависит от того, какие социальные проблемы мы хотим выяснить).
· При проведении общенациональных обследований, когда велика генеральная совокупность. Естественно, при проведении масштабных исследований государственного характера и большиб количествам вопросов, выборка растет очень быстро.
· Если уже имеющейся инфомрации по ключевым вопросам явно недостаточно и степень неопределенности очень велика.
Размер выборки уменьшается:
· при исследовании организаций, институтов и прочих единиц отбора, если сравнительно невелика величина генеральной совокупности, из которой производится отбор. Даже если организация состоит всего из 300 челвоек, надо учитывать его структуру.
· При проведении локальных и региональных исследований.
· Если уже существующая информация относительно полна, а остающиеся мера неопределенности незначительна.
Усреднение, обобщение, модальность. Усреднение — взять две группы, изучить, сложить результаты. Такая операция в социологии практически невозможна! А обобщение соответственно по каждой группе — это обобщенные данные. Либо можно работать с модальной частотой (с тем, кто наиболее масштабно представлен — например ,сердечно-сосудистые заболевания в больнице).
«Типичные» размеры выборок для общенациональных вопросах варьируют в пределах от 1000 до 2500 респондентов. Для региональных опросов и опросов специальных популяций — от 200 до 500 единиц. Но указанные значения носят лишь общий характер и служат лишь ориентиром, но не нормой.
Качество выборки зависит от трех условий:
· меры однородности социальных объектов по наиболее существенным для исследования характеристикам: возраст, исходное образование, ценности и т. п. Обычно очень близки различные профессиональные группы: учителя, врачи и т. д.
· От степени дробности группировок анализа — наличия большого числа позиций в некоторых шкалах. Пример: есть 10-членные, 11-членные шкалы, а если в выборке всего 100 челвоек (или в генеральной совокупности), то в идеале в каждой клеточке 10, а они сгруппируются, например, 20, а в двух других прочерк, значит о части респондентов мы ничего не знаем.
· Зависит от заданого уровня надежности результатов.
22.Систематическая выборка.
Такая выборкапо качеству часто приближается к простой случайной. Она, как и простая случайная, требует полного списка или заданного принципа упорядочивания генеральной совокупности.
Техника осуществления систематического отбора элементарна: сначала случайным образом отбирается первая единица, затем отбору подлежит каждый А-ый элемент. Число К — шаг отбора. Чтобы определить величину шага отбора, нужно поделить объем генеральной совокупности N на объем выборочной. Например, 2000:200=10. Встает вопрос, откуда узнать количество выборочной совокупности?
Иногда генеральная совокупность слишком велика либо исследователю известен не полный список, а лишь правило упорядочения элементов в генеральной совокупности. Тогда выборка делается в несколько этапов, сообразуясь с теми содержательными характеристиками, которые важны для исследователя.
Например, мы изучаем некое муниципальное образование. Это самое маленькое деление в масштабах города. Мы смотрим, какие дома там находятся — современные многоэтажки, общежития, 9-этажки. Сразу можно сделать вывод, что жители этих домов отличаются по уровню дохода, образования и происхождения (в общежитиях не петербуржцы). Содержательная сторона исследования зачастую задает конфигурацию самой выборки.
Систематическая выборка иногда бывает «коварной» в том отношении, что шаг выборки может совпасть с какими-то существенными характеристиами объекта. Если пропорция людей, которые живут в домах и общежитиях будет смещена результаты будут нерепрезентативны.
Например, выборка на примере книг в библиотеке. Внизу обычно стоят толстые тяжелые тома, типа географических атласов, словарей. Если шаг выборки будет равен 10 (полкам), то мы и будем изучать только эти тома.
Ориентирваться на правила нужно, но не забывая об особенностях объекта, которые иногда должны выходить на первый план, исходя из соображений здравого смысла.
23.Кластерная выборка - процедура, достоинства и недостатки
Кластер в переводе — гроздь.
Они все связянны одной веточкой. Гроздь => целостность. Это целостное образование, а не отдельные части, собранные вместе.
Кластеры — естественные группировки единиц наблюдения. В социологии единицей наблюдения является человек, организация, группы. Более широкие понятия, чем отдельный индивид.
Например, военные живут в военных поселениях и военых городках. Если мы хотим их изучать, мы обратимся туда, где они расположены; если хотим изучать студентов, то идем в ВУЗы. То есть определенная группа людей расположены в определенных местах. Социологи в случае кластерной выборки принимают следующее положение: вместо того, чтобы считать в качестве членов выборки конкретных люедй, будем рассмаривать их как жителей того или иного географического пункта. (университет, например, не населенный пункт, но четкая точка на карте.
Именно поэтому кластерная выборка (заменяем людей на географические точки) называется много ступенчатой случайной районированной. Применение этой выборки позволяет уменьшить расходы на получение единицы информации. При фиксированном бюджете и объеме выборки социолог получает возможность снизить (заметно) общие расходы на проведение сбора материала преимущественно за счет транспортных и временных расходов.
Хотим изучить старшеклассников. Бывают разные школы: статус школы (гимназия, школа, лицей), местоположение (окраинные, центральные), бюджет (частное, государственное), уклон (технические, гуманитарные, языковые). Мы задали некие содержательные критерии, которые для нас важны. Мы обязаны в выборке создать несколько типологических кластеров.
В общем случае кластерная выборка основана на первоначальном отборе группировок-кластеров и затем на изучение всех единиц внутри кластера.
Возможными примерами кластеов, используемых в больших общенациональных вопросах (государственных) являются сельские районы, городские квартиры, избирательные участки (=> документы => основа выборки). При изучении специфических популяций, используются иные кластеры: больницы, школы, тюрьмы, реабилитационные центры, спортзалы, союз художников, союз филателистов.
Корректное применение кластерной процедуры основано на неукоснительном соблюдении следующих условий:
· Кластеры должны быть однозначно и явно заданы
· Число членов генеральной совокупности, входящих в кластер, должно быть известно или поддаваться оценке с приемлемой степенью точности.
· Кластеры должны быть не слишком велики и геогарфически компактны, иначе кластерная выборка теряет финансовый смысл.
· Выбор кластеров должен быть осуществлен таким способом, который минимизирует рост выборочной ошибки (последний процесс в свою очередь является неизбежным следствием кластеризации).
Таким образом, конструирование кластерной выборки в равной степени связано как с принципом рандомизации, так и с содержательными моментами — гипотезами и переменными.
Рост выборочной ошибки для кластерной выборки является функцией двух переменных — величины кластера и гомогенности исследуемого признака внутри каждого кластера. Ясно, что оценка гомогенности часто становится важной практической задачей в планирвоании кластерной выборки.
В классической литературе по выборке приводится пример: в ЛО есть поселения разные по объему и разные по территории. Они отличаются соц.структурой и т. п. Мнения и оценки людей будут отличаться.
Прежде чем формировать кластерную выборку, нужно получить много сведений о большинстве.
Основная проблема заключается в том, что соответствующими данными о распределении признаков внутри кластера исследователь располагает после завершения полевой стадии, то есть подробными данными будем обладать только после того, как опросили людей. Но это неправильно с точки зрения методологии. Поэтому при проектировании выборки обычно основываются на уже существующих данных исследований, результатов переписи и любых других источников.
Кластерная выборка является менее точной, лучше пользоваться другими, если это возможно.
24.Стратифицированная выборка. Решение проблемы "редких страт"
Такая выборка используется в тех случаях, когда из каких-то содержательных соображений важно обеспечить представительность вероятностной выборки по каким-то конкретным важным для исследовательских целей критериям. Это могут быть достаточно тонкие возрастные различия (разница для школьников важна в 1-2 года), по профессиональным критериям, по этническому составу. Все критерии невозможно перечислить.
Стратифицированный отбор имеет определенные практические преимущества до тех пор, пока сохраняется его вероятностный случайный характер.
Например: выбираем, что праздновать — день города и день Победы. Первое интересно молодежи, а второй — ветеранам. Если спрашивать людей, что интереснее, то получится, что день города, так как молодежи больше (700тыс – 2тыс). По значимости для города эти две категории равны и никого не надо подвергать депривации. В количественном измерении они недопустимы. Поэтому социолог в данном случае попадает в ловушку. Сплошным опросом за счет увеличения выборки эту проблему не решить. Желательно заранее обеспечить представленность всех интересующих нас страт, сохранив вероятностный характер отбора. Этого можно добиться, если осуществить некую независимую процедуру случайного отбора для каждой социальной группы в отдельности и затем объединить полученные подвыборки в одну. Среди молодежи и среди ветеранов собираем анкеты, а потом в общей выборке соединяем в той пропорции, в которой они представлены в городе. Общая выборка должна по составу четко воспроизводить генеральную совокупность. Чтобы понять специфику страты, искусственно завышают число людей в этой группе, но только для ее персонального изучения (например, ветеранов берем 200 человек) ,но в общую выборку пойдут столько, сколько есть в генеральной совокупности.Полученная в результате этих процедур выборка будет стратифицированной и вероятностной. Такое грамотное построение выборочной совокупности возможно только при наличии предварительных данных о генеральной совокупности.
Пропорциональный стратифицированный отбор особенно важен для целей дескриптивной, описательной статистики, то есть когда перед исследователем стоит задача, основываясь на выборочных данных, описать, как распределены те или иные параметры в разных подгруппах генеральной совокупности.
Есть процедура, которая называется взвешивание или перевзвешивание: представители малонаполненных страт увеличивают в объеме.
25..Пилотажное исследование: место в программе исследования, цели, результаты.
Пилотаж или предварительная проба.
Пилотаж охватывает проверку годности отдельных методов получения первичной информации; системы процедур в целом, если это не одна процедура, а также организации массового сбора данных (консутрирование выборки, организация полевых работ, способов хранения или консервации полученных данных). Как правило, в подовляющем большинстве исследователь сам конструирует свою методику. Анкету под свою задачу исследователь делает сам (исключение — сравнительное исследование, но в любом случае, производится коррекция).
Очень часто этап пилотажа совпадает с конструированием методики. Пилотаж методики является обязательной процедурой, особенно это относится к опросным методам. Хотя иногда для качественных методов это важнее, поля пустые — поисковые. В пилотаже выявляется не только правильная формулировка вопросов, переход от одной формулировки к другой, но и социальное воздействие (насколько исследование «тронуло»).
Проба отдельной методики (пилотаж) проводится на небольшой выборке — 25-30 человек. Очень уместно в пилотаже использовать полярные группы. Дифференциация: возраст, образование, конфессия, доход.
При использовании методов опроса нужно учитывать, чтобы в пилотаже участвовали люди с разным социальным опытом. Этим проверяется, насколько вопросник учитывает эти различия. Когда мы начинаем анализировать позицию «другое», мы видим, насколько часто респонденты подсказывают нам то, что мы не видим в реальности. Поэтому анализ этой позиции — важны методологический прием. Необходимо, чтобы наряду с авторами исследования в проведении пилотажа участвовали будущие интервьюеры, наблюдатели кодировщики информации. Иногда к пилотажу привлекают коллег ученых, мнения которых по поводу инструментария может оказаться исключительно важным.
Если берем иностранную методику, пилотаж необходим еще больше.
Как правило, в масштабных проектах пилотаж осуществляется поэтапно: после каждой небольшой серии собранных данных производят анализ информации и рефлексию. Итог пилотажа — окончательное содержание методики и четкие инструкции. В пилотаже обязательно назначается руководитель поля. Он обеспечивает отработку всех нужных методик и процедур, организует обучение, обеспечивает график работы по времени и объектам, осуществляет контроль. Контроль — важнейший элемент работы ,который в пилотаже тоже проверяется.
Прежде чем приступить к обработке данных, весь массив данных предварительно изучается с точки зрения качества выборки, то есть всех ее отклонений от расчетных параметров и оценка качества выборки возможна только тогда, когда проведен пилотаж организаций на предмет получения первичной статистики о них. (Это можно считать и не пилотажем, но это предварительная процедура, поэтому ее включают в пилотаж). Это становится ориентировочной основой выборки.
Подготовка данных для обработки включает множество различных операций в зависимости от использумых методов. На начальном этапе сразу продумывается, есть ли возмонжость компьютерной обработки данного параметра (вручную уже не считает никто). Обработка тестовых данных, фокус-групп в основном не базируются на компьютерных программах. Некоторые моменты обработываются вручную. Понятно, что хранение данных представляет интерес как для отдельного исследователя, так и для научного сообщества.
Норма. Неопытный социолог легко оценивает свои данные как «плохие цифры», «большие цифры» и тп. Понятие нормы очень широкое. Нужно сказать относительно чего мы оцениваем. Норма может быть статистической, например, на 5 и на 4 и 5 по госстатистике в масшабах егэ сдают 7% и 18%. Но возможно норма есть и по Петербургу. Но относя изучаемую школу к статистической норме возникнет 25%. Мы можем сказать, что эти цифры заметно выше ОТНОСИТЕЛЬНО ВОТ ЭТОЙ НОРМЫ. Процедура оценки должна происходит на основе эталона, даже если он изменяется.
Все, что говорилось о пилотаже, относится к количественным стратегиям, в которых есть данные, выраженные в числовой форме, однако многие положения относятся и к качественным стратегиям.
Дополнительный материал: