Зависимость между объемом выборки и точностью оценивания

Количество интервью Точность оценивания, %
±11
+8
±6
±5
±4
±4
+3
±2

При расчете квотной выборки социологи часто произвольно определяют ее объем в 1000 человек, исходя из удобства вычисления квот. Но с таким же успе­хом можно взять любое другое круглое число. Более обоснованным является подход, при котором объем квотной выборки рассчитывается как для случай­ной. Другим вариантом расчета объема квотной выборки является использова­ние теории малых выборок. Ее суть: если не ставится цель дать дифференциро­ванный анализ по группам работников, то умножают количество градаций воп­росов, подлежащих изучению, на 25 (минимальный статистический значимые размер группы). Например, изучают три переменные: пол —две категории, воз раст — две категории (до 30 лет и свыше 30 лет), удовлетворенность трудом -измеряется пятибалльной шкалой. Тогда необходимый объем выборки для дан­ного примера составит 2x2x5x25=500 человек. Объем выборки увеличивается в 2,5 раза. Ясно, что с расширением числа переменных и числа градаций объем выборки может стать катастрофически большим. Выход только один: детальная проработка исходной проблемы, которая позволит отбраковать лишние вопросы в анкете, оставив самые важные. Если в исследовании проверяется несколько гипотез, то объем выборки для проверки каждой гипотезы вычисляется отдельно. Таким образом, при использовании выборки количество вопросов в анкете и гипотез должно быть минимальным.

Итак, мы рассчитали требуемый объем выборки. Необходимо проверить, совместима ли полученная величина с выделенными ресурсами. Типичная ошибка многих социологов-прикладников состоит в том, что при расчете объема выборки во главу угла ставятся наличные ресурсы хуже того, социолог пассивно принимает все условия, диктуемые заказчиком. Это неверно по нескольким причинам.

Во-первых, расчет объема выборки позволяет глубже проникнуть в суть изучаемого предмета и специфик методов исследования, а значит, аргументировано требовать получения больших ресурсов или принять правильное решение о снижении объема выборки. Если администрация отказала в дополнительных ресурсах, а цели исследования не позволяют сократить объем выборки (т.е. социолог не может принять реше­ние администрации), то надо переходить к другой схеме исследования. Во-вто­рых, обоснованный расчет объема выборки показывает профессионализм соци­олога и заставляет заказчика относится к нему более уважительно.

Стратегия последовательного расчетаобъема выборки. При расчете объема выборки желательно знать разброс оценок и некоторые другие параметры. Однако они-то, как правило, неизвестны. Для того чтобы не допустить ошиб­ки, лучше предположить, что они максимальны. Плата за наше незнание — раз­бухание объема выборки сверх необходимого и дополнительные финансовые и временные затраты (приходится опрашивать большее число людей). Для со­хранения затрат применяется последовательная стратегия — объем выборки не рассчитывается заранее, а ставится в зависимость от конечных результатов исследования. Например, опрашивают 100 человек, затем устанавливают ве­личину разброса оценок и уже в зависимости от этого рассчитывают необхо­димый объем выборки. Если оказывается, что 100 человек достаточно, то ис­следование заканчивается. В противном случае добирается необходимое ко­личество респондентов, но не до бесконечности. Известен пример из практики Дж. Гэллапа, который в начале своей карьеры активно экспериментировал с объемами выборки. В 1936 г. американцам был задан вопрос: «Хотели бы вы возобновления закона о восстановлении национальной промышленности?» Выяснился странный парадокс: Дж. Гэллап вначале опросил 500 человек и за­мерил ошибку выборки, а затем последовательно наращивал число респонден­тов до 30 тыс. К своему сожалению, он обнаружил, что прибавление 29,5 тыс. опрошенных увеличило точность информации менее чем на 1 %. Следователь­но, опрос можно было прекращать уже при 500 опрошенных. Этот пример по­казывает, что, применяя последовательную стратегию, можно добиваться зна­чительного снижения необходимого числа наблюдений по сравнению с пред­варительным расчетом объема выборки.

Однако стратегия последовательного расчета объема выборки приносит желаемый результат лишь в том случае, если социолог может производить необходимые расчеты в ходе самого опроса, например телефонного, с при­менением компьютерных систем. Социолог вводит ответы респондента в свой персональный компьютер, с него результаты сразу поступают на ком­пьютер руководителя исследования, обрабатываются, и на экране дисплея выдается информация не только об одномерных частотах, распределенных по тому или иному вопросу, но и о требуемом объеме выборки.

Если существует опасность, что объем выборки может оказаться катаст­рофически большим, надо совместить оба вида стратегии — предваритель­ную и последовательную, т.е. применить комбинированную стратегию.Рассчи­тывая выборку по предварительной стратегии, получаем верхние допусти­мые значения для последовательной стратегии или, иначе говоря, ту величину объема выборки, при достижении которой прекращается опрос по последовательной стратегии.

Наиболее обоснованный и корректный подход к определению объема выбор­ки основан на расчете доверительных интервалов, в основе которого лежит ряд базовых понятий математической статистики (вариация, среднее квадратическое отклонение, доверительный интервал, средняя квадратическая ошибка).

Для расчета необходимого размера выборки в количественном исследо­вании чаще всего используют два статистических понятия — доверительный интервал и доверительную вероятность. Доверительный интервалпредстав­ляет собой заранее задаваемую вами погрешность выборки. Например, если вы задаете доверительный интервал в 3% и конкретный ответ на конкретный вопрос исследования составит 48%, это значит, что даже при проведении опроса всей генеральной совокупности реальное значение попадет в интер­вал между 45 (48-3) и 51% (48+3).

Доверительная вероятностьпоказывает, насколько вы можете быть уверены в полученных результатах, в том, что ха­рактеристики выборки соответствуют характеристикам всей генеральной совокупности — иными словами, с какой вероятностью случайный ответ по­падет в доверительный интервал. Обычно используют доверительную веро­ятность 95 и 99%. Чаще всего используется 95% — этого вполне достаточно в подавляющем большинстве исследований. Если объединить доверительную вероятность и доверительный интервал, то можно сказать, что ответы на вопрос с 95%-ной вероятностью попадут в интервал между 45 и 51%.

Повышенная надежность допускает ошибку выборки до 3%, обыкновен­ная — от 3 до 10% (доверительный интервал распределений на уровне 0,03— 0,1), приближенная — от 10 до 20%, ориентировочная — от 20 до 40%, а прикидочная — более 40%26.

На основе этих понятий с учетом ряда предположений выводятся формулы расчета объема выборки, которые предполагают, что репрезентативность гарантируется путем использования корректных вероятностных процедур формирования выборки.

С выборками знакомы все, мы используем их каждый день. Это не что иное, как часть чего-то большего, взятая для получения представления об этом большем. За шведским столом мы про­буем многие блюда, чтобы решить, какие из них взять целиком. Наш врач берет пробу крови, чтобы узнать о нашем состоянии. Электронная компания испытывает образцы своей продук­ции, чтобы гарантировать их качество. В каждом из этих случаев выбирается фрагмент какой-то большой группы. Все это выборки, и все они по­лезны.

Многим людям, правда, кажется, что выборка — это не совсем правильно и что гораздо лучше взять всю совокупность в целом. Конечно, бы­вают случаи, когда такой процесс под названи­ем референдум или плебисцит, т.е. всеобщий опрос общественного мнения, является пред­почтительным. Но ведь при визите к врачу вы не захотите, чтобы он взял для проверки всю вашу кровь, даже если это и заметно улучшит точность анализа.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение оп­ределенных обследований, которые нельзя превышать, и очевидно, что цен­ность получаемой информации не принимается при этом в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Исследовательская практика подсказывает следующее правило: объем выбор­ки должен обеспечивать не менее 100 наблюдений для каждой первостепенной и не менее 20—50 наблюдений для каждой второстепенной классификационной составляющей. Первостепенные классификационные составляющие соответ­ствуют наиболее критичным, а второстепенные — наименее критичным ячей­кам перекрестной классификации, принятой в данном исследовании .Теоретические расчеты и практика доказывают, что для получения достоверных дан­ных о мнении и предпочтениях населения такого крупного города, как Санкт-Петербург, достаточно опросить 700—800 человек. Однако большинство опросов населения здесь проходят на выборках объемом до 1,5 тыс. человек.

Ошибка выборки

Репрезентативность — свойство выборочной совокупно­сти представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности— мере отклонения статистической структу­ры выборки от структуры соответствующей генеральной совокупности. Результаты выборки можно проецировать только на ту совокуп­ность, частью которой она является. Если вы включили в свою совокупность лишь людей, подписывающихся на какой-то определенный журнал, вы не сможете сделать обобщение о населении в целом.

Выбор генеральной совокупности критически важен в любом проекте, связанном с выборкой. Причем определение искомой совокупности должно проистекать из плана исследования, а не делаться постфактум, исходя из той выбор­ки, которую вам удалось получить. Так, очень ин­тересные результаты опроса студентов-полито­логов младших курсов местного университета не слишком важны для анализа политики в вашем городе.

Важно проанализировать популяцию, дабы убе­диться, что ваше исследование осуществимо. Например, если вам приходится проводить его по телефону, ваша выборка будет состоять толь­ко из владельцев телефонов. Во многих странах это далеко не лучшая выборка для анализа все­го населения. В США — может быть, но это за­висит от характера исследования. Если вы пы­таетесь изучать бездомных или очень бедных, совокупность домов с телефонами вряд ли по­может.

Следующий вопрос после правильного опреде­ления совокупности — какого типа и объема тре­буется выборка. Существует много разных типов выборок. Ключ к определению типа выборки — обеспечение всем элементам генеральной совокупности рав­ной вероятности попадания в выборку. Чтобы достичь этого, специалист по статистике должен подкорректировать выборку (способом, который обычно называется взвешиванием) для устране­ния дисбалансов, связанных с конкретной мето­дологией выборки. Имеется в виду не чаще все­го обсуждаемая ошибка репрезентативности, а ошибка, возникающая оттого, что не все члены популяции имели равные шансы попасть в вы­борку. При правильной организации опроса кор­ректировка устранит эту ошибку. В нашем случае мы будем вести речь только о «случайных» выборках, хотя этот тип выборки редко, если вообще когда-либо, используется в опросах. Он предусматривает равную вероят­ность быть представленным в выборке для всех членов популяции.

Предположим, что средний ежемесячный семейный доход пенсионеров в генераль­ной совокупности составляет 2 тыс. рублей, а в выборочной — 6 тыс. рублей. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокуп­ностями — генеральной, на которую направлен теоретический интерес соци­олога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, ко­торая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной лите­ратуре можно встретить другой — «ошибка выборки». Иногда они употреб­ляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной сово­купности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В со­циологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результатыпредшествующих опросов. В качестве контрольных параметров обычно при­меняются социально-демографические признаки.

Наши рекомендации