Ошибка выборки

Как мы уже знаем, репрезентативность — свойство выборочной совокупно­сти представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структу­ры выборки от структуры соответствующей генеральной совокупности. Пред-

ральной совокупностью? Результаты выборки можно проецировать только на ту совокуп­ность, частью которой она является. Если вы включили в свою совокупность лишь людей, подписывающихся на какой-то определенный журнал, вы не сможете сделать обобщение о населении в целом.

Выбор генеральной совокупности критически важен в любом проекте, связанном с выборкой. Причем определение искомой совокупности должно проистекать из плана исследования, а не делаться постфактум, исходя из той выбор­ки, которую вам удалось получить. Так, очень ин­тересные результаты опроса студентов-полито­логов младших курсов местного университета не слишком важны для анализа политики в вашем городе.

Важно проанализировать популяцию, дабы убе­диться, что ваше исследование осуществимо. Например, если вам приходится проводить его по телефону, ваша выборка будет состоять толь­ко из владельцев телефонов. Во многих странах это далеко не лучшая выборка для анализа все­го населения. В США — может быть, но это за­висит от характера исследования. Если вы пы­таетесь изучать бездомных или очень бедных,

совокупность домов с телефонами вряд ли по­может.

Следующий вопрос после правильного опреде­ления совокупности — какого типа и объема тре­буется выборка.

Существует много разных типов выборок. Ключ к определению типа выборки — обеспечение всем элементам генеральной совокупности рав­ной вероятности попадания в выборку. Чтобы достичь этого, специалист по статистике должен подкорректировать выборку (способом, который обычно называется взвешиванием) для устране­ния дисбалансов, связанных с конкретной мето­дологией выборки. Имеется в виду не чаще все­го обсуждаемая ошибка репрезентативности, а ошибка, возникающая оттого, что не все члены популяции имели равные шансы попасть в вы­борку. При правильной организации опроса кор­ректировка устранит эту ошибку. В нашем случае мы будем вести речь только о «случайных» выборках, хотя этот тип выборки редко, если вообще когда-либо, используется в опросах. Он предусматривает равную вероят­ность быть представленным в выборке для всех членов популяции. Большинство опросов после соответствующей корректировки выборки рас-

7 Особенности проведения интервью, анкетирований // http://www.gortis.info/article/static/46/

положим, что средний ежемесячный семейный доход пенсионеров в генераль­ной совокупности составляет 2 тыс. рублей, а в выборочной — 6 тыс. рублей. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокуп­ностями — генеральной, на которую направлен теоретический интерес соци­олога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, ко­торая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной лите­ратуре можно встретить другой — «ошибка выборки». Иногда они употреб­ляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной сово­купности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В со­циологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно при­меняются социально-демографические признаки. Сравнение средних гене­ральной и выборочной совокупностей, на основе этого определение ошиб­ки выборки и ее уменьшение называется контролированием репрезентатив-

сматриваются, как если бы они основывались на случайной выборке.

В идеальном мире вы бы обладали важной ин­формацией об исследуемой популяции еще до разработки выборки. Было бы полезно, напри­мер, знать, как интересующие вас характерис­тики распределяются в общей совокупности. Скажем, вы хотите измерить рост людей в воз­расте от 21 года до 50 лет, проживающих на острове Умлаудвиль. Если бы вы знали, как ва­рьируется рост между людьми, вы бы смогли подсчитать, сколько людей вам потребуется обследовать, чтобы получить результаты при 95%-ной доверительной вероятности с точнос­тью до двух дюймов. Лучший пример такой си­туации — когда рост вообще не варьируется. Если все жители острова имеют рост 5 футов и десять дюймов, то сколько людей нужно вклю­чить в выборку для определения среднего рос­та населения? Правильно — одного. То же самое было бы, если бы все принадлежали к одной политической партии, имели бы одинаковое мнение о текущем состоянии экономики и т.д. Проблемы с объемом выборки начинаются толь­ко тогда, когда начинаются различия. В реальном мире мы делаем выборку потому, что не знаем, как выглядит вся популяция. Един­ственный имеющийся у нас ключ к этому зна-

нию — это результаты, полученные на выборке. Специалист по статистике скажет, что мы оце­ниваем вариации в совокупности по вариациям в выборке. Но если мы не знаем, каковы пара­метры этих вариаций в совокупности, пока мы не сделаем выборки, то как нам определить объем самой выборки?

К счастью, есть методы, которые помогут нам выбрать объем выборок для конкретной попу­ляции.

В статистике разработаны таблицы объемов выборки, требуемые при конкретной численно­сти популяции при том или ином уровне дове­рительной вероятности. Эти таблицы также учи­тывают степень равномерности в распределе­нии измеряемой характеристики. Например, если вы подсчитываете, какой про­цент населения имеет голубые глаза, ваши ре­зультаты в процентах будут точнее, если они будут редкими, скажем — менее чем у 5% все­го населения. Это будет означать, что у вас малая вероятность получить в выборке избыток голубоглазых или, наоборот, получить занижен­ную более чем на 5% выборку, поскольку про­цент голубоглазых в выборке не может быть меньше нуля. Однако для большинства опросов исходят из наихудшего варианта распределе­ния, примерно равного 50%.

G75

ности. Поскольку сравнение своих и чужих данных можно сделать по завер­шении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изуче­ния общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генераль­ная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМа обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим обра­зованием больше времени проводят дома и легче идут на контакт с интер­вьюером, т.е. являются легко достижимой группой по сравнению с мужчи­нами и людьми «необразованными»28.

Ошибка выборки обусловливается двумя факторами: методом формиро­вания выборки и размером выборки.

Ошибки выборки подразделяются надватипа — случайные и систематиче­ские. Случайная ошибка — это вероятность того, что выборочная средняя вый-

В таком случае для того, чтобы при популяции в 100 000 получить 95%-ную доверительную вероятность того, что действительное распре­деление будет находиться в пределах 5% раз­личия от результатов выборки, нам потребу­ется выборка в 384 человека. Для 98%-ной до-

ошибка выборки - student2.ru

верительной вероятности объем требуемой выборки возрастет уже до 2345 человек. Если взять популяции большего размера — свы­ше 500 000, то требуемый размер выборки при 95%-ной доверительной вероятности и ошибки

репрезентативности плюс-минус 3% составит 1065 человек: выборка примерно такого объе­ма и используется в большинстве национальных опросов.

Заметьте, что для повышения точности выбор­ки требуется заметное увеличение ее объема. Например, в случае большой популяции для перехода от доверительного интервала плюс-минус 4% к плюс-минус 2% при 95%-ной дове­рительной вероятности потребуется увеличить объем выборки с 600 до 2390, то есть почти вчетверо.

Ясно, что точность стоит дорого, поскольку за­траты на проведение опроса больше всего свя­заны с объемом выборки. Итак, мы усвоили следующее:

1) для получения выборки необходимо опреде­лить генеральную совокупность;

2) нам надо избрать нужную степень точности;

3) на основе этих двух характеристик мы можем определить необходимый объем выборки. Сокращено по источнику: Гоуайзер Ш., Уитт Э. Путеводитель журналиста по опросам обще­ственного мнения. М.: Вагриус, 1997. С. 195-199.

Экономические и социальные перемены: Мониторинг общественного мнения: Информационный бюллетень / Междисциплинарный академический центр социальных наук; Всероссийский центр изучения общественного мнения. М.: АО «Аспект-Пресс», 1993. С. 10.

Б7Б

дет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности (табл. 7).

Таблица 7 Зависимость объема выборки от ее ошибки29

(размер генеральной совокупности составляет 20 тыс. единиц)

рошйбка выборки, %
"Объем выборки, ед.

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органа­ми власти социальной политике, а опросил только тех, у кого есть телефон,

ошибка выборки - student2.ru

то возникает предумышленное смеще­ние выборки в пользу зажиточных сло­ев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности само­го исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов ис­следования30. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например: 1) выборка не соответствует задачам ис­следования (социолог решил изучить только работающих пенсионеров, а опро­сил всех подряд); 2) налицо незнание характера генеральной совокупности (со­циолог думал, что 70% всех пенсионеров не работает, а оказалось, что не рабо­тает только 10%); 3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых переко­сов в распределении выборочных наблюдений могут быть следующие факторы:

♦ нарушены методические и методологические правила проведения со­циологического исследования;

♦ выбраны неадекватные способы формирования выборочной совокуп­ности, методы сбора и расчета данных;

♦ произошла замена требуемых единиц наблюдения другими, более до­ступными;

♦ отмечен неполный охват выборочной совокупности (недополучение ан­кет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возника­ют из-за того, что социологу плохо известна структура генеральной совокуп­ности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точнс предвидя их источники, лучше всего заранее — в самом начале исследования.

29 Источник: http://www.anriintern.com/marketing/choice.html

30 Эдельгауз Г.Е. Точность, надежность и устойчивость экономических показателей. Л.: Изд-во ЛГУ1971. С. 10.

Б77

Вот некоторые способы избежать ошибок:

♦ каждая единица генеральной совокупности должна иметь равную ве­роятность попасть в выборку;

♦ отбор желательно производить из однородных совокупностей;

♦ надо знать характеристики генеральной совокупности;

♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правиль­но, то социолог получает надежные результаты, характеризующие всю гене­ральную совокупность. Если она составлена неправильно, то ошибка, возник­шая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном сче­те такой величины, которая перевешивает ценность проведенного исследова­ния. Говорят, что от такого исследования больше вреда, нежели пользы.

Самый простой способ избежать или уменьшить вероятность ошибки — увеличить размеры выборки (в идеале до объема генеральной: когда обе со­вокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать матема­тические методы составления выборки. Можно воспользоваться расчетами Института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (табл. 6).

Врезка

Наши рекомендации