Сравнение средних гене­ральной и выборочной совокупностей, на основе этого определение ошиб­ки выборки и ее уменьшение называется контролированием репрезентативности

В идеальном мире вы бы обладали важной ин­формацией об исследуемой популяции еще до разработки выборки. Было бы полезно, напри­мер, знать, как интересующие вас характерис­тики распределяются в общей совокупности. Скажем, вы хотите измерить рост людей в воз­расте от 21 года до 50 лет, проживающих на острове Умлаудвиль. Если бы вы знали, как ва­рьируется рост между людьми, вы бы смогли подсчитать, сколько людей вам потребуется обследовать, чтобы получить результаты при 95%-ной доверительной вероятности с точнос­тью до двух дюймов. Лучший пример такой си­туации — когда рост вообще не варьируется. Если все жители острова имеют рост 5 футов и десять дюймов, то сколько людей нужно вклю­чить в выборку для определения среднего рос­та населения? Правильно — одного. То же самое было бы, если бы все принадлежали к одной политической партии, имели бы одинаковое мнение о текущем состоянии экономики и т.д. Проблемы с объемом выборки начинаются толь­ко тогда, когда начинаются различия. В реальном мире мы делаем выборку потому, что не знаем, как выглядит вся популяция. Един­ственный имеющийся у нас ключ к этому знанию — это результаты, полученные на выборке. Специалист по статистике скажет, что мы оце­ниваем вариации в совокупности по вариациям в выборке. Но если мы не знаем, каковы пара­метры этих вариаций в совокупности, пока мы не сделаем выборки, то как нам определить объем самой выборки?

К счастью, есть методы, которые помогут нам выбрать объем выборок для конкретной попу­ляции.

В статистике разработаны таблицы объемов выборки, требуемые при конкретной численно­сти популяции при том или ином уровне дове­рительной вероятности. Эти таблицы также учи­тывают степень равномерности в распределе­нии измеряемой характеристики.

Например, если вы подсчитываете, какой про­цент населения имеет голубые глаза, ваши ре­зультаты в процентах будут точнее, если они будут редкими, скажем — менее чем у 5% все­го населения. Это будет означать, что у вас малая вероятность получить в выборке избыток голубоглазых или, наоборот, получить занижен­ную более чем на 5% выборку, поскольку про­цент голубоглазых в выборке не может быть меньше нуля. Однако для большинства опросов исходят из наихудшего варианта распределе­ния, примерно равного 50%.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изуче­ния общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генераль­ная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМа обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим обра­зованием больше времени проводят дома и легче идут на контакт с интер­вьюером, т.е. являются легко достижимой группой по сравнению с мужчи­нами и людьми «необразованными».

Ошибка выборки обусловливается двумя факторами:

1) методом формиро­вания выборки и

2) размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематиче­ские. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала.

В таком случае для того, чтобы при популяции в 100 000 получить 95%-ную доверительную вероятность того, что действительное распре­деление будет находиться в пределах 5% раз­личия от результатов выборки, нам потребу­ется выборка в 384 человека. Для 98%-ной доверительной вероятности объем требуемой выборки возрастет уже до 2345 человек. Если взять популяции большего размера — свы­ше 500 000, то требуемый размер выборки при 95%-ной доверительной вероятности и ошибки репрезентативности плюс-минус 3% составит 1065 человек: выборка примерно такого объе­ма и используется в большинстве национальных опросов.

Заметьте, что для повышения точности выбор­ки требуется заметное увеличение ее объема. Например, в случае большой популяции для перехода от доверительного интервала плюс-минус 4% к плюс-минус 2% при 95%-ной дове­рительной вероятности потребуется увеличить объем выборки с 600 до 2390, то есть почти вчетверо.

Ясно, что точность стоит дорого, поскольку за­траты на проведение опроса больше всего свя­заны с объемом выборки. Итак, мы усвоили следующее:

1) для получения выборки необходимо опреде­лить генеральную совокупность;

2) надо избрать нужную степень точности;

3) на основе этих двух характеристик мы можем определить необходимый объем выборки.

К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности (табл. 7).

Второй тип ошибок выборки — систематические ошибки.Если социолог решил узнать мнение всех жителей города о проводимой местными органа­ми власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смеще­ние выборки в пользу зажиточных сло­ев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности само­го исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов ис­следования30. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

1) выборка не соответствует задачам ис­следования (социолог решил изучить только работающих пенсионеров, а опро­сил всех подряд);

2) налицо незнание характера генеральной совокупности (со­циолог думал, что 70% всех пенсионеров не работает, а оказалось, что не рабо­тает только 10%);

3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых переко­сов в распределении выборочных наблюдений могут быть следующие факторы:

♦ нарушены методические и методологические правила проведения со­циологического исследования;

♦ выбраны неадекватные способы формирования выборочной совокуп­ности, методы сбора и расчета данных;

♦ произошла замена требуемых единиц наблюдения другими, более до­ступными;

♦ отмечен неполный охват выборочной совокупности (недополучение ан­кет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возника­ют из-за того, что социологу плохо известна структура генеральной совокуп­ности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точнс предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок:

♦ каждая единица генеральной совокупности должна иметь равную ве­роятность попасть в выборку;

♦ отбор желательно производить из однородных совокупностей;

♦ надо знать характеристики генеральной совокупности;

♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правиль­но, то социолог получает надежные результаты, характеризующие всю гене­ральную совокупность. Если она составлена неправильно, то ошибка, возник­шая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном сче­те такой величины, которая перевешивает ценность проведенного исследова­ния. Говорят, что от такого исследования больше вреда, нежели пользы.

Самый простой способ избежать или уменьшить вероятность ошибки — увеличить размеры выборки (в идеале до объема генеральной: когда обе со­вокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать матема­тические методы составления выборки. Можно воспользоваться расчетами Института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Пример.

Наши рекомендации