А. Крыштановский Эксперимент с выборками
Для оценки ошибки различных видов неслучайных и «квазислучайных» выборок я провел следующий эксперимент: соединил данные нескольких ВЦИОМовских исследований и получил генеральную совокупность. Ее объем — 40 тысяч человек. По специальным схемам из этого массива я сделал 100 простых случайных выборок, каждая по 500 респондентов. То есть я пытался имитировать ситуации различных выборочных стратегий. Затем я сопоставил свои данные с ВЦИОМовскими. Оценки распределения ответов на 5 вопросов анкеты должны были лежать в рамках доверительных интервалов, определяемых статистической теорией. Например, я взял вопрос «Что бы Вы могли сказать о своем настроении в последние дни?» с пятью вариантами ответа.
В генеральной совокупности ВЦИОМа вариант ответа «Нормальное, ровное состояние» выбрало 41,3% респондентов. Из моих 100 выборок только в пяти процентах случаев ответы вышли за границы 95% доверительного интервала. Иными словами, статистическая теория полностью подтвердилась.
Неприятность, однако, состоит в том, что в исследовании мы оцениваем не одну градацию, а все. Выход же за границы доверительного интервала хотя бы одной градации фактически
означает ошибку в оценке вопроса в целом. В рамках проведенного эксперимента из 100 случайных выборок в 26 был зафиксирован выход за границы доверительных интервалов значений хотя бы одной из пяти градаций. Таким образом, следует отдавать себе отчет, что 95%-ный доверительный интервал вовсе не гарантирует, что только в 5% случаев результаты исследования
по какому-то вопросу могут быть ошибочными. В ходе эксперимента ошибки в вопросе были зафиксированы в 26% случаев. Если вспомнить, что мы рассматриваем не один вопрос анкеты, то станет ясно, что ошибки в исследованиях встречаются гораздо чаще, чем в обычно подразумеваемых 5% случаев. В моем эксперименте с пятью вопросами лишь в 42 выборках из 100 ответы на все 5 вопросов лежали в границах доверительных интервалов. Сокращено и адаптировано по источнику: Встреча маркетологов в ГУ-ВШЭ // http://marketing.spb.ru/ conf/hse/02/report. htm
Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов: (1) стоимости сбора информации и (2) стремления к определенной степени статистической достоверности результатов, которую надеется подучить исследователь. Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.
Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.
Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно (гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы»31.
Ядов В.А. Социологическое исследование. С. 72.
По мнению Г.С. Батыгина: «При отсутствии лучшего критерия следует согласиться с тем, что если выборка выходит за приемлемые рамки по известным переменным, она непригодна и по изучаемой переменной. И все-таки важно сознавать, что одна и та же совокупность единиц описывается многообразными характеристиками, каждой из которых присуща своя степень вариации. Иначе говоря, по одним характеристикам генеральная совокупность "хорошо перемешана" и является однородной, по другим — дифференцированной. Например, по признаку "грамотность — неграмотность" современное российское общество практически однородно: можно, опросив нескольких человек, уверенно утверждать, что подавляющее большинство людей грамотны. Иное дело — дифференциация доходов. Она столь велика, что малой выборкой не обойдешься. Отсюда следует, что не существует выборки на все случаи социологической жизни. Лучшая выборка — не обязательно большая. Даже очень маленькая выборка может быть вполне представительной. Главное, чтобы она была хорошо перемешана в генеральной совокупности»32.
Сегодня многие трудные расчеты берет на себя техника, а статистические программы можно получить по Интернету. Вот и с расчетом выборки ленивому социологу предоставили такую возможность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.brna.ru/enter.htm) где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».