Оптимальный размер выборки
КТО И ЧТО РЕПРЕЗЕНТИРУЕТ?
Отвечая на часть задаваемых вопросов, респонденты высказывают лишь свое личное мнение или отношение, описывают собственное поведение:
- намерение голосовать,
- оценку деятельности политиков,
- знание названия компаний или торговых марок,
- чтение книг, газет и журналов,
- потребление товаров личной гигиены,
- приобретение одежды и обуви и т.п.
Но другие вопросы могут касаться решений, принимаемых всей семьей (или компанией, фирмой):
- распределение семейного бюджета,
- проведение отдыха,
- приобретение мебели и других товаров длительного пользования,
- покупка оборудования и комплектующих,
- выбор поставщиков,
- работа с дилерами и т.п.
И в таком случае респондент выступает уже не только и не столько как представитель своей социально-демографической группы, сколько как представитель семьи, домохозяйства или компании определенного типа.
Если единицей выборки определяется домохозяйство, фирма, организация, иной коллектив, необходимо решить, кто будет его представлять: один из членов, «глава», «совет», супружеская пара и т.п.
С изменением единицы выборки несколько меняется и критерий репрезентативности – снимаются вопросы о поле, возрасте и образовательном уровне, но добавляются о размере семьи (фирмы), ее типе и жилищных условиях (юридической форме) и т.п.
ДОСТОВЕРНОСТЬ И ПОГРЕШНОСТИ ИЗМЕРЕНИЙ
Поскольку массовый опрос, анкетирование как количественный метод основан на применении теории вероятности, мы имеем возможность в математических терминах оценить достоверность и допустимые погрешности каждого добросовестно проведенного исследования.
Под «достоверностью», уровнем достоверности понимают показатель вероятности того, что истинное значение изучаемого параметра генеральной совокупности попадет в доверительный интервал. Чем выше задаваемый уровень достоверности, тем больше должна быть выборка.
Под доверительным интервалом понимают диапазон, в который попадет истинное значение изучаемого параметра генеральной совокупности при данном уровне достоверности. Чем он меньше, тем больше должна быть выборка.
|
ПРИМЕР
Общероссийская городская выборка (14-65 лет) в 1200 респондентов имеет доверительный интервал 4 процентных пункта при уровне достоверности 0.95. 15% участников опроса заявили, что за последние три месяца были в кинотеатре хотя бы один раз.
Эти данные позволяют нам утверждать с заданным уровнем достоверности, что от 11% до 19% жителей российских городов в возрасте от 14 до 65 лет были в кинотеатре хотя бы один раз за последние три месяца. Иными словами можно сказать, что все значения между 11% и 19% в данном случае находятся в пределах «допустимой статистической погрешности». Если бы мы хотели задать доверительный интервал в 2 процентных пункта, то выборку (при прочих равных условиях) пришлось бы увеличить примерно в 4 раза.
Со стороны уровня достоверности эти данные означают, что если бы было проведено 100 независимых измерений (опросов), по 1200 респондентов в каждом, то в 95 из них значение доли ответов на вопрос о посещении кинотеатра не вышло бы за пределы доверительного интервала (в этом конкретном случае - 11-19%). А в пяти исследованиях были бы получены значения, выходящие за пределы доверительного интервала. Если бы нас устраивала достоверность на уровне 0.9, то опросить можно было бы 200 человек. Если нам нужна достоверность на уровне 0.99, то пришлось бы опросить более 10 тысяч человек.
ОПТИМАЛЬНЫЙ РАЗМЕР ВЫБОРКИ
Во всех приличных учебниках по маркетингу приводится формула для расчета необходимого объема выборки при известном среднем отклонении (дисперсии) и заданных уровнях достоверности и точности. Вот она:
N=G2∙Z2/D2
Где: N – искомый объем выборки;
G – дисперсия признака, ожидаемое среднее отклонение получаемых результатов от ожидаемого среднего значения;
Z – коэффициент уровня достоверности (2 – для 0.95, 3 для 0.99);
D – уровень точности.
|
ПРИМЕР
Мы изучаем поведение покупателей в продовольственном магазине. В частности, мы хотим определить среднюю сумму чека. Из бесед с владельцем магазина мы узнаем, что она может быть в районе 500-700 рублей, а среднее отклонение может составить 200 рублей. В ходе опроса мы хотели бы определить среднее значение с точностью до 20 рублей. При уровне достоверности в 0.95. Подставляем значения в формулу и получаем:
40000 х4 / 400 = 400
То есть нам достаточно опросить 400 покупателей. Если бы мы хотели узнать среднюю с точностью до 10 рублей, то нам надо было бы опросить 1600 покупателей. Если при этом мы хотели бы получить уровень достоверности в 0.99, то количество покупателей, которых необходимо было бы опросить, составило бы 3500 человек.
И наоборот, если нас устроила бы точность +/- 50 рублей, то нам достаточно было бы опросить в заданных условиях всего 65 человек.
Практическое использование этой и многих других формул, которые я здесь не буду приводить, весьма затруднено следующими обстоятельствами:
- Что делать, когда мы не знаем даже приблизительно «ожидаемую среднюю» и среднюю дисперсию признака?
- Что делать, если в анкете у нас десять вопросов, по которым у нас ожидаются различные средние, с различными средними дисперсиями?
- Как быть в случае использования номинальных шкал?
- Как быть в случае, если вопрос предполагает два или три варианта ответа на один вопрос? И многими другими…
Для простых альтернативных вопросов по принципу «Да/Нет» используются одни формулы, для более сложных – другие. Формулы необходимо корректировать в зависимости от количества столбцов в таблице «факторных распределений», в зависимости от распределения ответов (10 на 90 – это одно, а 45 на 55 – совсем другое дело). Одни формулы учитывают размер Генеральной совокупности, а другие (как приведенная выше) – нет. Есть много иных нюансов.
На практике сначала определяют количество респондентов, которое исследователи предполагают опросить с учетом временных и финансовых ограничений, задают уровень достоверности (обычно – 0.95), а затем уже рассчитывают доверительный интервал.
Определение необходимого и достаточного объема выборки происходит на основе опыта и неформальных «конвенций» исследователей между собой. Считается, и это многократно проверено на практике, что опрос 30-50 представителей конкретной, «узкой» социально-демографической группы населения, например –«московских замужних женщин в возрасте 30-45 лет, имеющих одного ребенка, высшее образование и совокупный семейный доход в пределах от $700 до $1500 в месяц», можно распространять на всю эту группу и допустимая ошибка (доверительный интервал) не превысит 4-х процентных пунктов при уровне достоверности около 0.95. Но полученные данные нельзя распространять, например, на незамужних женщин того же возраста, имеющих такой же доход и уровень образования. А также – на женщин, имеющих иной доход, возраст или уровень образования. И, тем более – на мужчин.
Таким образом, если в задачу исследователя входит получение информации о мнениях, знаниях, поведении или отношении к некой проблеме всех московских женщин, и при этом все перечисленные выше социально-демографические факторы являются значимыми, влияющими, необходимо построить такую выборку, в которой были бы представлены все «узко определенные» группы. В данном случае: две группы по семейному положению, три – по наличию и количеству детей, три возрастные, три по доходу, две образовательные. Итого – 108 групп, в каждой из которых должно быть не менее 30 представительниц. Всего – более 3000 респондентов.
На самом деле, едва ли найдется вопрос или проблема, на которые все пять факторов будут оказывать взаимное перекрестное воздействие. В большинстве случаев вполне можно было бы обойтись опросом 400 респонденток, а затем провести попарный (а не перекрестный) факторный анализ. Т.е. отдельно исследовать влияние факторов: «возраст», «образование», «доход», «семейное положение», «дети». При этом выборка каждый раз разбивалась бы на 2-4 группы, наполнение которых было бы не меньше 50 респондентов.
Репрезентативная выборка, представляющая все население России, должна состоять из 3600-9000 человек и 180 групп (2 пола, 3 возраста, 2 образовательных уровня, 3 доходных группы, 5 типов поселений). Доверительный интервал будет в пределах +/- три процентных пункта. Это означает, что, к примеру, если 30% (12% или 45%) наших респондентов заявили, что регулярно употребляют майонез, то долю потребителей майонеза в России можно оценить в 27-33% (9-15 или 42-48%).
ВНИМАНИЕ!
Размер выборки практически не зависит от размера генеральной совокупности. И в мегаполисе с населением более миллиона человек, и в уездном городе с населением в 35 тысяч человек для построения выборки, репрезентативной по одинаковому числу параметров, потребуется опросить одинаковое число респондентов.
От чего действительно зависит размер выборки – так это от числа параметров, по которым мы желаем добиться репрезентативности. Если нас устраивает репрезентативность только по полу и возрасту, то выборки в 400 человек в одном населенном пункте будет более чем достаточно. Если параметров три, то количество респондентов придется увеличить до 600. Добиться репрезентативности выборки одновременно по пяти параметрам: полу, возрасту, доходу, образованию, сфере профессиональной деятельности можно лишь на выборке из 1000-1200 человек в одном населенном пункте
ВОЗМОЖНОСТИ И ОГРАНИЧЕНИЯ МАССОВОГО ОПРОСА |
Массовые опросы позволяют получить прежде всего количественную информацию. Но ведь и вопросы, стоящие перед исследователями и их заказчиками – специалистами по маркетингу, тоже в основном носят количественный характер:
- Оценить потенциальную и реальную емкость рынка в натуральном и денежном выражении.
- Узнать распределение рыночных долей между основными конкурентами в процентах.
- Оценить покупательную способность населения.
- Рассчитать эластичность по цене и т.д.
В ходе массового опроса, особенно если соблюдается условие анонимности респондентов, можно исследовать практически любые вопросы, вплоть до самых интимных. С этой точки зрения опрос является универсальным способом исследования.
В ходе массового опроса нельзя: