Пример. Телефонный опрос туристов
Компания R. Н. Braskin & Associates провела опрос "Национальный туристический прогноз компании American Express" (The American Express National Travel Forecast), включив его в еженедельную телефонную панель OmniTel. Общее количество опрошенных составило 1030 человек (525 женщин, 505 мужчин). Переменными, примененными для расслоения выборки, были пол, возраст, доход и регион проживания. Опрос показал, что американцы в возрастной группе от 25 до 49 лет, имеющие детей, которые живут вместе с ними, больше всего интересуются посещением Орландо, штат Флорида. Среди людей пожилого возраста (65 лет и старше) наиболее популярен Вашингтон (округ Колумбия). Молодые американцы в возрасте от 18 до 34 лет на первое место ставят проведение отпусков. Поскольку предпочтения в туризме меняются в зависимости от возраста, эта стратификационная переменная крайне эффективна. Однако другие такие переменные, а именно пол, доход и регион проживания, не имели большого значения при определении предпочтений в туризме. Таким образом, приняв за основу стратификации только возраст, издержки выборки можно уменьшить без снижения точности [23].
Другое важное решение связано с использованием пропорциональной или непропорциональной выборки (см. рис. 11.2). При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности. При непропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя. Логика непропорциональной выборки проста. Во-первых, слои относительно большего размера больше влияют на определение средней для генеральной совокупности. Следовательно, эти слои больше влияют на формирование результатов выборочного наблюдения. Таким образом, слои должны быть представлены большим количеством элементов. Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим среднеквадратичным отклонением. (Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Обратите внимание, что эти методы идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквадратичное отклонение в каждом слое.
При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магазинах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в небольших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.
Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие семьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую случайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно представлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода SRS с возможностью повышение точности. Поэтому данный метод формирования выборки весьма популярен.
Кластерная выборка
В кластерной выборке(cluster sampling) изучаемая совокупность сначала делится на взаимоисключающие и взаимодополняющие подгруппы, или кластеры (clusters). Затем с помощью вероятностного метода выборки, такого как SRS, формируется случайная выборка кластеров. В выборку включаются либо все элементы отобранного кластера, либо проводится их отбор вероятностным методом. Если в выборку включаются все элементы каждого отобранного кластера, то такая процедура называется одноступенчатой кластерной выборкой. Если выборка получена с помощью вероятностного отбора из каждого выбранного кластера, такая процедура называется двухступенчатой кластерной выборкой. Как показано на рис. 11.3, существуют два вида двухступенчатой кластерной выборки — простая двухступенчатая кластерная выборка с использованием SRS и вероятностная выборка, пропорциональная объему (PPS). Кроме того, кластерная выборка может состоять из нескольких (больше двух) этапов, выступая как многоступенчатая кластерная выборка.