Выборки. Типы выборок. Расчет ошибки выборки
Определение объема и процедуры выборки, организация сбора данных при проведении маркетингового исследования
Все множество изучаемых объектов (потребители, конкуренты, магазины и др.) в целом называется генеральной совокупностью или просто совокупностью. Иногда совокупность является достаточно малой по своей численности и можно изучить все ее составляющие. Чаще всего для экономии времени и средств проводится изучение только части совокупности, называемой выборкой. Выборка – группа элементов совокупности, призванная олицетворять собой совокупность в целом.
Этапы разработки выборочного плана:
1. Определение соответствующей совокупности согласно поставленным целям исследования.
2. Получение «списка» совокупности для установления контура выборки.
3. Проектирование выборочного плана – определение состава и объема выборки.
4. Определение методов доступа к совокупности.
5. Достижение нужной численности выборки.
6. Проверка выборки на соответствие требованиям.
7. В случае необходимости формирование новой выборки.
При формировании состава выборки используются вероятностные (случайные) и невероятностные (неслучайные) методы.
Выборка называется вероятностной, если все единицы совокупности имеют известный шанс (вероятность) быть включенным в выборку. Вероятностные методы формирования выборки включат в свой состав простой случайный отбор, систематический отбор, кластерный отбор и стратифицированный отбор.
Невероятностные методы формирования выборки включают: отбор на основе принципа удобства, отбор на основе суждений, формирование выборки в процессе обследования и формирование выборки на основе квот.
Для определения объема выборки на практике используют следующие подходы:
– произвольный подход, основанный на применении «правила большого пальца» (например, бездоказательно устанавливается размер выборки в 5 % от совокупности);
– определение объема выборки на основе неких заранее оговоренных условий (например, заказчик исследования знает, что при изучении общественного мнения выборка составляет 1000 – 1200 человек, и рекомендует придерживаться данной цифры);
– определение объема выборки исходя из бюджета исследования;
– определение объема выборки на основе статистического анализа (определяется минимальный объем выборки исходя из определенных требований к надежности и достоверности получаемых результатов).
Наиболее теоретически обоснованный подход к определению объема выборки основан на расчете доверительных интервалов.
При организации сбора данных выделяют три альтернативных подхода: сбор осуществляется силами предприятия либо специально созданной временной группой, либо осуществляется заказ сбора данных у специализирующихся на этом компаний.
Кроме ошибок выборки, связанных с методом формирования выборки и размером выборки, существуют невыборочные ошибки. Их можно разделить на следующие пять групп:
1) все типы ошибок, условленные тем, что не все респонденты выборки дали ответы;
2) ошибки сбора данных;
3) ошибки обращения с полученными данными;
4) ошибки анализа собранных данных;
5) ошибки интерпретации полученных результатов.
Невыборочные ошибки можно также классифицировать на ошибки лиц, осуществляющих сбор данных, и респондентов. Кроме того, невыборочные ошибки подразделяются на преднамеренные и непреднамеренные.
Контроль преднамеренных ошибок интерьеров осуществляется двумя способами: путем надзора за их работой (например, сопровождение контролирующими лицами, прослушивание телефонных опросов) и путем проверки выполненной работы (например, проверка согласованности ответов респондента, повторные контакты с респондентами).
Уменьшение непреднамеренной ошибки интерьеров осуществляется путем проведения ориентационных сессий и путем разыгрывания ролей (интервьюер – респондент).
Контроль преднамеренных ошибок респондентов направлен на снижение числа случаев лжи и отказов участвовать в обследовании. Для уменьшения непреднамеренных ошибок респондентов в первую очередь необходимо тщательно прорабатывать вопросники и инструкции к ним.
Выборки. Типы выборок. Расчет ошибки выборки
Генеральная совокупность
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:
- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
- Юридические лица России (2,2 млн. на начало 2005 года)
- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.
Выборка (Выборочная совокупность)
Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.
Репрезентативность выборки
Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:
- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
- Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.
В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.
Ошибка выборки (доверительный интервал)
Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:
- Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
- Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)
В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.
Типы выборок
Выборки делятся на два типа:
- вероятностные
- невероятностные
1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.
2. Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.