Выбор объекта исследования
При проведении исследований определяют, какие объекты и в каком количестве должны быть исследованы? При этом решают три проблемы:
1. Выделение генеральной совокупности;
2. Определение метода выборки;
3. Определение объема выборки.
Генеральная совокупность должна быть ограничена вещественно, во времени и в пространстве. Например, необходимо составить представление о покупателе определенного продукта. Чтобы провести исследование необходимо решить: Кто является покупателем? Тот, кто купил хотя бы один раз, или тот, кто покупает регулярно раз в месяц?
Генеральной совокупностью может быть также население Росси, российские деловые круги, пенсионеры и т.п. Главная трудность - вещественное разграничение генеральной совокупности.
Обследование может быть полным (связанным со всей совокупностью) или выборочным, когда внутри такой совокупности выбирают одну или несколько целевых групп на основе следующих возможных характеристик: демографические, географические, социально-экономические, обычаи и традиции. Например, домохозяйки, люди старших возрастов, население в возрасте от 16 до 60 лет, автовладельцы и т.п.
Выбор, как совокупности, так и популяции определяет какую группу будут представлять результаты выборки. Полное обследование проводят в том случае, если генеральная совокупность достаточно мала (промышленный рынок) и можно изучить все объекты представляющие интерес, или если требуется детальная информация. Подобное исследование дорого.
При выборочном анализе опрашивается только часть представителей генеральной совокупности. Выборку необходимо делать так, чтобы она была репрезентативной, т.е. максимально отражала генеральную совокупность (все существенные характеристики генеральной совокупности должны быть представлены в выборке в той же пропорции).
К существенным характеристикам относятся те, которые могут оказать влияние на результаты обследования: региональные характеристики, возраст главы семьи, возраст хозяйки, размер и состав семьи, род занятий и т.д. при проведении семейных опросов. В зависимости от направленности сюда могут быть включены религиозные и политические предпочтения в случае проведения социологических обследований.
Выборка будет представительной только в том случае, если соблюдены следующие требования:
- случайность выборки - все элементы имеют равные шансы попасть в выборку;
- не случайная выборка - не все элементы выборки в действительности имеют равные шансы быть выбранными, но заранее точно известна степень неравенства шансов быть выбранными для каждой категории элементов. Она не является репрезентативной, в смысле первого критерия, но может стать такой путем аккуратной корректировки. Например: Выборка, при которой проводился опрос среди совокупности, состоящей из мужчин и женщин в возрасте от 16 лет и старше, не является случайной, если в нее попало вдвое больше женщин. Однако путем двойного учета результатов мужчин общий результат будет давать представительную картину генеральной совокупности, состоящей из мужчин и женщин в возрасте от 16 лет и старше.
Репрезентативная выборка дает всегда более относительный результат по сравнению с исследованием всей совокупности. Относительный, так как всегда есть вероятность ошибки выборки. Эти ошибки могут быть случайными и систематическими.
Случайные - следствие случайной выборки исследования. Они не смещают характеристику, а их величина может быть оценена с помощью статистических методов. Систематические ошибки - следствие влияния неслучайных факторов. Неправильно выбрана генеральная совокупность, ошибки опросных методов, ложные высказывания и т.д.
Стратификация - разделение генеральной совокупности на группы. Ее преимущества:
Повышается репрезентативность выборки.Например, предположим, что население города А распределено по пяти районам следующим образом:
Район 1 - 12%
Район 2 - 26%
Район 3 - 18%
Район 4 - 34%
Район 5 - 10%.
Для того чтобы выборка размером n = 1000 человек, представляющих все население города, была представительной, необходимо отобрать следующее количество населения в каждом районе:
Район 1 - 12% - 120
Район 2 - 26% - 260
Район 3 - 18% - 180
Район 4 - 34% - 340
Район 5 - 10%. - 100 человек
------------------------------
n = 1000
Повышается точность(надежность) результатов.Например, веса четырех людей (двух женщин и двух мужчин) составили 60, 70, 80 и 90 килограммов соответственно. И средний вес этой совокупности равен 75 кг. Предположим, что мы хотим определить этот вес на основе выборки размерностью n = 2. В нестратифицированной выборке возможны следующие результаты:
(60 + 70) : 2 = 65
(60 + 80) : 2 = 70
(60 + 90) : 2 = 75
(70 + 80) : 2 = 75
(70 + 90) : 2 = 80
(80 + 90) : 2 = 85
При стратификации мы формируем две группы: мужчины и женщины. Женская группа состоит из двух женщин весом 60 и 70 кг.
Мужская группа - из двух мужчин весом 80 и 90 кг соответственно.
Выбираем по одному элементу из каждой группы. Возможные результаты будут точнее:
(60 + 80) : 2 = 70
(60 + 90) : 2 = 75
(70 + 80) : 2 = 75
(70 + 90) : 2 = 80
Распределение общего размера выборки по группам - следующий вопрос. Есть две возможности решения: пропорциональная и диспропорциональная выборка.
В пропорциональной выборке ее размер пропорционален доле каждой группы во всей совокупности. Например в городе А необходимо отобрать 12% (доля соответствующей группы) элементов выборки из жителей района 1. В этом случае обеспечивается пропорциональный отбор.
В случае непропорциональной выборки размер выборки из страта не соответствует доле каждого страта во всей совокупности. Подобный подход применяют, когда элементы в отдельных стратах не имеют большого значения. Например, для исследования товарных запасов компании все магазины были разбиты на следующие страты: магазины с обслуживанием, небольшие магазины самообслуживания, средние магазины самообслуживания и большие магазины самообслуживания.
Доли отдельных стратов составили:
большие магазины самообслуживания - 22%
средние магазины самообслуживания - 11%
небольшие магазины самообслуживания - 30%
магазины с обслуживанием - 37%
В случае пропорциональной выборки размерностью 100 единиц из первого страта будет отобрано 22 магазина. Поскольку эти магазины обеспечивают примерно половину оборота продовольственных товаров, полученная информация будет неточной. Путем проведения непропорциональной выборки (при отборе 47% элементов из страта больших магазинов) это искажение может быть устранено.
Отбор кластеров (групп) - промежуточный шаг, который применяют в том случае, когда прямой отбор элементов невозможен или является дорогостоящим. Пример: Для того, чтобы опросить 500 учащихся из совокупность 200 000 человек, распределенных по 2 000 школ, при случайной выборке необходимо обойти 500 школ и опросить по одному школьнику. Можно поступить по-другому: из общей массы случайным образом выбирают 20 школ, и в каждой также отбирается кластер из 25 учащихся. Полученный кластер с числом элементов n=500 потребует для своего изучения меньше временных затрат и обойдется дешевле.
Отбор элементов выборки в зависимости от достижимости и доступности отдельных элементов может быть проведен либо случайным, либо неслучайным образом.
весь мир
Население
стратификация
разделение или не разделение на кластеры
Выбран или нет
квота выборки случайный шаг
Отдельные лица
Рисунок 1. Схема осуществления выборки.
При случайной выборке респонденты из генеральной совокупности отбираются случайным образом. При этом используют список или регистр элементов генеральной совокупности. Например: если генеральная выборка - все население района, то основа выборки - список этого населения. Данный метод обеспечивает наибольшую репрезентативность. Если подобные списки недоступны, то применяют случайно - шаговый метод. В этом случае начинают со случайно выбранного адреса. Остальные адреса определяют по какому-то алгоритму, например: после первого адреса повернуть по улице налево, третий дом от угла, затем на перекрестке повернуть направо и пятый дом от угла и т.д.
При малой выборке такой подход имеет невысокую репрезентативность, так как выбираемые адреса расположены в одном районе и характеризуют один социальный класс. При большой выборке (n > 1 000 элементов) эта неточность исчезает. Для проведения исследования должны быть разработаны четкие инструкции: что делать, если дом нежилой или жильцов нет дома, улица заканчивается и т.д.
При неслучайной выборке следуют определенным правилам отбора. Например, квотирование выборки: отбор определенных групп, которые должны быть изучены. Квоты отбираются на основе возраста, пола, рода занятий и т.д. Задача выделения квот - обеспечение репрезентативности выборки.
Пример: Проводится исследование в соответствии со следующими квотами: выборка из 100 элементов должна содержать
25 женщин в возрасте от 15 до 40 лет
20 женщин старше 40 лет
25 мужчин в возрасте от 15 до 40 лет
20 мужчин старше 40 лет
10 детей в возрасте до 15 лет.
Респондентов можно отбирать, используя свои правила или обращаясь с вопросом «Будьте добры, назвать ваш возраст ...». При этом необходимо обеспечить соблюдение квот.
Существуют следующие варианты случайной и неслучайной выборки:
Методы выборки
не случайнаяслучайная
произвольная простая
типовая групповая
метод концентрации метод клумб
метод квот много ступенчатая
выборка
Неслучайная выборка:
Произвольная - объекты выбирают без плана (просто, дешево, но мала точность и незначительна репрезентативность).
Типовая - сбор данных ограничен немногими характеристиками генеральной совокупности. Необходимо иметь представление, что является типичным признаком для генеральной совокупности.
Метод концентрации исследуют наиболее важные элементы генеральной совокупности.
Метод квот - аналогичен распределению определенных признаков (пол, возраст) в генеральной совокупности. Предполагается, что при соответствии выборки генеральной совокупности получают репрезентативную оценку.
Случайная выборка:
Простая - типа лотереи, или с помощью случайных чисел, систематическая выборка со случайным стартом.
Групповая - разложение генеральной совокупности на отдельные группы, внутри которых проводится случайная выборка.
Метод клумб - единицы выбора состоят из групп элементов. Необходимо наличие возможности подобного деления генеральной совокупности. Из множества клумб выбирают несколько, которые потом изучают.
Многоступенчатая выборка – проводится несколько раз подряд, единица выборки предыдущей стадии представляет совокупность единиц последней стадии.
Определение размеров выборки. Предположим, что необходимо провести исследование, касающееся микроволновых печей. На основании выборки (n= 1 000) должно быть определено, сколько домашних хозяйств в нижегородской области имеет микроволновые печи. Если установлено, что 17% исследованных хозяйств имеют печи, то можно ли утверждать, что эти цифры относятся ко всей совокупности? Нет нельзя, так как в других аналогичных выборках владельцами могут оказаться 161 или 180хозяйств. Все зависит от случайности совпадения. Но что можно сказать о данной совокупности?
Единственно, что можно утверждать, так это то, что в данной выборке печи имеют 17% хозяйств. Также можно определить величину стандартного отклонения
p´q
s = Ö ¾
n
где s - стандартное отклонение (стандартная ошибка) результатов выборки;
p- процент владельцев печей;
q = 1 - p;
n - размер выборки.
В нашем случае: s = Ö (17% ´ 83%)/1 000 = 1,19
В соответствии с законом нормального распределения можно утверждать, что результаты 95,4% наблюдений расположены в пределах (± 2 ´ s). С вероятностью 95,4% можно считать, что число семей, у которых есть микроволновые печи, лежит в пределах: (17% ± 2 ´ 1,19) = от 14,62% до 19,38%, т.е. печи имеют не 17% хозяйств, а их число лежит в пределах от 14,62%до19,38%.
Если данный результат не является приемлемым с точки зрения надежности, то необходимо увеличить объем выборки, например до
2 000 семей. Пусть и в этом случае будет получен тот же результат 17%. Тогда s = Ö (17% ´ 83%)/2 000 = 0,84. Тогда можно утверждать, что владельцами микроволновых печей являются (17 ± 1,68)% семей. Поскольку выборка увеличилась, ошибка выборки уменьшилась.
Надежность означает, что при повторе измерений будет получен тот же результат, причем если исследование будет повторено 100раз, то в 95 случаях результат будет находиться в указанных пределах.
Точностьвыборки определяет отклонение результатов выборки от результата во всей генеральной совокупности. Нам не известен результат по всей совокупности, известен лишь результат выборки. Точность определяется тремя факторами: уровнем надежности, размером выборки и величиной «p».
Если требуется большая надежность, то это ведет к уменьшению точности полученных результатов в отношении всей выборки. Например, с вероятностью 68,3% можно утверждать, что число семей, имеющих печи, лежит в пределах (17 ± 1 ´ 1,19)% = 15,81 и 18,19%. Этот результат более точен, но менее надежен.
Увеличениеразмера выборки приводит к большей точности относительно всей совокупности.
Размер “р” равный 50% означает наибольшее отклонение для данной выборки, а соответственно и наименьшую точность. Отклонение значения «р» от 50% соответствует уменьшению стандартного отклонения и повышению точности.
Чтобы определить требуемый размер выборки, необходимо решить, какие точность и надежность результатов необходимы. Пример, Пусть требуется получить результат с надежностью в 95,4% с отклонением в 3% в ту и другую сторону. Стандартное отклонение при этом составит 1,5%.
Тогда p´q
s = Ö ¾ = 1,5%
n
При р = 50 имеем 1,5% =Ö 2500/n и n =1 112 элементам.
Таким образом, если будет сделана выборка в 1 112 элементов, то с уровнем надежности 95,4% можно утверждать, что численное значение, характеризующее всю совокупность, будет лежать в границах 3% в обе стороны от значения, вычисленного на основе соответствующей выборки.