Выборочный метод в статистике
Содержание темы
Понятие о выборочном методе исследования, его значение и задачи. Условия применения выборочного метода в правовой статистике. Теоретические основы выборочного метода. Этапы выборочного исследования.
Способы отбора единиц из генеральной совокупности. Требования предъявляемые к статистическим оценкам. Точечные и интервальные статистические оценки. Доверительные интервалы для оценки среднего значения нормально распределенного количественного признака.
Краткое содержание темы:
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия товаров, то качественным признаком может служить фирма производитель, а количественным —стоимостные объемы.
Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Одним из наиболее распространенных в статистике методов, применяющих несплошное наблюдение, является выборочный метод.
Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части на основе положений случайного отбора. При выборочном методе обследованию подвергается сравнительно небольшая часть всей изучаемой совокупности (обычно до 5 — 10%, реже до 15 — 25%). При этом подлежащая изучению статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью.Отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию, называется выборочной совокупностью или просто выборкой.
Значение выборочного метода состоит в том, что при минимальной численности обследуемых единиц проведение исследования осуществляется в более короткие сроки и с минимальными затратами труда и средств. Это повышает оперативность статистической информации, уменьшает ошибки регистрации.
В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка сопровождается уничтожением или разложением на составные части обследуемых образцов (определение сахаристости фруктов, клейковины печеного хлеба, установление носкости обуви, прочности тканей на разрыв и т.д.). Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.
Замечание. Часто генеральная совокупность содержит конечное число объектов. Однако если это число достаточно велико, то иногда в целях упрощения вычислений, или для облегчения теоретических выводов, допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.
При составлении выборки можно поступать двумя способами: после того как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В соответствии со сказанным выборки подразделяют на повторные и бесповторные.
Повторнойназывают выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Бесповторнойназывают выборку, при которой отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором.
Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности. Это требование коротко формулируют так: выборка должна быть репрезентативной (представительной).
В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, если все объекты имеют одинаковую вероятность попасть в выборку.
Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается.
Основные способы отбора:
1. Собственно случайный (отбор осуществляется случайным образом с помощью специальных таблиц случайных чисел или компьютерной программы генератора случайных чисел)
2. Механический (однородная совокупность механически разбивается на равные части, например, ящики, фургоны и т.д, и осуществляется случайный отбор из каждой части по одному объекту).
3. Типовой (неоднородная совокупность делится на типы и случайный отбор осуществляется из каждой типической части).
4. Серийный(из совокупности выбирают серию объектов и подвергают ее сплошному обследованию; серийный отбор используют, когда исследуемый признак колеблется незначительно от серии к серии).
Проведение исследования социально — экономических явлений выборочным методом складывается из ряда последовательных этапов:
1) обоснование (в соответствии с задачами исследования) целесообразности применения выборочного метода;
2) составление программы проведения статистического исследования выборочным методом;
3) решение организационных вопросов сбора и обработки исходной информации;
4) установление доли выборки, т.е. части подлежащих обследованию единиц генеральной совокупности;
5) обоснование способов формирования выборочной совокупности;
6) осуществление отбора единиц из генеральной совокупности для их обследования;
7) фиксация в отобранных единицах (пробах) изучаемых признаков;
8) статистическая обработка полученной в выборке информации с определением обобщающих характеристик изучаемых признаков;
9) определение количественной оценки ошибки выборки;
10) распространение обобщающих выборочных характеристик на генеральную совокупность.
Пусть требуется изучить количественный признак X генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) среднее значение и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение.
Обычно в распоряжении исследователя имеются лишь данные выборки, например значения количественного признака x1, . . ., xn, полученные в результате наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая x1, . . ., xn, как независимые случайные величины Х1, .., Хn можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения — это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра. Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.
Для того чтобы статистические оценки давала «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям. Ниже указаны эти требования. Пусть Q* — статистическая оценка неизвестного параметра Q теоретического распределения. Допустим, что, по выборке объема п найдена оценка Q1*. Повторим опыт, т. е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным найдем оценку Q2*. Повторяя опыт многократно, получим числа Q1*, Q2*, . . , QN* которые, вообще говоря, различны между собой. Таким образом, оценку Q* можно рассматривать как случайную величину, а числа Q1*, Q2*, QN* — как ее возможные значения.
Представим себе, что оценка Q* дает приближенное значение Q с избытком; тогда каждое найденное по данным выборок число Qi*(i = 1 , 2, . . . , N) больше истинного значения Q. Ясно, что в этом случае и математическое ожидание (среднее значение) случайной величины Q* больше, чем Q, т. е. . Очевидно, что если Q* дает оценку с недостатком, то .
Таким образом, использование статистической оценки, среднее значение которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы среднее значение оценки Q* было равно оцениваемому параметру. Хотя соблюдение этого требования не устранит ошибок (одни значения Q* могут быть больше, а другие меньше Q), однако ошибки разных знаков будут встречаться одинаково часто. Иными словами, соблюдение требования гарантирует отсутствие систематических ошибок.
Несмещеннойназывают статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки.
Смещеннойназывают оценку, математическое ожидание которой не равно оцениваемому параметру.
Однако было бы ошибочным считать, что несмещенная оценка всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения Q* могут быть сильно рассеяны вокруг своего среднего значения, т. е. дисперсия D (Q*) может быть значительной. В этом случае найденная по данным одной выборки оценка, например Q1*может оказаться весьма удаленной от среднего значения Q*, а значит, и от самого оцениваемого параметра Q; приняв Q1* в качестве приближенного значения Q, мы допустили бы большую ошибку. Если же потребовать, чтобы дисперсия Q* была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности.
Эффективнойназывают статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема (п велико) к статистическим оценкам предъявляется требование состоятельности.
Состоятельнойназывают статистическую оценку, которая при стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при стремится к нулю, то такая оценка оказывается и состоятельной.
Пусть изучается дискретная генеральная совокупность относительно количественного признака X.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности. Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема n. Выборочной средней называют среднее арифметическое значение признака выборочной совокупности. Формулы для расчета среднего арифметического приведены в главе 10. Выборочная средняя - несмещенная состоятельная оценка.
Генеральная и выборочная дисперсия и , а также генеральное и выборочное среднее квадратическое отклонение и рассчитываются по соответствующим формулам из § 12. Следует отметить, что выборочная дисперсия - смещенная оценка . Для получения несмещенной оценки используется исправленная выборочная дисперсия :
, где n – объем выборки.
При n>30 различие между и стирается.
В генеральной совокупности доля единиц, обладающих изучаемым признаком, называется генеральной долей, а в выборочной совокупности долю изучаемого признака называют выборочной долей, или частостью.
Рассмотренные выше статистические оценки являлись точечными, т.е. определялись одним числом. В статистическом исследовании также часто применяются интервальные оценки, определяемые двумя числами – концами интервала. Пусть по данным выборки найдена точечная оценка Q* неизвестного статистического показателя Q. Если |Q-Q*|< , то говорят, что точность оценки равна . Поскольку статистические методы позволяют формулировать утверждения только с некоторой вероятностью, используют понятие надежность оценки. Надежностью (доверительной вероятностью) оценки Q по Q* с точностью называется вероятность , с которой выполняется неравенство |Q-Q*|< . Обычно надежность задается заранее, причем в качестве берут число близкое к 1. Стандартные значения надежности: 0.9, 0.95, 0.99, 0.995 и 0.999.
Доверительным интервалом называют интервал (Q*- ;Q*+ ), содержащий неизвестный параметр Q с вероятностью .
Как правило, есть основания предполагать, что изучаемый количественный признак распределен нормально. Процедуру проверки гипотезы о нормальности распределения можно найти в главе 12.
Доверительный интервал для оценки среднего значения нормально распределеннного количественного признака с известным средним квадратическим отклонением : , где n – объем выборки, - выборочное среднее значение, - надежность, а значение берется из таблицы:
Таблица 13.1
Надежность, | 0.9 | 0.95 | 0.99 | 0.995 | 0.999 |
1.65 | 1.96 | 2.58 | 2.81 | 3.3 |
Отметим, что точность оценки . Таким образом, оптимальная численность выборки n для получения оценки с заданными надежностью и точностью равна .
Доверительный интервал для оценки среднего значения нормально распределеннного количественного признака при неизвестном среднем квадратическом отклонении: , где n – объем выборки, - выборочное среднее значение, - уровень значимости, S2 - исправленная дисперсия, а значение - критическая точка распределения Стьюдента с n-1 степенями свободы - берется из Приложения 2. Отметим, что надежность и уровень значимости связаны соотношением: .
Пример. Задана выборка цен на определенный товар:
Цена,$ | 0.32 | 0.34 | 0.36 | 0.38 | 0.40 |
Количество |
С помощью доверительных интервалов с надежностью 95% проверить, изменились ли в среднем цены после введения новых налогов, если ранее средняя цена была равна 0.34$, а среднее квадратическое отклонение – 0.02$. Предполагаем, что ранее цены распределены нормально.
Построим доверительный интервал для старой средней цены (оценка среднего значения нормально распределеннного количественного признака с известным средним квадратическим отклонением). По условию n=23, надежность , а ; получим:
, или .
Проверим гипотезу о нормальности распределения новых цен и найдем выборочное среднее и выборочную дисперсию и построим доверительный интервал для новой средней цены (оценка среднего значения нормально распределеннного количественного признака при неизвестном среднем квадратическом отклонении). По условию n=23, уровень значимости , критическая точка распределения Стьюдента ; получим:
, или .
Вывод: Поскольку доверительные интервалы для и не перекрываются, то с надежностью 95% можно утверждать, что после введения новых налогов, средняя цена изменилась, и даже более того - увеличилась.