Выборочный метод в математической статистике

Математическая статистика изучает случайные величины по результатам наблюдений. Основными являются два вида наблюдений: сплошное, когда исследуются все объекты совокупности, т.е. получают полную информацию о случайных величинах и выборочное (несплошное), когда изучается лишь часть всей совокупности, в результате чего получение полной информации невозможно.

Математическая статистика изучает вопросы, связанные с выборочным наблюдением, в результате которого получают лишь часть информации о случайных величинах, производят математическую обработку этой информации, анализируют ее и распространяют полученные выводы на все рассматриваемые случайные величины. В этом и состоит суть выборочного метода – основного метода математической статистики.

Настоящая глава посвящена ответам на вопросы: как получить выборочную информацию, каков должен быть ее объем и состав, чтобы она наиболее полно отражала основные свойства исследуемой случайной величины? Какая необходима математическая обработка, для получения правильных выводов и прогнозов?

Основные понятия выборочного метода

Пусть исследуется некоторая случайная величина. Предположим, что необходимо выяснить вид ее функции распределения или оценить какой-либо ее параметр, например, математическое ожидание или дисперсию. Если известны все возможные значения этой случайной величины, а также вероятности этих значений или вероятности попадания этих значений на соответствующие интервалы, то ответ на предложенную задачу может быть найден достаточно точно. Однако часто возникают задачи, в которых ответ на поставленный выше вопрос приходится давать в условиях, когда нет полной информации о случайной величине. Например, пусть рассматриваются все граждане Российской федерации, имеющие паспорт. Случайная величина Х определяет оценку (по сто бальной системе) деятельности президента России за последний год. Требуется найти среднюю оценку деятельности президента, т.е. математическое ожидание случайной величины Х. Очевидно, что решение задачи не представляет трудности, если получить все значения случайной величины Х, т.е. провести опрос всего населения России, имеющего паспорт. Однако такой опрос практически осуществить невозможно, т.е. невозможно учесть абсолютно всех граждан России. Кроме этого такая работа требует огромных затрат. В этой и аналогичной ей ситуациях поступают следующим образом. Из всего населения России соответствующего возраста выбирают по некоторому правилу определенное количество людей. Их опрашивают. Полученные данные подвергаются математической обработке. После чего получают результаты, характерные для выбранной группы людей, а затем эти результаты распространяются с определенной степенью достоверности на все население России.

Основной причиной, по которой в данной задаче применялся выборочный метод, является наличие больших материальных и временных затрат при полном обследовании населения России. Но не только из-за сокращения расходов и времени применяется выборочный метод. При решении некоторых задач он просто необходим и является единственно возможным. Это задачи, в которых наблюдение за каким-либо элементом приводит к потере некоторых свойств этого элемента или даже к уничтожению данного элемента. Например, если необходимо выяснить какова средняя глубина воронки при взрыве снарядов из опытной партии, то при наблюдении за каждым взрывом снаряд уничтожается и, очевидно, что полное обследование здесь бессмысленно.

В выше приведенных двух задачах рассматривались две совокупности: совокупность всех рассматриваемых объектов (все население России соответствующего возраста и все снаряды опытной партии) и выборочная совокупность, которая состояла из элементов, отобранных для исследования. Эти две совокупности являются главными понятиями выборочного метода.

1.1 Генеральная и выборочная совокупности

Генеральной совокупностью называется вся подлежащая изучению совокупность объектов или наблюдений.

Более строго и точно, под генеральной совокупностью в математической статистике понимается совокупность всех мыслимых объектов данного вида, над которыми могли бы быть произведены наблюдения при данном реальном комплексе условий с целью получения конкретных значений определенной случайной величины. Генеральную совокупность саму можно рассматривать как некоторую случайную величину.

Иногда под генеральной совокупностью понимаются не сами объекты, а все возможные числовые значения некоторого признака этих объектов, т.е. возможные числовые значения случайной величины, характеризующей этот признак. Например, при обследовании качества электрических лампочек (срока их службы) под генеральной совокупностью можно понимать не множество всех лампочек рассматриваемой партии, а совокупность значений случайной величины Х, определяющей срок службы лампочки.

Выборочной совокупностьюили выборкой называется часть объектов, которая отобрана из генеральной совокупности для непосредственного изучения.

Число объектов совокупности (генеральной или выборочной) называется объемом данной совокупности.

Генеральная совокупность может иметь как конечный, так и бесконечный объем. Объем генеральной совокупности будем обозначать буквой N, а выборочной буквой n.

После того как даны определения генеральной и выборочной совокупностей, можно более точно описать суть выборочного метода.

Суть выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности (по выборке) сделать выводы и прогнозы относительно неизвестных свойств и параметров всей генеральной совокупности в целом.

Основной недостаток выборочного метода состоит в том, что в связи с изучением при выборочном методе исследования не всей, а только части совокупности неизбежны ошибки.

1.2 Ошибки выборочного метода.

В процессе проведения выборочного наблюдения возможны два вида ошибок: ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации присущи не только выборочному, но и сплошному статистическому наблюдению. Они появляются из-за несовершенства измерительных приборов, неточности подсчетов, недостаточной квалификацией, проводящего эти наблюдения персонала и т.д. Эти ошибки связаны с организацией и проведением наблюдения. Чем точнее и правильней будет проведено наблюдение, тем меньше ошибки регистрации. Именно поэтому считают, что выборочное наблюдение позволяет снизить ошибки регистрации, так как оно проводится более тщательно благодаря тому, что не требует больших затрат времени, материальных и финансовых ресурсов. Иначе обстоит дело с ошибками репрезентативности.

Из одной и той же генеральной совокупности можно получить много выборок, которые отличаются по количеству и составу элементов. При этом не любая выборка может дать правильное представление о генеральной совокупности.

Выборка называется репрезентативной (представительной), если она достаточно хорошо представляет свойства генеральной совокупности.

Ошибки репрезентативностисвойственны только выборочному наблюдению. Они возникают из-за того, что выборочная совокупность не полностью производит генеральную. Полностью устранить ошибки репрезентативности нельзя, однако эти ошибки можно свести к минимальным значениям, если правильно применять выборочный метод с использованием предельных теорем теории вероятностей.

Ошибки репрезентативности бывают систематическими и случайными. Систематические ошибки возникают из-за неправильного формирования выборки, неправильного, а иногда даже тенденциозного, отбора единиц в выборку. Одним из условий появления систематической ошибки репрезентативности является нарушение основного принципа научно правильной выборки – принципа случайности: каждый элемент выборки отбирается случайно из всей генеральной совокупности при условии, что все элементы имеют одинаковую вероятность попасть в выборку. Случайность отбора элементов в выборку является необходимым условием для успешного применения выборочного метода. Нарушение принципов случайного выбора порой приводило к серьезным ошибкам.

Например, стал знаменитым своей неудачей опрос, проведенный американским журналом "Литературное обозрение", относительно исхода президентских выборов в 1936 году. Сотрудники редакции произвели выборку из телефонной книги (выбор адресов) и, получив ответ на вопрос "За кого вы будете голосовать: за Ф. Рузвельта или за А. Ландона", сделали вывод о том, что на предстоящих выборах с большим преимуществом победит Ландон. Результат оказался прямо противоположным прогнозу, потому что, в то время абоненты, адреса которых были в телефонной книге, являлись представителями, в основном, делового мира, которые и поддерживали Ландона. Основное население страны при опросе не учитывалось.

В то же самое время социологи Дж.Гэллап и Э.Роупер правильно предсказали победу Рузвельта. Они учли, что все население США распадается на социальные слои, которые сами по себе достаточно однородны по отношению к кандидатам в президенты. Поэтому, даже относительно малочисленная выборка из слоя может дать достаточно точные результаты прогноза. Имея результаты обследования по слоям, можно характеризовать все население в целом. В настоящее время такая методика считается общепринятой.

Случайные ошибки репрезентативности возникают даже тогда, когда соблюдено основное правило отбора единиц в выборку – правило случайности отбора. В результате любого, даже правильно выполненного, выборочного исследования все же имеют место расхождения между характеристиками выборочной и генеральной совокупностей, т.е. ошибки.

В задачу выборочного метода, в частности, входит изучение и измерение случайных ошибок репрезентативности, величина которых зависит от способа отбора единиц в выборку, от объема выборки, от степени изменчивости изучаемого признака в генеральной совокупности.

Для того чтобы составить выборку из некоторой генеральной совокупности необходимо знать объем выборки, т.е. сколько элементов отбирать в выборку, и состав выборки, т.е. какие элементы должны попасть в выборку.

1.3. Формирование состава выборки

Предположим, что известен объем выборки из некоторой генеральной совокупности. Требуется сформировать выборку, т.е. определить ее состав. Рассмотрим способы и виды отбора элементов в выборку.

Для образования выборки используют два способа отбора элементов: повторный и бесповторный отборы.

При повторном отборе каждый отобранный элемент после исследования возвращается в генеральную совокупность. Выборка, полученная при таком отборе, называется повторной выборкой или выборкой с возвращением. При повторном отборе существует возможность для каждого элемента генеральной совокупности неоднократно попасть в выборку. Однако, если объем генеральной совокупности достаточно велик, то вероятность повторного попадания элемента в выборку будет достаточно маленькой. В этом случае повторный отбор будет практически совпадать с бесповторным.

При бесповторномотборе каждый отобранный элемент после исследования не возвращается в общую совокупность. Выборка, полученная при таком отборе, называется бесповторной выборкой или выборкой без возвращения.

Бесповторный и повторный отборы могут различаться по способу организации отбора элементов в выборку, т.е. по видам отбора. Основными видами отбора являются собственно-случайный, механический, типический и серийный.

Собственно-случайным отбором (или простым случайным отбором) называют отбор, при котором элементы в выборку отбирают по одному случайным образом из всей генеральной совокупности, не расчленяя ее на части или группы. Выборка, образованная с помощью собственно-случайного отбора, называется также собственно-случайной выборкой. Эта выборка, в основном, и используется в математической теории выборочного метода. Примером собственно-случайного отбора может служить отбор шариков при розыгрыше номеров в Спортлото.

Механическим отбором называют отбор, при котором элементы в выборку отбираются через определенный интервал, например, каждый десятый, каждый двадцатый и т.д. Выборка, образованная с помощью механического отбора, называется механической. Механический отбор является достаточно простым отбором, однако к нему нужно относиться с большой осторожностью, так как неправильный выбор интервала может привести и к неправильным выводам. Например, если на каком-то станке обрабатываются детали, и рекомендуется после каждой двадцатой детали менять резец, то, отбирая в выборку каждую двадцать первую деталь можно получить явно завышенные, по точности обработки детали, результаты.

Типическим отбором называется отбор, при котором элементы в выборку отбираются случайным образом из некоторых типических групп, на которые предварительно по некоторому признаку была разбита генеральная совокупность. Выборка, сформированная с помощью типического отбора, называется типическойили стратифицированной. Последнее определение связано с понятием страт – групп. Типический отбор используется тогда, когда исследуемый признак существенно колеблется в различных типических частях генеральной совокупности. Например, при обследовании населения можно образовать группы по социальному положению, по возрастному признаку или образовательному уровню; при обследовании предприятий группы могут соответствовать различным отраслям или предприятия в группы можно объединять с учетом формы собственности и т.д. Еще более простым примером типического отбора может служить отбор для контроля деталей, производимых разными станками. Естественно производить отбор не из всей совокупности сделанных деталей, а из продукции каждого станка в отдельности.

Серийным отбором называется отбор, при котором в выборку случайным образом отбираются не отдельные элементы, а целые группы (серии), после чего сами серии подвергаются сплошному обследованию. Выборка, образованная с помощью серийного отбора, называется серийной или гнездовой. Серийным отбором пользуются тогда, когда изучаемый признак колеблется в разных сериях незначительно. Под сериями могут пониматься, например, партии товара, упаковки с определенным количеством готовой продукции, классы, студенческие группы, научные отделы, производственные бригады и другие объединения.

Необходимо отметить, что на практике часто применяется, так называемый, комбинированный отбор, при котором применяется комбинация рассмотренных выше видов отбора.

Кроме формирования состава выборки, важнейшей задачей является также определение необходимого для получения хороших результатов объема выборки. Очевидно, что чем больше элементов отбирается в выборку, тем с одной стороны, точнее будут полученные результаты, а с другой – тем больше будет затрачено сил и средств (или тем меньше останется элементов в генеральной совокупности, если при обследовании они уничтожаются). Необходимый объем выборки зависит не только от способа и вида отбора, но и от конкретной задачи исследования, например, какую именно характеристику генеральной совокупности необходимо оценить или какое свойство проверить.

После того, как из генеральной совокупности образовали выборку, возникает задача так расположить выборочные данные, чтобы с ними было удобно проводить дальнейшее исследование. Перейдем к рассмотрению возможных расположений элементов выборки.

Наши рекомендации