Понятие об ошибке выборки
Тема 7. выборочный метод
Основные понятия.
Выборочный метод – это система научных принципов случайного отбора определенной части совокупности, которая представляла бы всю совокупность и характеристики которой служили бы надежной основой статистического вывода.
Генеральная совокупность (N)– это изучаемая совокупность (люди, объекты и т.п.) из которой отбираются элементы для обследования.
Выборка(n)– это меньший набор элементов, извлеченных из генеральной совокупности, который подвергается непосредственному обследованию. У отдельных единиц генеральной совокупности должна быть равная возможность попасть в число единиц, подлежащих обследованию, и поэтому отбор производится случайным образом. Выборку используют для изучения системы, которая является настолько большой, что ее полное исследование стоит слишком дорого. Выборка называется малой, если численность ее единиц не превышает 30 ( ).
При выборочном наблюдении имеют дело с двумя категориями обобщающих показателей: долей и средней величиной.
Доля дает характеристику совокупности по альтернативно варьирующему признаку и исчисляется как отношение числа единиц совокупности, обладающих интересуюищим нас признаком, к общему числу единиц совокупности. Доля в генеральной совокупности обозначается латинской буквой , а выборочная доля – .
Среднее значение варьирующего признака во всей совокупности называется генеральной средней , а среднее значение признака у единиц, которые подверглись выборочному наблюдению, – выборочной средней .
Выборку называют репрезентативной, если каждое свойство (или комбинация свойств) наблюдается в выборке с той же частотой, что и в генеральной совокупности. О выборке, которая не является репрезентативной, говорят, что она имеет смещение. Поскольку выборочная совокупность неточно воспроизводит структуру генеральной, то выборочные оценки также не совпадают с характеристиками генеральной совокупности. Поэтому распространение результатов выборки на всю совокупность связано с ошибкой репрезентативности.
Систематические ошибки появляются, если при формировании выборочной совокупности нарушен принцип случайности отбора (преднамеренный отбор элементов, несовершенная основа выборки и т.п.). Случайные ошибки – это следствие случайности отбора элементов совокупности для обследования. Ошибки регистрации возникают в связи с неправильным установлением факта в процессе наблюдения.
Основа выборки позволяет по числу из интервала от 1 до N (размер совокупности) получить доступ к элементу генеральной совокупности.
Бесповторная выборка – если никакой элемент генеральной совокупности не может быть отобран в выборку более одного раза, т.е. единицы совокупности, попавшие в выборку, в дальнейшем в выборке уже не участвуют и численность единиц генеральной совокупности в процессе выборки сокращается.
Повторная выборка – если элемент генеральной совокупности может быть отобран в выборку более одного раза, т.е. единицу генеральной совокупности, попавшую в выборку, после регистрации снова возвращают в генеральную совокупность, и она сохраняет равную возможность с другими единицами при отборе вновь попасть в выборку. При этом методе отбора численность единиц генеральной совокупности остается неизменной. Повторная выборка на практике применяется достаточно редко, т.к. ошибка выборки при бесповторном отборе всегда меньше.
Выборку, которая включает всю совокупность (n = N), называют переписью.
Статистикой, или выборочной статистикой, называют любое число, вычисленное из данных выборки. Параметром или параметром генеральной совокупности, называют любое число, рассчитанное для всей генеральной совокупности.
Оценочная функция (оценка) – это выборочная статистика, которая используется, как предполагаемое значение параметра генеральной совокупности (например, среднее значение выборки). А ее фактическое значение, вычисленное из данных выборки, называют оценкой параметра совокупности.
В практике выборочных наблюдений используют два типа выборочных оценок – точечные и интервальные. Точечная оценка – это значение параметра по данным выборки: выборочная средняя или выборочная доля . Интервальная оценка – это интервал значений параметра, рассчитанный по данным выборки для определенной вероятности, т.е. доверительный интервал.
Случайную выборку, или простую случайную выборку, извлекают таким образом, что: (1) все элементы генеральной совокупности имеют одинаковые вероятности быть отобранными и (2)элементы генеральной совокупности отбираются независимо друг от друга.
Таблица случайных чисел – это, последовательность цифр, в которой все цифры от 0 до 9 появляются независимо друг, от друга и с одинаковой вероятностью 1/10. Использование такой таблицы для последовательного отбора различных элементов генеральной совокупности служит одним из способов извлечения случайной бесповторной выборки.
Всякая статистика, вычисленная на данных случайной выборки, характеризуется вероятностным распределением, которое называют выборочным распределением этой статистики.
Стратифицированную случайную выборку получают путем извлечения случайной выборки отдельно из каждой страты (слоя, типической группы или сегмента) генеральной совокупности. Если генеральная совокупность однородна внутри каждой страты, но страты заметно отличаются друг от друга, стратификация может увеличить точность статистического анализа.
Систематическую выборку получают, выбирая в основе выборки случайную начальную точку затем отбирая элементы основы выборки начиная с этой точки через постоянный интервал (с постоянным шагом отбора). Хотя среднее систематической выборки является несмещенной оценкой среднего генеральной совокупности (т.е. не является постоянно завышенным или заниженным), применение такого метода связано с определенными серьезными проблемами. Невозможно определить, насколько удовлетворительной является оценка, так как для нее нет надежной стандартной ошибки. Особенно серьезные проблемы могут возникнуть, если элементы генеральной совокупности упорядочены в основе выборки особым образом или если в основе выборки есть повторяющиеся группы элементов. В связи с тем, что построение случайной выборки обходится, как правило, не намного дороже, чем построение систематической выборки, использования систематической выборки желательно избегать.
Процесс обобщения данных выборки, который приводит к вероятностным утверждениям обо всей генеральной совокупности, называют статистическими выводом.
Понятие об ошибке выборки.
Стандартная ошибкастатистики, т.е. оценка стандартного отклонения ее выборочного распределения, приближенно показывает, насколько значение статистики может отличаться от своего среднего значения (параметра генеральной совокупности).
Стандартная ошибка среднего (или просто стандартная ошибка)приближенно показывает, насколько ее выборочная средняя (случайная наблюдаемая величина) отличается от среднего генеральной совокупности μ(фиксированная неизвестная величина):
(7.1)
Стандартная ошибка уменьшается с увеличением размера выборки n (при прочих равных условиях), отражая тот факт, что большая по размеру выборка содержит больше информации и таким образом достигается большая точность.
Когда объем генеральной совокупности настолько мал, что выборка составляет достаточно большую часть генеральной совокупности, стандартную ошибку можно уменьшить, введя в формулу корректирующий (поправочный) коэффициент для конечной совокупности, чтобы получить уточненную (откорректированную) стандартную ошибку:
(7.2)
Кроме того, формулу (7.1) используют повторной выборке, а формулу (7.2) – для бесповторной, однако, если объем выборочной совокупности достаточно большой, то поправочный коэффициент не играет большой роли и стандартная ошибка для бесповторной выборки определяется по формуле (7.1).
Для измерения стандартной ошибки доли альтернативного признака применяют другие формулы. При повторной выборке:
(7.3)
При бесповторной выборке:
(7.4)
Теоретическую (идеальную) генеральную совокупность можно определить; как очень большую, иногда предполагаемую (воображаемую) генеральную совокупность, которую представляет ваша выборка. Если вас интересует теоретическая генеральная совокупность, не используйте поправку на конечность генеральной совокупности. С другой стороны, если необходимо сделать вывод об основе выборки, не выходя за ее пределы, то поправка может быть полезной, так как ее использование уменьшает вариацию системы. Если есть сомнения, лучше неиспользовать поправку.
Стандартная ошибка доли показывает неопределенность, или изменчивость, в наблюдаемой доле , а стандартная ошибка среднего –неопределенность в наблюдаемой частоте х.
Доверительным интервалом называют интервал, рассчитанный из данных таким образом, что существует известная вероятность включения интересующего вас (неизвестного) параметра генеральной совокупности в интервал, и эта вероятность интерпретируется с точки зрения случайного эксперимента начинающегося с извлечения случайной выборки. Границы доверительного интервала определяются на основе точечной оценки и предельной ошибки выборки, которая равна произведению стандартной ошибки и - критерия Стьюдента. Предельная ошибка выборки показывает максимально возможную ошибку для принятой вероятности, а доверительное число – как соотносятся предельная и стандартная ошибки.
(7.3)
Вероятность того, что параметр совокупности будет принадлежать доверительному интервалу называют уровнем доверительности, который обычно устанавливают равным 95%, хотя часто используют и другие уровни – 90; 99; 99,9%. Чем выше уровень доверительности, тем шире (а значит, и менее полезен) доверительный интервал. Приблизительная обобщенная формулировка утверждения о доверительном интервале имеет следующий вид: мы уверены на 95%, что значение параметра генеральной совокупности находится между значением оценки минус две стандартные ошибки оценки и значением оценки плюс две стандартные ошибки оценки.
Это утверждение основано на том факте, что при нормальном распределении с вероятностью 0,95 следует ожидать значения на расстоянии , т.е. приблизительно два стандартных отклонения от среднего.
Формулировка утверждения о двустороннем 95% доверительном интервале для среднего генеральной совокупности имеет следующий вид:
мы уверены, на 95%, что среднее генеральной совокупности m находится между и , где значение t берется из t-таблицы.
(7.4)
Формулировка утверждения о двустороннем 95% доверительном интервале для генеральной доли имеет следующий вид:
мы уверены на 95%, что доля интересующего нас свойства в генеральной совокупности р находится между и , где значение t берется из t-таблицы.
(7.5)
Чтобы получить доверительный уровень, отличный от 95%, следует просто при построении доверительного интервала использовать соответствующее значение. t-таблицу используют для коррекции дополнительной неопределенности, обусловленной тем, что вместо неизвестного точного значения изменчивости генеральной совокупности используют оценку (стандартную ошибку). Когда вы работаете с бесповторной выборкой размера п, число степеней свободы, равное , представляет собой количество независимых элементов информации, использованных при вычислении стандартной ошибки (поскольку при вычислении стандартного отклонения из наблюдаемых значений вычитают среднее). Если известно точное значение стандартной ошибки, используют t-значение для бесконечного числа степеней свободы.
Для того чтобы использование доверительного интервала было корректным, необходимо выполнение двух следующих условий:
(1) данные должны представлять собой случайную выборку из рассматриваемой генеральной совокупности;
(2) измеренные значения должны подчиняться нормальному распределению.
Первое условие гарантирует, что данные правильно представляют неизвестный параметр, а второе дает основание использовать t-таблицу для вычисления вероятности.
Односторонний доверительный интервал с известной доверительностью указывает, что среднее генеральной совокупности либо не меньше, либо не большенекоторого вычисленного значения. Граничное значение для одностороннего доверительного интервала вычисляется таким же образом, как и для двустороннего интервала, только t-значение для двустороннего интервала заменяется на t-значение для одностороннего интервала и выбирается граничная точка интервала так, чтобы построенный односторонний интервал включал выборочное среднее .
При использовании одностороннего интервала вы должны быть уверены, что независимо от поведения данных вы будете использовать односторонний интервал с той же стороны (т.е. открытый в сторону больших значений или открытый в сторону меньших значений). В противном случае использование одностороннего доверительного интервала некорректно. При наличии сомнений лучше использовать двусторонний интервал. Утверждение об одностороннем доверительном интервале формулируется следующим образом:
мы уверены на 95%, что среднее генеральной совокупности не меньше, чем ; или мы уверены на 95%, что среднее генеральной совокупности не больше, чем .
Интервал предсказания позволяет использовать данные выборки для предсказания с известной вероятностью значения нового наблюдения при условии, что это новое наблюдение получено тем же способом, что и предшествующие. В качестве меры неопределенности здесь используется стандартная ошибка предсказания , мера изменчивости расстояния между средним значением выборки и новым наблюдением. Интервал предсказания строят тем же способом, что и доверительный интервал; просто заменяют стандартную ошибку среднего на, стандартную ошибку предсказания. Формулировка утверждения об интервале предсказания (двустороннем) для значения нового наблюдения будет следующей:
Мы уверены на 95%, что новое наблюдение будет находиться между и .
Формулировка утверждения об интервале предсказания (одностороннем) для значения нового наблюдения будет такой:
Мы уверены на 95%, что новое наблюдение будет не меньше, чем ; или мы уверены на 95%, что новое наблюдение будет не больше, чем .
Выбирая соответствующие t-значение из таблицы, интервалы предсказания для уровней доверительности, отличных от 95%, необходимо помнить, что доверительный интервал дает информацию о среднем генеральной совокупности, в то время как интервал предсказания дает информацию о единственном наблюдении, случайно выбранном из той же генеральной совокупности.