Числовые характеристики выборки
Числовые характеристики выборки – параметры выборки, выражающие наиболее существенные особенности статистического распределения выборки.
Выборочной средней называют среднее арифмитическое значение признака выборочной совокупности.
(5.4)
Если статистическое распределение выборки задано интервальным вариационным рядом, тогда при вычислении необходимо перейти к дискретному вариационному ряду, вариантами которого выступают середины интервалов
(5.5)
Модой Мо называют варианту, которая имеет наибольшую частоту.
Для интервального статистического распределения сначала определяют модальный интервал [xm; xm+1), для которого ,
где hi – длина частичного интервала [xi; xi+1),
ni – число вариант этого интервала.
Далее
(5.6)
Медианой Ме дискретного статистического распределения называют варианту, которая делит вариационный ряд на две части, равных по числу вариант.
Если число вариант нечётное, то ,
если чётное, то
(5.7)
Медианой Me интервального статистического распределенияназывается число, для которого выполняется равенство
.
Формула для вычисления Me имеет вид
,
(5.8)
где [xm; xm+1) – медианный частичный интервал, для которого выполняется неравенство
и .
Дисперсия выборки (выборочная дисперссия) Dв – среднее арифмитическое квадратов отклонений наблюдаемых значений признака от их среднего значения .
. (5.9)
Вычисление Dв можно упростить, используя следующую формулу
. (5.10)
Dв характеризует рассеяние наблюдаемых значений количественного признака вокруг своего среднего значения .
Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из Dв.
. (5.11)
Размахом варьирования R называют разность между наибольшей и наименьшей вариантами.
. (5.12)
Размах варьирования является простейшей характеристикой рассеяния вариационного ряда.
Средним абсолютным отклонением называют среднее арифметическое абсолютных отклонений
. (5.13)
Среднее абсолютное значение используется для характеристики рассеяния вариационного ряда.
Коэффициентом вариации V называют выраженное в процентах отношение к .
(5.14)
где .
Коэффициент вариации V служит для сравнения величин рассеяния по отношению к двух вариационных рядов, даже если варианты имеют различную размерность.
Сводными характеристиками статистических распределений выступают статистические (эмпирические) моменты.
Обычным эмпирическим моментом порядка l называют среднее значение l-х степеней разностей .
, (5.15)
где с – произвольная постоянное число, т. н. ложный нуль.
Начальным эмпирическим моментом порядка l называют обычный момент порядка l при с=0.
. (5.16)
В частности
,
т. е. начальный эмпирический момент первого порядка равен выборочной средней.
Центральным эмпирическим моментом порядка l называют обычный момент порядка l при .
. (5.17)
В частности
,
т. е. центральный эмпирический момент второго порядка равен выборочной дисперсии.
Центральные моменты можно выразить через обычные:
;
; (5.18)
.
Условным эмпирическим моментом порядка l называют начальный момент порядка l, вычисленный для условных вариант.
, (5.19)
где ui – условная варианта.
Условными называют варианты, определяемые равенством
, (5.20)
где с – любая варианта xi, которая располагается в середине вариационного ряда или является модой;
h – шаг, т. е.
.
Таким образом, для вариационного ряда, состоящего из равноотстоящих вариант с шагом h, условные варианты есть целые числа.
В частности
Отсюда
. (5.21)
Выразим обычные моменты через условные:
.
Тогда
. (5.22)
Подставив (5.22) в (5.18), можно получить удобные для вычислений формулы, выражающие центральные моменты через условные.
Например, для m2:
. (5.23)
Пример. Для статистического распределения рассчитать числовые характеристики.
xi | |||
ni |
Решение.
.
.
.
Или
.
.
.
.
.
Перейдём к условным вариантам.
с=10.
ui | -2 | -1 | |
ni |
.
.
.
.
Теория оценок
Теория оценок определяет методы и способы статистической оценки неизвестных параметров теоретического распределения случайной величины по совокупности экспериментальных данных. При этом часто допускается, что закон распределения генеральной совокупности известен, но неизвестны параметры этого закона (математическое ожидание, дисперсия), которые необходимо оценить (приближённо найти) по выборочной совокупности.
Статистической оценкой неизвестного параметра теоретического распределения называется функция от выборочных значений (вариант), которая даёт приближённое значение оцениваемого параметра.
Все оценки делятся на точечные и интервальные.
Точечные оценки.
Точечнойназывается оценка, которая определяется одним числом.
К точечным оценкам предъявляются следующие требования:
- несмещённости;
- эффективности;
- состоятельности.
Пусть – статистическая оценка неизвестного параметра теоретического распределения. Допустим, что по выборке объёма n найдена оценка . Извлечём из генеральной совокупности другую выборку объёма n и вычислим. . Повторяя опыт многократно, получим числа , ,…, , которые, вообще говоря, различны между собой. Таким образом, оценку можно рассматривать как случайную величину, а числа , ,…, – как её вложенные значения.
Несмещённой называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объёме выборки, т. е.
.
Смещённой называют оценку, математическое ожидание которой не равно оцениваемому параметру, т. е.
.
Эффективной называют статистическую оценку, которая при заданном объёме выборки n имет наименьшую возможную дисперсию.
Состоятельной называют статистическую оценку, которая при стремится по вероятности к оцениваемому параметру, т. е.
,
где – бесконечно малая величина.
Оценка генеральной средней выборочной средней выполняется по формуле (5.4) и является немещённой и состоятельной, если выборка повторная и несмещённой, если выборка бесповторная.
В качестве оценки генеральной дисперсии принимают исправленную выборочную дисперсию S2.
(5.24)
или
,
которая удовлетворяет требованию несмещённости. Очевидно, при достаточно больших значениях n Dв и S2 различаются мало. На практике S2 вычисляется, если n < 30.
Для оценки среднего квадратического отклонения генеральной совокупности используется исправленное выборочное среднее квадратическое отклонение S или выборочное среднее квадратическое отклонение .
. (5.25)
Все рассмотренные оценки (формулы (5.4), (5.11), (5.24), (5.25)) являются точечными.
Точечные оценки используются прежде всего тогда, когда с их помощью выполняются другие расчёты. При этом точечные оценки не несут информации о точности конкретной оценки. При малых объёмах выборки точечные оценки могут значительно отличаться от оцениваемого параметра.
Интервальные оценки
Интервальной называется оценка, которая определяется двумя числами – началом и концомм интервала, в котором находится оцениваемый параметр теоретического распределения с некоторой вероятностью.
Пусть найденная по данным выборки статистическая оценка является оценкой неизвестного параметра . Статистическая оценка тем точнее определяет параметр , чем меньше абсолютная величина разности , т. е., если и
, (5.26)
то чем меньше , тем оценка точнее. Таким образом, величина характеризует точность оценки.
Т. к. – случайная величина, то нельзя категорически утверждать, что удовлетворяет неравенству (5.26). Вероятность , с которой выполняется неравенство (5.26) называется надёжностью (доверительной вероятностью).
. (5.27)
Обычно задаётся наперёд в виде числа, близкого к единице, наиболее често – 0,95; 0,99; 0,999.
Заменим неравенство в формуле (5.27) равносильным двойным неравенством:
.
Интервал называют доверительным, его границы – доверительными границами.
Доверительный интервал покрывает неизвестный параметр с надёжностью .
Если случайная величина X распределено нормально с математическим ожиданием равным a и среднеквадратическим отклонением известным и равным , то по выборке объёма n можно найти доверительные границы для математического ожидания a по уровнениям
;
, (5.28)
где aн и aв – нижняя и верхняя доверительные границы математического ожидания a;
t – коэффициент, определяемый по таблице функции Лапласа, которому соответствует значение функции Лапласа . В этом случае
. (5.29)
Анализ формулы (5.29) показывает, что
- при возрастании объёма выборки n число убывает и, следовательно, точность оценки возрастает;
- при увеличении надёжности возрастают значения t (функция является возрастающей) и , что приводит к уменьшению точности оценки;
- если требуется оценить математическое ожидание с наперёд заданной точностью и надёжностью , то минимальный объём выбоки, который обеспечит эту точность находят по формуле
. (5.30)
Формула (5.30) используется для повторной выборки, для бесповторной выборки минимальный объём пересчитывают по формуле
, (5.31)
где N – генеральной совокупности.
Пример 1. Случайная величина X имеет нормальное распределение с известным среднеквадратическим отклонением . Найти доверительный интервал для оценки неизвестного математического ожидания a по , если и .
Решение.
При условии
;
;
.
Вычисляем
.
Получили искомый доверительный интервал:
;
.
.
Пример 2. Найти минимальный объём повторной и бесповторной выборок для генеральной совокупности с объёмом N=1000 с , при котором точность оценки математического ожидания нормально распределённого признака будет равна 0,2 при .
Решение.
;
;
;
.
Принимаем объём повторной выборки n=385.
Для бесповторной выборки
.
Принимаем объём бесповторной выборки .
Если случайная величина X распределена нормально с математическим ожидание равным a и среднеквадратическим отклонением неизвестным, то по выборке объёма n можно найти доверительные границы для математического ожидания a по формулам
;
, (5.32)
где S – исправленное среднеквадратическое отклонение;
– коэффициент Стьюдента, который определяется по таблице в зависимости от надёжности и числа степеней свободы, равное .
При неограниченном возрастании объёма выборки n распределение Стъюдента стремится к нормальному, поэтому при n>30 в формулах (5.32) можно заменить на .
Если случайная величина X распределена нормально и среднеквадратическое отклонение неизвестно, то оценить его помжно по исправленному среднеквадратическому отклонению S, рассчитанному для выборки объёма n, по формулам
;
, (5.33)
где , – нижняя и верхняя доверительные границы среднеквадратического отклонения ;
q – коэффициент распределения , определяемый по таблице в зависимости от и объёма выборки n.
Если q<1, то учитывая, что , .
Пример. Случайная величина X имеет нормальное распределение. По выборке объёма n=10 найдено исправленное среднеквадратическое отклонение S=0,16. Найти доверительный интервал, покрывающий неизвестное среднеквадратическое отклонение с надёжностью .
Решение.
По таблице найдём q=1,8 (q>0) при и n=10.
Искомые доверительные границы доверительного интервала:
;
.
Практическое применение формулы (5.28) и (5.32) получили для оценки истинного значения измеряемой величины, формулы (5.33) – для оценци точности измерений (точности прибора).
Если случайная величина X имеет биноминальное распределение, то оценить неизвестную вероятность p появления события A в каждом испытании можно, рассчитав доверительные границы по формулам
;
где рн и рв – нижняя и верхняя доверительные границы неизвестного значения вероятности p;
w – относительная частота (точечная оценка для p).
,
где m – число появления события A;
n – число испытаний.
Пример. Производят независимые испытания с одинаковой, но неизвестной вероятностью p появления события A в каждом испытании. Найти доверительный интервал для оценки p с надёжностью 0,95, если в 80 испытаниях событие A появилось 16 раз.
Решение.
По условию m=16, n=80, .
Найдём .
Найдём t по таблице функции Лапласа из соотношения .
Подставив n, w, t в формулу (5.34), получим
, .
При больших значениях n (порядка сотен) слагаемые и очень малы и множитель , поэтому доверительные границы можно рассчитать по формулам
;
. (5.35)