Числовые оценки параметров распределения
В качестве характеристик выборки значений случайной величины x в статистике рассматриваются различные средние (средняя гармоническая, средняя арифметическая, средняя квадратическая и др.), а также мода и медиана.
Модой выборки значений случайной величины x называется та варианта, которая наиболее часто встречается в выборке.
Медианой выборки значений случайной величины x называется варианта, расположенная в середине вариационного ряда этой выборки. Если выборка состоит из четного числа членов, то медиана рассчитывается как средняя арифметическая серединных элементов вариационного ряда.
Наилучшей оценкой математического ожидания случайной величины x является выборочная средняя (средняя арифметическая взвешенная):
,
а дисперсии – выборочная (статистическая) дисперсия:
,
при малых n – исправленная дисперсия:
.
Оценка стандартного (среднего квадратичного) отклонения связана с оценкой дисперсии соотношением:
. |
Если выборочная средняя, мода и медиана совпадают, то выборка симметрична.
Пример.Для выборки: 6, 7, 6, 4, 6, 5, 7, 8, 6, 4, 2, 5, 2, 5, 4, 6, 6, 3, 5, 7
а) определить вариационный ряд и размах выборки;
б) построить простую статистическую таблицу и полигон частот;
в) построить интервальную таблицу и гистограмму;
г) найти эмпирическую функцию распределения и построить ее график;
д) найти выборочную среднюю, выборочную и исправленную дисперсию, моду, медиану.
◄ Упорядочивая выборку значений случайной величины получаем вариационный ряд:
2, 2, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8;
и находим размах выборки
.
От вариационного ряда переходим к простой статистической таблице:
x | ||||||||
m |
Построим полигон частот:
Построим интервальную статистическую таблицу и по ней гистограмму:
x | ||||||||
w | 0,10 | 0,05 | 0,15 | 0,20 | 0,30 | 0,15 | 0,05 |
Найдем эмпирическую функцию распределения и построим ее график:
Вычислим выборочную среднюю
,
выборочную и исправленную дисперсию
,
.
Находим выборочные моду и медиану:
,
.►
Статистическое оценивание
Точечные оценки параметров распределения
Здесь мы рассматриваем задачи определения неизвестных параметров законов распределения случайных величин в условиях относительно малых объемов эмпирических данных. Ясно, что каким бы не был объем выборки, значение параметра, который мы оцениваем, будет приближенным. Это приближение называется оценкой параметра. Для того чтобы оценка была наилучшей, требуется иметь о ней наиболее полное представление.
Пусть случайная величина x распределена по закону, который содержит неизвестный параметр . Требуется найти для него подходящую оценку по результатам выборки:
.
При выборе условий, налагаемых на оценку неизвестного параметра прежде мы должны построить математическую модель эксперимента. Под этим мы понимаем следующее:
1) выборка является n–мерным случайным вектором
где случайные величины определены на одном и том же пространстве элементарных событий и имеют, соответственно, одну и ту же функцию распределения и, тем самым, одни и те же параметры;
2) выборка репрезентативна, то есть любой элемент пространства элементарных событий имеет одинаковую вероятность попасть в выборку.
Таким образом, оценка параметра есть n–мерная неслучайная функция n случайных аргументов
.
Принято считать, что оценка должна удовлетворять условиям:
а) несмещенности:
практически это означает, что систематические ошибки отсутствуют;
б) эффективности, то есть оценка более эффективна чем , если
эффективность оценки означает, что её дисперсия меньше, чем дисперсия других оценок;
в) состоятельности, то есть
при
состоятельность означает, что для оценки выполняется закон больших чисел.
Для оценки математического ожидания случайной величины x всем условиям удовлетворяет средняя арифметическая :
.
Для оценки дисперсии, в условиях выборок относительно большого объема, используется выборочная дисперсия:
или
Выборочная дисперсия не удовлетворяет условию несмещенности.
Всем трем условиям удовлетворяет исправленная дисперсия:
или
.
Рассмотренные выше оценки называются точечными.
Интервальное оценивание
Рассмотренные оценки , как правило, не совпадают с истинным значением параметра a. Следовательно, имеет место некоторая погрешность при замене параметра его оценкой, то есть, , хотя величина этой погрешности неизвестна. Чтобы получить представление о точности и надежности оценки неизвестного параметра a в математической статистике рассматривают оценку
.
Вероятность того, что случайный интервал накроет неизвестный параметр a, равна и называется доверительной вероятностью, - уровень значимости. Причем, чем меньше будет для заданной вероятности , тем точнее оценка . Заметим, что если , то .
Случайный интервал, определяемый результатами наблюдений, который с заданной вероятностью накрывает неизвестный параметр a, называется доверительным интервалом для параметра a, соответствующим доверительной вероятности .
Пусть задана выборка значений случайной величины x, распределенной по нормальному закону с плотностью , содержащей два неизвестных параметра a и s. По заданной выборке доверительный интервал параметра получается на основе распределения Стьюдента.
Теорема. Если - независимые случайные величины распределенные нормально с математическими ожиданиями a и дисперсиями , то случайная величина имеет распределение Стьюдента с числом степеней свободы.
Доверительный интервал для математического ожидания случайной величины распределенной по нормальному закону имеет вид:
1) если s - неизвестно, то
, ;
2) если s - известно, то
.
Зная число степеней свободы и доверительную вероятность a параметр (квантиль) находится по таблице, параметр (квантиль) находится из уравнения , где .
Для построения доверительного интервала для дисперсии используют распределение .
Пусть - независимые случайные величины распределенные нормально с , . Случайная величина называется случайной величиной с распределением с степенями свободы.
Доверительный интервал для дисперсии случайной величины распределенной по нормальному закону имеет вид:
.
Значения функции приводятся в таблице.
Пример.Найти доверительный интервал для оценки с надежностью 0,95 неизвестного математического ожидания нормально распределенной случайной величины, представленной выборкой объема , для которой найдены выборочное среднее , если известно, что среднее квадратичное отклонение .
◄ Поскольку для нормально распределенной случайной величины известно среднее квадратичное отклонение, то воспользуемся формулой
,
где параметр (квантиль) найдем из равенства , при условии , получаем
, т.е. .
Составим доверительный интервал
,
,
окончательно получаем
.►