Основные задачи статистики
1. Оценка неизвестных параметров распределения:
- точечные оценкипараметров распределения, например оценка математического ожидания, дисперсии, моментов распределения,
- интервальные оценки– доверительные интервалы– интервалы, в которых находятся параметры распределения с доверительной вероятностью.
2. Проверка статистических гипотез – предположений о законе распределения ГС
или параметрах распределения.
3. Установление формы и степени связи между несколькими случайными переменными.
Эмпирические законы распределения.
Вариационным рядомназываются варианты, расположенные в порядке их возрастания (не убывания, если варианты повторяются).
Будем обозначать xk – различные варианты вариационного ряда (k = 1, 2, …), nk – их частоты (число повторений варианты), - относительные частоты.
Существуют различные формы закона распределения: ряд распределения, полигон частот, полигон относительных частот, эмпирическая функция распределения, гистограмма(дискретный аналог плотности распределения).
Рассмотрим, например, вариационный ряд 0,0,0,0.0.1,1,3,5,5. Объем выборки n = 10.
Ряд распределения
xk | ||||
nk | ||||
1/2 | 1/5 | 1/10 | 1/5 |
Полигон частот
Полигон относительных частот имеет тот же вид, но по оси ординат откладываются не частоты nk, а относительные частоты (на рисунке черточками отмечены единицы по осям значений и частот).
Xk
1 2 3 4 5
Эмпирическая функция распределения - аналог функции распределения для дискретных случайных величин, она тоже кусочно постоянна и имеет тот же график, только скачки функции в точках – вариантах происходят на относительные частоты вариант (в примере скачки от 0 на 0,5, затем на 0,2 до 0,7, затем на 0,1 до 0,8 и, наконец на 0,2 до единицы).
Fn(x) Эмпирическая функция распределения формально определяется как
, где - число
0,4 членов выборки, меньших x.
1 2 3 4 5 x
Для построения гистограммы приходится приписывать значение частоты варианты некоторому интервалу стандартной ширины (в нашем случае, например, 0,5), лежащему справа от варианты так, чтобы площадь ступени над интервалом равнялась относительной частоте варианты.
1 0,4 0,2 0 0,5 1 1,5 3 3,5 5 5,5
Точечные оценки параметров распределения.
Пусть неизвестен параметр распределения , любая функция на выборке называется точечной оценкой . Оценки тоже являются случайными величинами.
Требования к оценкам.
1. Несмещенность
2. Состоятельность
3. Эффективность(по сравнению с другими оценками) – если дисперсия оценки меньше дисперсий других оценок.
Можно показать, что несмещенная оценка состоятельна, если ее выборочная дисперсия стремится к нулю при .
Оценки ищут различными методами: методом моментов, методом максимального правдоподобия, методом наименьших квадратов и др.
Оценка среднего значения ГС (математического ожидания) – выборочное среднее. .
Оценка несмещенная, т.к. .
Оценка состоятельная, т.к. по закону больших чисел.
Оценки дисперсии ГС:
1. Выборочная дисперсия
Это – смещенная, состоятельная оценка.
2. Несмещенная, состоятельная оценка дисперсии
Можно показать, что .
Пример. Вычислим оценки для приведенного выше ряда распределения
xk | ||||
nk | ||||
1/2 | 1/5 | 1/10 | 1/5 |
,
.
Интервальные оценки.
Доверительный интервал – это интервал , такой, что ,
где - доверительная вероятность.
Общее правило построения доверительного интервала для любого параметра основано на центральной предельной теореме, по которой при больших n (n>50) оценка имеет нормальное распределение с , если - несмещенная оценка, а функция распределения случайной величины сходится по вероятности при к функции стандартного нормального распределения.
Квантиль (уровня ) случайной величины X с функцией распределения F(x) – это такое значение случайной величины X, что .
| Обозначим квантиль нормального распределения уровня , где , - доверительная вероятность, т.е. , где - функция |
стандартного нормального распределения. По симметрии плотности нормального распределения . Так как .
Так как распределение случайной величины стремится к стандартному нормальному распределению, то . Отсюда получаем доверительный интервал
.