Математической статистики
Г. И. Ивченко
Основные понятия и теоретические сведения
математической статистики
(методическое пособие по курсу «ТВ и МС»)
1. Статистические данные, являющиеся исходным «материалом» в задачах математической статистики, обычно являются результатом наблюдения некоторой совокупности случайных величин , характеризующей исход изучаемого эксперимента. В таких случаях говорят, что эксперимент состоит в проведении испытаний, в которых результат испытания описывается случайной величиной . В этом случае называется выборкой объема , а множество всех возможных её реализаций – выборочным пространством. Пусть элементы выборки являются независимыми копиями некоторой случайной величины . Если ее распределение обозначить символом , то в таком случае и говорят кратко, что есть выборка из распределения . Статистическая модель задается классом допустимых (возможных в рассматриваемой ситуации) распределений наблюдаемой случайной величины и обычно является параметрической, т. е. когда класс допустимых функций распределения имеет вид , где – неизвестный параметр распределения; множество всех возможных значений называется параметрическим множеством модели.
2. Всякая случайная величина , являющаяся функцией от выборки , называется статистикой, а любая теоретическая характеристика наблюдаемой случайной величины является некоторой функцией от параметра . В статистических задачах речь идет либо об оценивании по наблюдениям той или иной параметрической функции , либо о проверке тех или иных статистических гипотез о параметре (или функции от него).
Если для оценивания параметрической функции используется некоторая статистика , то называется оценкой (для ). Обычно в качестве меры точности оценки используют среднеквадратическую ошибку , и среди всех возможных оценок ищут такую, для которой среднеквадратическая ошибка минимальна. Часто ограничиваются лишь несмещенными оценками, т. е. такими, для которых выполняется условие несмещенности:
функция , для которой это уравнение имеет решение, называется оцениваемой.
Для несмещенных оценок , т.е. мерой точности таких оценок является дисперсия, а оптимальной оценкой является оценка с минимальной дисперсией, для нее используется обозначение . Оптимальная оценка (в заданной модели . для заданной функции ) существует не всегда, но в тех случаях, когда она существует, она единственна.
Обязательным для любого правила оценивания является свойство состоятельности, означающее сходимость по вероятности оценки к оцениваемой характеристике при неограниченном возрастании объема выборки .
3. Пусть – плотность распределения наблюдаемой случайной величины (или вероятность события – в дискретном случае) и – функция правдоподобия данных (выборки ). Если при всех , функция дважды дифференцируема по , существует второй момент
то модель называется регулярной, а величина называется функцией информации (или информацией Фишера).
Для регулярной модели любая несмещенная оценка дифференцируемой функции удовлетворяет неравенству Рао-Крамера:
.
Оценка , для которой эта нижняя граница достигается, называется эффективной (она и является оптимальной). В заданной модели эффективная оценка может существовать только для какой-то одной параметрической функции .
Если модель обладает полной достаточной статистикой, т. е. существует статистика такая, что функция правдоподобия может быть представлена в виде
где функция не зависит от (это представление есть критерий факторизации), и при этом уравнение
имеет лишь решение (на множестве значений статистики ), то оптимальная несмещенная оценка для функции удовлетворяет уравнению несмещенности
Это уравнение либо имеет единственное решение, либо решений нет. В последнем случае функция не является оцениваемой. Таким образом, для полной достаточной статистики всякая функция от нее является оптимальной оценкой своего среднего.
4. Одним из наиболее универсальных методов оценивания неизвестных параметров распределений является метод максимального правдоподобия. По этому методу оценкой максимального правдоподобия (о.м.п.) по выборке , является такая точка параметрического множества , в которой функция правдоподобия достигает максимума, т. е.
.
Для произвольной параметрической функции ее о.м.п. находится по правилу .
Для регулярных моделей оценки максимального правдоподобия обладают свойствами состоятельности, асимптотической нормальности и асимптотической эффективности: если – непрерывно дифференцируемая функция, то при
.
5. При доверительном оценивании функции ищут две такие статистики , для которых при заданном доверительном уровне выполняется условие
Такой случайный интервал называется доверительным интервалом для .
Для больших выборок (при ) в ряде случаев удается построить приближенные доверительные интервалы, основанные на оценках максимального правдоподобия. Так, если – непрерывно дифференцируемая функция, то в случае регулярной модели асимптотический доверительный интервал для имеет вид
где и ( – стандартная нормальная функция распределения). В частности, для самого параметра такой интервал есть
.
6. Если задана параметрическая модель , то статистические гипотезы для нее имеют вид некоторых утверждений о возможных значениях параметра . В общем случае, основная гипотеза имеет вид утверждения при некотором заданном подмножестве , а альтернатива к ней есть утверждение вида . При заданном уровне значимости (вероятности отвергнуть гипотезу , когда она истинна) критерий проверки гипотезы задаётся выбором такого подмножества в выборочном пространстве, для которого выполняется условие
В этом случае критерий (называемый критерием ) формулируется следующим образом:
если – наблюдавшаяся реализация выборки X, то при гипотезу H0 отвергают (принимают альтернативу H1), в противном же случае, т. е. если , гипотезу H0 принимают.
Множество называется критическим множеством,и егостремятся выбирать так, чтобы вероятность принять гипотезу , когда она ложна, была минимальной, – в этом случае критерий называется наиболее мощным. Обычно критическое множество строят на основе некоторой статистики , и оно имеет вид либо . В таких случаях называют тестовой статистикой.
В основе большинства способов построения оптимальных критериев лежит фундаментальный результат (Ю. Нейман и Э. Пирсон) о существовании наиболее мощного критерия в задаче проверки простой гипотезы при простой же альтернативе.
Именно, если параметрическое множество состоит лишь из двух точек: ϴ = {θ0, θ1}, то при любом уровне значимости α наиболее мощный критерий для гипотезы H0: θ = θ0 при альтернативе H1: θ = θ1 существует и задается критической областью
X =
Задание