Основные числовые характеристики выборки
Негруппированная выборка | Группированная выборка |
1.Среднее арифметическое выборки | |
2.Дисперсия выборки | |
3.Исправленная дисперсия выборки: | |
4. Размах выборки: |
Тема 5. Статистические методы оценивания параметров распределений, проверки гипотез и исследования зависимостей.
5.1 Точечные оценки.
Одной из основных задач математической статистики является оценканеизвестных параметров, характеризующих распределение генеральной совокупности . Совокупность независимых случайных величин , каждая из которых имеет то же распределение, что и случайная величина называют случайной выборкой объёма из генеральной совокупности и обозначают . Любую функцию случайной выборки называют статистикой.
Если функция распределения генеральной совокупности известна с точностью до параметра , то его точечной оценкой называют статистику , значение которой на данной выборке принимают за приближённое значение неизвестного параметра : .
Чтобы точечные оценки давали «хорошее» приближение оцениваемых параметров, они должны удовлетворять определённым требованиям. «Хорошей» считается оценка, обладающая свойствами состоятельности, несмещённости и эффективности. Оценка называется: 1) состоятельнойоценкой параметра , если при неограниченном увеличении объёма выборки она сходится по вероятности к оцениваемому параметру, т.е. ; 2) несмещённой(оценкой без систематических ошибок), если её математическое ожидание при любом равно оцениваемому параметру, т.е. ; 3) эффективной(в некотором классе несмещённых оценок), если она имеет минимальную дисперсию в этом классе.
Пусть распределение генеральной совокупности известно с точностью до вектора параметров и требуется найти значение его оценки по выборке .
Оценкой метода моментов вектора параметров называют статистику значение которой для любой выборки удовлетворяет системе уравнений:
, ,
где - теоретические начальные моменты -го порядка случайной величины , - эмпирические начальные моменты -го порядка выборки . В систему уравнений метода моментов могут входить и уравнения вида , где - теоретические центральные моменты -го порядка случайной величины , эмпирические центральные моменты -го порядка выборки . Часто для нахождения значения оценки одного параметра используют первый начальный момент. Для нахождения значений оценок двух
параметров используют первый начальный и второй центральный моменты.
Оценкой метода максимального правдоподобиявектора параметров называют статистику , значение которой для любой выборки удовлетворяет условию: , где - функция правдоподобия выборки , - множество всех возможных значений вектора параметров .
Функция правдоподобия имеет вид:
1) - для дискретной случайной величины ;
2) - для непрерывной случайной величины .
Если функция дифференцируема как функция аргумента для любой выборки и максимум достигается во внутренней точке , то значение точечной оценки максимального правдоподобия находят, решая систему уравнений максимального правдоподобия: , . Нахождение упрощается, если максимизировать не саму функцию правдоподобия, а её логарифм , так как при логарифмировании точки экстремума остаются теми же, а уравнения, как правило, упрощаются и записываются в виде: , .
5.2 Интервальные оценки.
Если функция распределения генеральной совокупности известна с точностью до параметра , то его интервальной оценкой или доверительным интерваломназывается случайный интервал , который накрывает неизвестное значение параметра с заданной вероятностью , т.е. . Число называется доверительной вероятностью, а число - уровнем значимости. Обычно используются значения , равные , , .
Точность интервальной оценки характеризуется длиной доверительного интервала и зависит от объёма выборки и доверительной вероятности . Очевидно, что, чем меньше длина доверительного интервала, тем точнее оценка. Доверительный интервал, симметричный относительно точечной оценки , определяется формулой и имеет вид , где характеризует отклонение выборочного значения параметра от его истинного значения и называется предельной ошибкой выборки. Доверительные интервалы часто строятся в предположении, что выборка получена из генеральной совокупности, имеющей нормальное распределение.
Доверительный интервал для параметра нормально распределённой генеральной совокупности.
Параметр | Точечная оценка | Доверительный интервал |
( неизвестна) | , где , |
Здесь: , где- двусторонняя критическая точка распределения Стьюдента (находится с помощью специальных таблиц).
5.3. Проверка статистических гипотез.
Статистической гипотезой называют любое предположение относительно параметров или вида распределения генеральной совокупности (случайной величины) . Гипотезы относительно неизвестного значения параметра распределения генеральной совокупности (случайной величины) называются параметрическимии непараметрическими в иных случаях. Статистическая гипотеза называется простой, если она однозначно определяет распределение , в противном случае она называется сложной. Проверяемая гипотеза называется основной и обозначается . Наряду с гипотезой рассматривают одну из альтернативных гипотез , противоречащих основной. Например, если проверяется гипотеза о равенстве параметра распределения некоторому заданному значению , т.е. , то в качестве альтернативной гипотезы, как правило, рассматривается одна из следующих гипотез: , , . Выбор альтернативы определяется конкретной постановкой задачи.
Правило, по которому принимается решение принять или отклонить основную гипотезу , называется критерием проверки гипотезы. Критерий задают с помощью критического множества , где - выборочное пространство (множество всех возможных значений случайной выборки ). Решение принимают на основе выборки наблюдаемых значений случайной величины , используя для этого подходящую статистику , называемую статистикой критерия . При проверке параметрической гипотезы в качестве статистики критерия выбирают ту же статистику, что и при оценивании параметра .
Решение принимают следующим образом: 1) если выборка , то принимают основную гипотезу ; 2) если выборка , то основную гипотезу отклоняют и принимают альтернативную гипотезу .
При использовании любого критерия возможны ошибки двух видов:
1) отклонить верную основную гипотезу - ошибка первого рода;
2) принять неверную основную гипотезу - ошибка второго рода.
Вероятности совершения ошибок первого и второго рода обозначают и : , , где - вероятность события при условии, что справедлива гипотеза , . Вероятность совершения ошибки первого рода называют также уровнем значимости критерия , а величину , равную вероятности отклонить основную гипотезу , когда она неверна, называют мощностью критерия. Уровень значимости определяет «размер» критического множества. Обычно используются значения , равные , , .
Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, т.е. если выборка попадает в критическое множество с исключительно малой вероятностью, то естественно предположить, что утверждение, которое привело к этому маловероятному событию, не соответствует истине и отклонить его. Поступая так, мы будем отклонять в действительности верную основную гипотезу крайне редко – не более чем в случаев. Поэтому за основную гипотезу естественно принять утверждение, отклонение которого, когда оно в действительности является верным, приводит к более тяжёлым последствиям, чем его принятие при справедливости альтернативы.
Общая схема проверки параметрической гипотезы состоит в следующем: 1) формулируется альтернативная гипотеза ; 2) задаётся уровень значимости ; 3) выбирается статистика критерия проверки гипотезы ; 4) определяется выборочное распределение статистики при условии, что гипотеза является верной; 5) по заданным значениям и определяется критическое множество критерия в зависимости от формулировки альтернативной гипотезы ; 6) по выборке вычисляется наблюдаемое значение статистики критерия; 7) принимается статистическое решение: если , то основная гипотеза отклоняется как не согласующаяся с данными выборки; если , то принимается, т.е. считается, что гипотеза не противоречит данным выборки.
Критерии, используемые для проверки гипотезы о виде распределения случайной величины (генеральной совокупности) называют критериями согласия (с основной гипотезой), при этом альтернатива , как правило, не формулируется, подразумевая под ней «всё остальное». Одним из наиболее широко применяемых на практике критериев согласия, является критерий согласия («хи-квадрат»).
Критерий «хи-квадрат» в качестве меры расхождения эмпирического и теоретического законов распределения случайной величины использует значения статистики , где - объём выборки; -число непересекающихся множеств на которые разбита область возможных значений случайной величины ; -эмпирическая частота попадания в ; -вероятность попадания в , вычисленная для теоретического закона распределения . Закон распределения статистики при независимо от вида закона распределения случайной величины стремится к закону -распределения с степенями свободы ( -число параметров теоретического закона распределения , вычисляемых по выборке). Для его применения практически достаточно, чтобы .
Общая схема проверкинепараметрическойгипотезы , утверждающей, что случайная величина имеет теоретический закон распределения , состоит в следующем.
1) Задают уровень значимости .
2) По выборке находят значения оценок неизвестных параметров предполагаемого закона распределения .
3) Множество возможных значений случайной величины разбивают на непересекающихся множеств : интервалов, если - непрерывная величина или групп отдельных значений, если - дискретная величина, и подсчитывают их частоты , .
4) Используя предполагаемый закон распределения вычисляют вероятности , - вероятности того, что наблюдаемое значение принадлежит множеству . Замечание. Критерий «хи-квадрат» использует тот факт, что случайные величины , , имеют распределения, близкие к нормальному . Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех выполнялось условие . Если для некоторых это условие не выполняется, то их объединяют с соседними.
5) По заданным значениям и определяют критическое множество критерия «хи-квадрат»: , , где - критическая точка -распределения (находится с помощью специальных таблиц). Замечание. Если проводилось объединение , то - число множеств , оставшихся после их объединения.
6) По выборке вычисляют наблюдаемое значение статистики критерия «хи-квадрат».
7) Принимают решение: если , то основная гипотеза отклоняется как не согласующаяся с данными выборки; если , то принимается, т.е. считается, что гипотеза не противоречит данным выборки.
5.4 Корреляционно-регрессионный анализ.
На практике часто бывает важно знать, существует ли зависимость между некоторыми наблюдаемыми величинами, насколько тесно они связаны между собой, можно ли по значению одной величины сделать какие-либо выводы о предполагаемом значении другой величины и т.д. Для решения задач такого рода и применяется корреляционно-регрессионный анализ.
Пусть - выборка из двумерной генеральной совокупности . Предварительное представление о зависимости между случайными величинами и можно получить, изобразив в прямоугольной системе координат на плоскости точки . Такое графическое представление двумерной выборки называют диаграммой рассеивания (корреляционным полем). Количественной характеристикой степени линейной зависимости между величинами и является коэффициент корреляции . Его состоятельной оценкой служит статистика , где , , , , .
Если , то все выборочные точки , лежат на одной прямой. При выборочные данные только имеют тенденцию сосредотачиваться около прямых: , , называемых (теоретическими) прямыми регрессии на и на , соответственно. Здесь , . Первое уравнение даёт наилучший в среднем квадратичном прогноз ожидаемых значений по наблюдениям , второе – прогноз значений по наблюдениям .
Прямые , называются эмпирическими прямыми регрессии на и на , соответственно. Здесь , , , , - найденные по выборке , , значения статистик , , , , , являющихся состоятельными оценками параметров , , , , двумерной генеральной совокупности.
Проверка гипотезы о значимости выборочного коэффициента корреляции .
Гипотеза | Статистика критерия | Критическое множество |
,где |
Здесь: - двусторонняя критическая точка распределения Стьюдента (находится с помощью специальных таблиц), .- объём выборки.