Первичная обработка результатов измерений случайной величины
Закон больших чисел и центральная предельная теорема
1.Закон больших чисел - это обобщенное название нескольких теорем, из которых следует, что при неограниченном увеличении числа испытаний средние величины стремятся к некоторым постоянным. Теорема Чебышева является наиболее общим законом больших чисел, теорема Бернулли - простейшим. В основе доказательства теорем, объединенных термином "закон больших чисел", лежит неравенство Чебышева, по которому устанавливается вероятность отклонения от ее математического ожидания:
P{|X-M[X]|<e}>=1-D[X]/e^2
2. Говорят, что последовательность случайных величин сходится по вероятности к случайной величине при , и пишут: , если для любого
3. центральная предельная теорема — утверждает, что если — последовательность независимых одинаково распределённых случайных величин, то, при стремлении к бесконечности, распределение их среднего — случайной величины сходится к нормальному распределению.
4. Если для последовательности {Xn}, n = 1,2,..., независимых СВ выполняется условие
lim n→+∞ | D[Yn] = 0, |
то к этой последовательности применим закон больших чисел.
5. физ смысл закона больших чисел. Kонкретные особенности каждого отдельного случайного явления почти не сказываются на среднем результате масс и таких явлений; случайные отклонения от среднего, неизбежные в каждом отдельном явлении, в массе взаимно погашаются, нивелируются, выравниваются.
Первичная обработка результатов измерений случайной величины
1.Мат. статистика занимается статистич. Анализом результатов опытов или наблюдений, а также построением и проверкой подходящий математических моделей процессов и систем на основе результатов эксперимента
2. Статистические закономерности - форма проявления взаимосвязи явлений, при которой данное состояние системы определяет все ее последующие состояния не однозначно, а лишь с некоторой вероятностью, выступающей объективной мерой возможности реализации заложенных в прошлом тенденций изменения
3. Принципы построения выводов.Два основных метода анализа статистических данных: 1) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого неизвестен. 2) проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.
4. Принцип практич увереннсоти Если вероятность α события А в данном испытании очень мала, то при однократном выполнении испытания можно считать, что событие А практически невозможно. Тогда противоположное событие A практически достоверно, т.е обязательно произойдет.
5.Задачи:1. Определение закона распределения основного признака (наблюдаемой СВ) 2. Нахождение оценок неизвестных параметров распределений и оценок числовых характеристик СВ. 3. Проверка правдоподобия статистич гипотез. 4. Оптимальная организация и проведение экспериментов и оптимальная обработка результатов экспериментов.
6. Ген. Совокупность – совокупность всех мыслимых значений, которые может принимать величина Х при данном реальном комплексе условий.
7. случайная выборка – результат последовательных наблюдений над случайной величиной , представляющей генеральную совокупность.
8. Случайная выборка - способ отбора при котором каждый элемент генеральной совокупности имеет одинаковую вероятность быть выбранным. Реализовать случайную выборку можно двумя приемами: лотерейный метод и с помощью (таблицы) случайных чисел.
9. Простой статистический ряд - значения исследуемого признака, записанные для всех элементов выборки в том порядке, в котором они были получены
10. Вариационным рядом выборки х1, х2 х3…. xn называется такое представление, при котором элементы записываются в виде неубывающей последовательности x1, x2, x3… xn,, где x1<=x2<= x3…<= xn
11. Х1, Х2 Х3…. Хn - случайный вектор , компоненты которого независимы и распределены по одному и тому же закону.
12. Числа, х1, х2 х3…. xn получаемые при кратном повторений экспериментов в неизменных условиях, представляют собой конкретную реализацию выборочного случайного вектора , Х1, Х2 Х3…. Хn компоненты которого независимы и распределены по одному и тому же закону.
1)Статистикой называется произвольная измеримая функция выборки , которая не зависит от неизвестных параметров распределения.
Условие измеримости статистики означает, что эта функция является случайной величиной, т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.
Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении оценки и прочие статистические выводы.
3)
Точечная оценка математического ожидания
Пусть выборка из генеральной совокупности, соответствующей случайной величине x с неизвестным математическим ожиданием Mx=q и известной дисперсией .
Рассмотрим оценку неизвестного математического ожидания
.
Оценка несмещённая, поскольку её математическое ожидание равно Mx=q :
,
Оценка состоятельная, поскольку при n®¥, :
.
Итак, для оценки неизвестного математического ожидания случайной величины будем использовать выборочное среднее: .
5) Точечная оценка дисперсии
Для дисперсии случайной величины можно предложить следующую оценку:
, где — выборочное среднее.
Доказано, что эта оценка состоятельная, но смещенная.
В качестве состоятельной несмещенной оценки дисперсии используют величину
.
Именно несмещенностью оценки объясняется ее более частое использование в качестве оценки дисперсии.
1. Статистическая гипотезапредставляет собой некоторое предположение о законе распределения случайной величины или о параметрах этого закона, формулируемое на основе выборки [3, 5, 11]. Примерами статистических гипотез являются предположения: генеральная совокупность распределена по экспоненциальному закону; математические ожидания двух экспоненциально распределенных выборок равны друг другу. В первой из них высказано предположение о виде закона распределения, а во второй – о параметрах двух распределений. Гипотезы, в основе которых нет никаких допущений о конкретном виде закона распределения, называютнепараметрическими, в противном случае – параметрическими.
2. Проверка гипотезы основывается на вычислении некоторой случайной величины – критерия, точное или приближенное распределение которого известно. Обозначим эту величину через z, ее значение является функцией от элементов выборки z=z(x1, x2, …, xn). Процедура проверки гипотезы предписывает каждому значению критерия одно из двух решений – принять или отвергнуть гипотезу. Тем самым все выборочное пространство и соответственно множество значений критерия делятся на два непересекающихся подмножества S0 и S1. Если значение критерия z попадает в область S0, то гипотеза принимается, а если в область S1, – гипотеза отклоняется. Множество S0называется областью принятия гипотезы или областью допустимых значений, а множество S1 – областью отклонения гипотезы или критической областью. Выбор одной области однозначно определяет и другую область.
Критерий хи-квадрат К. Пирсона
3. Использование этого критерия основано на применении такой меры (статистики) расхождения между теоретическим F(x) и эмпирическим распределением Fп(x), которая приближенно подчиняется закону распределения c 2. Гипотеза Н0 о согласованности распределений проверяется путем анализа распределения этой статистики. Применение критерия требует построения статистического ряда.
4. Принятие или отклонение гипотезы Н0 по случайной выборке соответствует истине с некоторой вероятностью и, соответственно, возможны два рода ошибок. Ошибка первого рода возникает с вероятностью a тогда, когда отвергается верная гипотеза Н0 и принимается конкурирующая гипотеза Н1. Ошибка второго рода возникает с вероятностью b в том случае, когда принимается неверная гипотеза Н0, в то время как справедлива конкурирующая гипотеза Н1. Доверительная вероятность – это вероятность не совершить ошибку первого рода и принять верную гипотезу Н0. Вероятность отвергнуть ложную гипотезу Н0 называется мощностью критерия. Мощность критерия: — вероятность отклонить гипотезу , если на самом деле верна альтернативная гипотеза . Мощность критерия является числовой функцией от альтернативной гипотезы .
5. Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.Уровень значимости обычно обозначают греческой буквой (альфа).
- Этапы проверки статистических гипотез
1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.
2. Задание уровня значимости , на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
3. Расчёт статистики критерия такой, что:
- её величина зависит от исходной выборки ;
- по её значению можно делать выводы об истинности гипотезы ;
- сама статистика должна подчиняться какому-то известному закону распределения, так как сама является случайной в силу случайности .
4. Построение критической области. Из области значений выделяется подмножество таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.
5 .Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы .
7. При проверке гипотез широкое применение находит ряд теоретических законов распределения. Наиболее важным из них является нормальное распределение. С ним связаны распределения хи-квадрат, Стьюдента, Фишера, а также интеграл вероятностей. Для указанных законов функции распределения аналитически не представимы. Значения функций определяются по таблицам или с использованием стандартных процедур пакетов прикладных программ. Указанные таблицы обычно построены в целях удобства проверки статистических гипотез в ущерб теории распределений – они содержат не значения функций распределения, а критические значения аргумента z(a ).
7. Критерием согласия называется критерий проверки гипотезы о
предполагаемом законе неизвестного распределения. С помощью критерия Пирсона можно проверить гипотезу о различных законах распределения генеральной совокупности (равномерном, нормаль-ном, показательном и др.) Для этого в предположении о конкретном виде распределения вычисляются теоретические частоты , и в качестве in′
критерия выбирается случайная величина
χ^2=∑((ni-ni’)^2)/ni’ K>()
8. (критическая область) содержит значения критерия, при которых нулевая гипотеза отклоняется.
область принятия гипотезы – значения К, при которых она принимается. Значения К, отделяющие критическую область от области принятия гипотезы, называются критическими точками kр. Критическая область может быть правосторонней (если она задается неравенством K>kкр), левосторонней (K<kкр) или двусторонней (K<(kкр)1,K>(kкр)2 .
9. ошибка первого рода, если отклонена верная нулевая гипотеза
10. ошибка второго рода, если принята неверная нулевая гипотеза
11. Порядок проверки статистической гипотезы таков:
1) задается уровень значимости α, выбирается статистический критерий К и вычисляется (обычно по таблицам для закона распределения К) значение kкр; определяется вид критической области;
2) по выборке вычисляется наблюдаемое значение критерия Кнабл;
3) если Кнабл попадает в критическую область, нулевая гипотеза отвергается; при попадании Кнабл в область принятия гипотезы нулевая гипотеза принимается.