Определения и построение интервалов
Работа N4. Доверительные границы и интервалы
результатом применения точечной оценки a(x1,...,xn) является одно числовое значение; оно не дает представления о точности, т.е. о том, насколько близко полученное значение к истинному значению параметра. Интуитивно ясно, что такое представление может дать, например, дисперсия оценки, так что истинное значение должно находиться где-то в пределах
a ± (2¸4)
Внесем уточнения.
Основные положения
Определения и построение интервалов
Пусть (x1,...,xn) º x - n независимых наблюдений над случайной величиной с законом распределения F(z/a), зависящим от параметра a, значение которого неизвестно.
Определение 1. Функция наблюдений a1(x1,...,xn) (заметим, что это случайная величина) называется нижней доверительной границей для параметра a с уровнем доверия РД (обычно близким к 1), если при любом значении
P{ a1(x1,...,xn)£ a}³ PД
Определение 2. Функция наблюдений a2(x1,...,xn) (случайная величина) называется верхней доверительной границей для параметра с уровнем доверия РД , если при любом значении
P{ a2(x1,...,xn)³ a }³ PД .
Определение 3. Интервал со случайными концами (случайный интервал)
I(x) = ( a1(x), a2(x)) ,
определяемый двумя функциями наблюдений, называется доверительным интервалом для параметра a с уровнем доверия РД , если при любом значении a
P{ I(x)' a } º P{ a1(x1,...,xn)£ a £ a2(x1,...,xn)} ³ PД ,
т.е. вероятность (зависящая от a) накрыть случайным интервалом I(x) истинное значение a - велика: больше или равна РД.
Построение доверительных границ и интервалов. Для построения доверительного интервала (или границы) необходимо знать закон распределения статистики z=z(x1,...,xn), по которой оценивается неизвестный параметр (такой статистикой может быть оценка z = a(x1,...,xn) ). Один из способов построения состоит в следующем. Предположим, что некоторая случайная величина j = j(z, a), зависящая от статистики z и неизвестного параметра a такова, что
1) закон распределения известен и не зависит от a;
2) j(z, a) непрерывна и монотонна по .
Выберем диапазон для - интервал так, чтобы попадание в него было практически достоверно:
P{ f1 £j(z, a) £ f2 }³ PД , (1)
для чего достаточно в качестве и взять квантили распределения уровня (1- РД )/2 и (1+ РД )/2 соответственно. Перейдем в (1) к другой записи случайного события, разрешив неравенства относительно параметра a; получим (полагая, что монотонно возрастает по ):
P{ g(z, f1)£ a £ g(z, f2) }³ PД .
Это соотношение верно при любом значении параметра a (поскольку это так для (1)), и потому, согласно определению, случайный интервал
( g(z, f1) , g(z, f2) )
является доверительным для a с уровнем доверия РД . Если убывает по , интервалом является ( g(z, f2) , g(z, f1) ).
Для построения односторонней границы для a выберем значения и так, чтобы
P{j(z, a) ³ f1 }³ PД , f1=Q(1 - PД )
или P{j(z, a) £ f2 }³ PД , f2 = Q( PД ),
где - квантиль уровня . После разрешения неравенства под знаком получим односторонние доверительные границы для a.
Пример. Доверительный интервал с уровнем доверия РД для среднего a нормальной совокупности при известной дисперсии s .
Пусть x , ... , xn - выборка из нормальной N(a, s )совокупности. Достаточной оценкой для а является
a = a(x ,...,xn) = ,
распределенная по закону N(a, ); пронормируем её, образовав случайную величину
, (2)
которая распределена нормально N(0,1)при любом значении а.
По заданному уровню доверия РД определим для j отрезок [-fp, fp] так, чтобы
, (3)
т.е. fp - квантиль порядка (1+ РД )/2 распределения N(0,1); заметим, что j зависит от а , но (3) верно при любом значении а. Подставим в (3) выражение для j из(2) и разрешим неравенство под знаком вероятности в (3) относительно а ; получим соотношение
, (4)
верное при любом значении а. под знаком вероятности две функции наблюдений
, ( 5)
определяют случайный интервал
I( x1, ... , xn) =(a1( x1, ... , xn), a2( x1, ... , xn)), (5a)
который в силу (4) обладает тем свойством , что накрывает неизвестное значение параметра а с большой вероятностью РД при любом значении а, и потому, по определению доверительно интервала, он является доверительным с уровнем доверия РД .
В общем случаеслучайную величину j в (1) можно построить следующим образом. Определим функцию распределения F(z/a)статистики z (F, конечно, зависит от а). Для непрерывной z случайная величина j(z, а)º F(z /a),как нетрудно видеть, распределена равномерно на отрезке [0, 1] при любом значении а; приняв f1= (1- PД)/2, f2 =(1+PД)/2, будем иметь в качестве (4)
P{f1 £ F(z /a) £ f2} = PД .
Для дискретной z ситуация аналогична.
Можно рассуждать иначе: при любом фиксированном значении а определим отрезок [z1(a), z2(a)] так, что
P{ z1(a)£ z £ z2(a)} ³ РД ; (6)
ясно, что в качестве z1 и z2 можно взять квантили, т.е. определить из условий
F(z!/a)=(1- РД )/2, F(z2/a)=(1+ РД )/2.
Если z1(a) и z2(a) монотонно возрастают по а, то, разрешив два неравенства под знаком Р в (6) и учитывая, что z1(a) < z2(a),получим:
P{ z2-1(z) £ a £ z1-1(z) } ³ РД ,
вверное при любом а; ясно, что интервал ( z2-1(z) , z1-1(z) ), определяемый двумя функциями от z , является доверительным с уровнем доверия РД.
Уровень доверия
Уровень доверия РД означает, что правило определения интервала дает верный результат свероятностьюРД, которая обычно выбирается близкой к 1, однако, 1 не равно.Убедимся статистически на примере в том, что доверительный интервал с уровнем доверия РД может не содержать (с малой вероятностью 1- РД ) истинное значение параметра.
Пример. рассмотрим приведенный в (5) случайный интервал I(x1, ..., xn), который при любом значении а накрывает это значение с большой вероятностью РД:
Р{ I(x1,...,xn) ' a } = РД ,
и потому, если пренебречь возможностью осуществления события aÏI, имеющего малую вероятность (1-РД), можно считать событие aÎI(x1,...,xn) практически достоверным, т.е. можно верить тому, что вычисленный по конкретным наблюдениям x1,...,xn интервал I содержит неизвестное значение параметра а.
Испытаем интервал (5) на 50 выборках объема n=10 для трех уровней доверия РД : 0.9 , 0.99 , 0.999 (соответственно, три значения fp) .
При РД = 0.9 число неверных из k =50 результатов окажется в окрестности 5, так как среднее число неверных
k(1- РД) = 5;
при РД =0.99 появление хотя бы одного неверного из k =50 весьма вероятно: вероятность этого события
1- РДk=1-0.9950 » 0.61;
при РД =0.999 появление хотя бы одного неверного весьма сомнительно: вероятность этого события
1- РДk=1-0.99950 » 0.05.
Задание.
1. Определить, сколько раз из k =50 доверительный интервал оказался неверным;.это сделаем для трех значений РД . Графики для РД =0.9 и РД =0.99 распечатать. Выполнение в пакетах см. в пп. 2 - 4.
2. Провести аналогично 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.