Распределение и критерий стьюдента и их практическое применение
Распределение Стьюдента - это нормальное распределение для выборок с объемом меньше 30.
Рассмотрено в 1908 г. математиком В. Госсетом, который взял себе псевдоним «студент» ( англ. Student ).
Распределение Стьюдента по другому называется tst - распределение.
tst - расределение - это критерий поправки ( «тэ-критерий» ), который учитывает небольшой объeм выборки.
Формула критерия:
Здесь: - средняя арифметическая выборки,
μ - средняя арифметическая генеральной совокупности
( генеральная средняя ),
- ошибка репрезентативности средней арифметической
( стандартная ошибка средней арифметической ).
В формуле числитель представляет собой отклонение выборочной средней от генеральной средней μ, а знаменатель является стандартной ошибкой средней арифметической.
График распределения Стьюдента, как и график нормального распределения, представляет унимодальную куполообразную симметричную кривую. Но он более полог и имеет большую площадь под кривой.
1
Рис. Графики нормального распределения 1 и распределения Стьюдента 2.
При увеличении объема выборки распределение Стьюдента стремится к нормальному распределению и переходит в него при объеме совокупности, равном бесконечности ( ). На практике такой переход фактически наблюдается при объемах выборки более 100 вариантов.
Практическое значение распределения Стьюдента состоит в том, что по малым выборкам становится возможным проверять статистические гипотезы относительно параметров генеральной совокупности.
На практике значения критерия Стьюдента tst берут из таблиц tst. В этих таблицах в одном столбце даются значения числа степеней свободы n, а в других - значения критерия для стандартных уровней надежности ( 0,95, 0,99, 0,999 ) или уровней значимости ( 0,05, 0,01, 0,001 ).
Вычислив по данному объему совокупности n значение числа степеней свободы nи выбрав определенное значение уровня надежности 1-α или значимости α, на пересечении строк с соответствующими n и 1-α находят tst.
4. СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И КРИТЕРИИ ИХ ОЦЕНКИ. Условия надежности и значимости. Определение доверительного интервала по таблицеtst.
Статистическая гипотеза - это предположение о свойствах и характеристиках статистического распределения.
Виды гипотез:
1. Нулевая гипотеза Н0.
2. Альтернативная гипотеза НI.
Нулевой гипотезой называют предположение о том, что характеристики выборки ( например, средняя арифметическая или стандартное отклонение S ) не отличаются от аналогичных характеристик μ, σ генеральной совокупности, из которой взята выборка.
Фраза «не отличаются» означает, что имеющиеся различия являются случайными.
Альтернативной гипотезой – ( контргипотезой ) называется такая гипотеза, которая считает, что различия между характеристиками выборки и такими же характеристиками генеральной совокупности существенны и не случайны.
Для подтверждения или опровержения выдвинутой гипотезы применяют специальные методы статистического оценивания, которые называются критериями оценки.
Наиболее часто в медицинской практике используются параметрические и непараметрические критерии.
Параметрические критерии - это такие критерии, применение которых требует обязательного знания вида распределения.
Если распределение нормальное, то для его оценки можно применять «тау-критерий» τ, «эф-критерий» F, «тэ-критерий» Стьюдента tst. Если распределение не подчиняется нормальному закону, то эти критерии не применяют.
Непараметрические критерии отличаются от параметрических тем, что для их использования нет необходимости знать вид распределения. Такие критерии можно применять для оценки распределений, не подчиняющихся закону нормального распределения. Пример: к непараметрическим критериям относится критерий «хи-квадрат» χ2.
Особенностью непараметрических критериев является то, что они более универсальны, но менее мощны и эффективны.
На практике для статистического оценивания используют два вида оценок:
1. Точечные оценки.
2. Интервальные оценки.
Точечная оценка - это число, которое характеризует неизвестный параметр генеральной совокупности.
К точечным оценкам относятся значения средней арифметической , дисперсии S2и стандартного отклонения Sвыборки.
Интервальная оценка - это такая оценка, при которой неизвестный параметр генеральной совокупности оценивается двум числами а и b. Эти числа являются границами интервала, в котором c заданной надежностью лежит значение параметра генеральной совокупности. Числа а и b называются доверительными границами.
Интервал между доверительными границами называется доверительным интервалом.
Числовое значение этого интервала выбирается с определенной степенью вероятности. Эта вероятность называется доверительной вероятностью или доверительной надежностью.
Доверительная надежность обозначается символами 1-α и выражается в долях единицы или в процентах. На практике применяют стандартные значения доверительной надежности:
0,95 0,99 0,999 ( в долях единицы );
95% 99% 99,9% ( в процентах ).
Доверительная надежность 0,95 означает, что в 95 случаях из 100 оцениваемый параметр генеральной совокупности попадет внутрь интервала с границами а и b.И только в 5 случаях он выйдет за эти границы.
Вероятность того, что оцениваемый неизвестный параметр генеральной совокупности не попадет внутрь доверительного интервала, называется уровнем ненадежности или уровнем значимости. Уровень значимости ( ненадежности ) обозначают символом α.
В сумме уровень надежности ( 1-α ) и уровень значимости ( α ) равны 1 или 100%.
Каждому уровню надежности соответствует свой уровень значимости:
1-αα
0,95 0,05
0,99 0,01
0,999 0,001
Ввиду однозначной связи между собой уровней надежности и значимости, в одних статистических таблицах указывают значения 1-α, а в других - α.
Определение доверительного интервала по таблице tst.
Если объем выборки меньше 30, границы доверительного интервала определяются следующим образом:
1. Для данной выборки объема n вычисляется средняя арифметическая и стандартное отклонение S.
2. По формуле n = n-1определяется число степеней свободы.
3. Выбирается стандартный уровень надежности или значимости. Для вычисленного числа степеней свободы n и выбранного уровня надежности 1-α или значимости αпо таблице Стьюдента находят значение критерия tst ( критерия Стьюдента ).
4. Определяется ошибка репрезентативности требуемой характеристики по формулам для этих ошибок : , , .
5. Определяется нижняя граница доверительного интервала по формуле .
6. Определяется верхняя граница доверительного интервала по формуле .
7. Записывается полный доверительный интервал для параметра генеральной совокупности: .
Интервал можно записать следующим образом:
.
Пример: Имеется выборка объемом 26 вариантов, средняя арифметическая которой равна 10, а стандартное отклонение 2. Необходимо определить доверительный интервал для средней арифметической генеральной совокупности при уровне надежности равном 0,95.
1. Выборка содержит 26 вариант;
2. n = 26, = 10, S = 2;
3. n = n-1=26-1=25;
4. По таблице находим для n=25 и 1-α=0,95 или α=0,05 значение критерия Стьюдента tst= 2,06;
5. Определяем ошибку репрезентативности средней арифметической ;
6. Определяем нижнюю границу доверительного интервала
7. Определяем верхнюю границу
8. Записываем полный доверительный интервал
Вывод: с надежностью 0,95 средняя арифметическая генеральной совокупности будет находиться в интервале с границами 9,2-10,8 или 10 ± 0,8.
СПОСОБЫ ОПРЕДЕЛЕНИЯ ПРИНАДЛЕЖНОСТИ ВАРИАНТЫ К СОВОКУПНОСТИ И ИХ ХАРАКТЕРИСТИКА
Способы определения принадлежности варианты к совокупности используются тогда, когда в выборках встречаются варианты, которые по своему числовому значению значительно отличаются от остальных. Такие варианты называются «выскакивающими» вариантами. Чтобы решить вопрос об их включении в совокупность применяют специальные статические критерии.
В медицинских исследования наиболее часто используют способ «трех стандартных отклонений» и способ «тэ-критерия».
Способ трех стандартных отклонений.
Сущность способа: Варианта xмакс принадлежит к совокупности, если ее числовое значение отличается от значения средней арифметической не более, чем на три стандартных отклонения. При несоблюдении этого условия варианту считают «выскакивающей». Условия сохранения варианты в выборке: /xмакс - / 3S.
Алгоритм способа:
1. Измерить все варианты и выбрать из них варианту с максимальным числовым значением xмакс.
2. Вычислить среднюю арифметическую выборки .
3. Вычислить стандартное отклонение S и его утроенное значение 3S.
4. Определить разность /xмакс - /
5. Сравнить результат разности с утроенным стандартным отклонением. Если выполняется условие /xмакс - / 3S, то варианту оставляют в совокупности. Если /xмакс - / >3S варианту считают «выскакивающей» и отбрасывают.
Способ «тэ-критерия».
Данный способ применяют для выборок с количеством вариантов не более 30 и при условии, что распределение подчиняется закону нормального распределения.
Сущность способа состоит в том, что варианту исключают из выборки, если вычисленное значение «тэ-критерия» больше его табличного значения.
Алгоритм способа.
1. Для данной выработки измерить все значения вариант и подсчитать объем n.
2. Выбрать варианту с максимальным числовым значением xмакс. Она будет предположительно «выскакивающей» вариантой.
3. Вычислить среднюю арифметическую и стандартное отклонение Sвыборки.
4. Получить разность /xмакс - / и вычислить значение фактического «тау -критерия» по формуле
5. Обратиться к таблице с «тэ-критериями» и для данного объема выборки n и уровня значимости (α=0,05 или 1-α = 0,95) найти табличное значение критерия .
6. Сопоставить вычисленный фактический и табличный критерии и сделать вывод. Варианта сохраняется если значение фактического критерия меньше или равно табличному . Варианта отбрасывается, если значение фактического критерия больше, чем табличного >