Материал из MachineLearning. Перейти к: навигация, поиск
Перейти к: навигация, поиск
t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух выборках. Нулевая гипотеза предполагает, что средние равны (отрицание этого предположения называют гипотезой сдвига).
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться непараметрическими статистическими тестами.
При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.
Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.
Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
1. Определение регрессии. Регрессия — функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.
С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.
2. Определение коэффициента регрессии. Коэффициент регрессии — абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
3. Формула коэффициента регрессии. Rу/х = rху x (σу / σx)
где Rу/х — коэффициент регрессии;
rху — коэффициент корреляции между признаками х и у;
(σу и σx) — среднеквадратические отклонения признаков x и у.
В нашем примере [rху = - 0,96 коэффициент корреляции между изменениями среднемесячной температуры в осенне-зимний период (х) и средним числом инфекционно-простудных заболеваний (у)];
σх = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
σу = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
Таким образом, Rу/х — коэффициент регрессии.
Rу/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.
4. Уравнение регрессии. у = Му + Ry/x (х - Мx)
где у — средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
х — известная средняя величина другого признака;
Ry/x — коэффициент регрессии;
Мх, Му — известные средние величины признаков x и у.
Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, Rу/х = 1,8 заболеваний, Мх = -7°, Му = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).
5. Назначение уравнения регрессии. Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график — линия регрессии, по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.