Нулевая и альтернативная гипотезы.
Но – нулевая гипотеза
Она делает предположение о том, что различия между сравниваемыми выборками отсутствуют. Её математический смысл состоит в том, что Хср.1 –Хср.2→0, т.е. различие между выборками стремится к нулю. На самом деле различия могут отклоняться от 0, но быть не достоверными или не доказанными. Принятие нулевой гипотезы можно выразить такими словами: «Достоверных различий между выборками не обнаружено». Как правило, исследователь стремится опровергнуть нулевую гипотезу, и доказать следующее: во-первых, то, что различия между выборками есть, и, во-вторых, то, что они достоверны.
Н1 (НА) – альтернативная гипотеза ( противостоящая нулевой гипотезе) Её смысл заключается в том, что различия между выборками есть и что они достоверны. Как правил, легче получается отвергнуть нулевую гипотезу, чем доказать альтернативную. Но если отвергли нулевую гипотезу, то это ещё не означает, что автоматически следует принять альтернативную, хотя на практике обычно поступают именно так. С помощью доказательства альтернативной гипотезы, безусловно, отвергается нулевая гипотеза. Если не смогли доказать альтернативную гипотезу, то вынуждено принимается нулевая гипотеза.
Однако встречаются и такие случаи, когда исследователь пытается доказать именно нулевую гипотезу, т.е. отсутствие достоверных различий между сравниваемыми выборками.
Уровень значимости
Уровень значимости – это вероятность того, что мы сочли различия существенными, в то время как они на самом деле случайны. Итак, уровень значимости имеет дело с вероятностью.
Уровень значимости показывает степень достоверности выявленных различий между выборками, т.е. показывает, насколько мы можем доверять тому, что различия действительно есть.
Современные научные исследования требуют обязательных расчётов уровня статистической значимости результатов.
Обычно в прикладной статистике используют 3 уровня значимости.
Уровни значимости:
• 1-й уровень значимости: р ≤ 0,05.
Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,95. Общий смысл критерия останется тем же.
• 2-й уровень значимости: р ≤ 0,01.
Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,99. Смысл останется тем же.
• 3-й уровень значимости: р ≤ 0,001.
Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это — самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,999. Смысл опять-таки останется тем же.
Уровень значимости – это вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идёт об отклонении нулевой гипотезы Но.
Уровень значимости – это допустимая ошибка в нашем утверждении, в нашем выводе.
Мощность критерия
Мощность критерия – его способность выявлять даже мелкие различия если они есть. Чем мощнее критерий, тем лучше он отвергает нулевую гипотезу и подтверждает альтернативную.
Здесь появляется понятие: ошибка II рода.
Ошибка II рода – это принятие нулевой гипотезы, хотя она не верна.
Мощность критерия: 1 – β
Чем мощнее критерий, тем он привлекательнее для исследователя. Он лучше отвергает нулевую гипотезу.
Чем привлекательны маломощные критерии?
Достоинства маломощных критериев
• Простота
• Широкий диапазон, по отношению к самым разным данным
• Применимость к неравным по объему выборкам.
• Большая информативность результатов.
Самый популярный статистический критерий в России - Т-критерий Стьюдента. Но всего в 30% статей его используют правильно, а в 70% - неправильно, т.к. не проверяют предварительно выборку на нормальность распределения.
Второй по популярности — критерий хи-квадрат, χ2
За рубежом:
Т-критерий Вилкоксона
U-критерий Манна – Уитни
χ2 - хи-квадрат.
Т-критерий Стьюдента – это частный случай дисперсионного анализа для более маленькой по объёму выборки.