Проверка статистических гипотез
Формулирование гипотез систематизирует предположения исследователя и представляет их в четком, лаконичном виде. Решение, которое требуется принять исследователю, касается истинности или ложности статистической гипотезы. Различают два вида гипотез: научные и статистические. Научная гипотеза – это предполагаемое решение проблемы (формулируется как теорема). Статистическая гипотеза – просто утверждение относительно неизвестного параметра генеральной совокупности (свойстве случайной величины или событии), которое формулируется для проверки надежности связи и которое можно проверить по известным выборочным статистикам (результатам исследования, имеющимся эмпирическим данным).
Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные. Нулевая гипотеза (Н0) это гипотеза об отсутствии различий, отсутствие влияния фактора, отсутствие эффекта и т.п. Это то, что предполагается опровергнуть, если перед нами стоит задача доказать значимость различий. Альтернативная гипотеза (Н1) это гипотеза о значимости различий. Это то, что предполагается доказать, поэтому ее иногда называют экспериментальной или рабочей гипотезой.
Сама же процедура обработки полученных количественных данных, заключающаяся в вычислении некоторых статистических характеристик и оценок, позволяющих проверить нулевую гипотезу называется статистическим анализом.
Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными. Гипотеза называется направленной, если она содержит указание на направление отличий. Такие гипотезы следует формулировать, например, в том случае, если в одной из групп индивидуальные значения испытуемых по какому-либо признаку выше, а в другой ниже, или необходимо доказать, что в одной из групп под влиянием каких-либо экспериментальных воздействий произошли более выраженные изменения, чем в другой группе. Гипотеза называется ненаправленной, если ее формулировка предполагает лишь определение отличий или не отличий (без указания направления отличий). Например, если необходимо доказать, в двух разных группах различаются формы распределения признака.
Примеры формулирования гипотез.
Направленные гипотезы | Ненаправленные гипотезы |
Н0: Х1 не превышает Х2 | Н0: Х1 не отличается от Х2 |
Н1: Х1 превышает Х2 | Н1: Х1 отличается от Х2 |
Метод, который используется для принятия решения относительно справедливости статистической гипотезы, называется проверкой гипотезы. Основной принцип проверки гипотезы состоит в том, что выдвигается нулевая гипотеза Н0, с тем, чтобы попытаться опровергнуть ее и тем самым подтвердить альтернативную гипотезу Н1.
При проверке любой статистической гипотезы решение исследователя никогда не принимается с уверенностью, поскольку всегда остается риск принятия неправильного решения.
Обычно используемые выборки невелики, и в этих случаях вероятность ошибки может быть значительной. Существует так называемый уровень достоверности (уровень значимости) различия. Это вероятность того, что различия считаются существенными, а они на самом деле случайны. То есть это вероятность отклонения нулевой гипотезы, в то время как она верна.
Когда указывается, что различия достоверны на 5%-ном уровне значимости, или при p£0,05, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,05 (низший уровень статистической значимости). Если указывается, что различия достоверны на 1%-ном уровне значимости, или при p£0,01, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01 (достаточный уровень статистической значимости). Если указывается, что различия достоверны на 0,1%-ном уровне значимости, или при p£0,001, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,001 (высший уровень статистической значимости).
Правило отклонения Н0 и принятия Н1 :
Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,05 или превышает его, то Н0 отклоняется, но еще нельзя определенно принять Н1.
Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,01 или превышает его, то Н0 отклоняется принимается Н1.
Для наглядности правила принятия решения можно использовать так называемую «ось значимости».
Если уровень достоверности не превышен, то можно считать вероятным, что выявленная разница действительно отражает положение дел в популяции. Для каждого статистического метода этот уровень можно узнать из таблиц распределения критических значений соответствующих критериев.
T – критерий Стьюдента
Это параметрический метод, используемый для проверки гипотез о достоверности разницы средних при анализе количественных данных в популяциях с нормальным распределением и с одинаковой дисперсией. Он хорошо применим в случае сравнения величин средних случайных значений измеряемого признака в контрольной и экспериментальной группах, в различных половозрастных группах, группах, имеющих другие различные признаки.
Обязательным условием применимости параметрических методов, в том числе и t‑критерия Стьюдента, для доказательства статистических гипотез является подчинение эмпирического распределения исследуемого признака закону нормального распределения.
Метод Стьюдента различен для независимых и зависимых выборок.
Независимые выборки получаются при исследовании двух различных групп испытуемых (например, контрольной и опытной групп). К зависимым выборкам относятся, например, результаты одной и той же группы испытуемых до и после воздействия независимой переменной.
Проверяемая гипотеза Н0 состоит в том, что разность между средними значениями двух выборок равна нулю ( = 0), другими словами это гипотеза о равенстве средних ( ). Альтернативная гипотеза Н1 состоит в том, что эта разность отлична от нуля ( ¹ 0) или же существует отличие выборочных средних ( ).
В случае независимых выборок для анализа разницы средних применяют формулу: при n1, n2 > 30
и формулу при n1, n2 < 30, где
- среднее арифметическое значение первой выборки;
- среднее арифметической значение второй выборки;
s1 – стандартное отклонение для первой выборки;
s2 – стандартное отклонение для второй выборки;
n1 и n2 – число элементов в первой и второй выборках.
Для нахождения критического значения t определим число степеней свободы:
n = n1 - 1 + n2 - 1 = (n1 + n2) – 2 = n - 2.
Если |tэмп | > tкр, то нулевую гипотезу отбрасываем и принимаем альтернативную, то есть считаем разницу средних достоверной. Если |tэмп | < tкр, то разница средних недостоверна.
В случае зависимых выборок для определения достоверности разницы средних применяется следующая формула: , где
d – разность между результатами в каждой паре (хi – yi );
åd – сумма этих частных разностей;
åd2 – сумма квадратов частных разностей;
n – число пар данных.
Число степеней свободы в случае зависимых выборок для определения t критерия будет равно n = n - 1.
Существуют и другие статистические критерии проверки гипотез, как параметрические, так и непараметрические. Например, математико-статистический критерий, позволяющий судить о сходстве и различиях в дисперсиях случайных величин, называется критерием Фишера.
Корреляционный анализ
В самом общем виде под значением «корреляция» понимается взаимная связь. Хотя, говоря о корреляции, используют также термины «корреляционная связь» и «корреляционная зависимость», которые часто используются как синонимы.
Под корреляционной связью понимают согласованные изменения двух или большего количества признаков, т.е. изменчивость одного признака находится в некотором соответствии с изменчивостью другого.
Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.
Таким образом, согласованные изменения признаков и отражающая это корреляционная связь между ними может свидетельствовать не о зависимости этих признаков между собой, а о зависимости обоих этих признаков от какого-то третьего признака или сочетания признаков, не рассматриваемых в исследовании.
Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной связи, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого, но находится ли причина изменений в одном из признаков или она оказывается за пределами исследуемой пары признаков, неизвестно.
В целом, при корреляционном анализе стараются установить, существует ли статистическая взаимосвязь между двумя показателями (переменными) в одной выборке или между двумя различными выборками, и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием или уменьшением другого. При этом в большинстве случаев трудно определить, что в рассматриваемой паре признаков является независимой, а что зависимой переменной.