V. Проверка статистических гипотез, критерий Стьюдента
В научно-исследовательской практике часто требуется сопоставить средние арифметические, например, при сравнении результатов в контрольной и экспериментальной группах, при оценке показателей здоровья населения в различных местностях за несколько лет и т. д.
Методологической основой любого исследования является формулировка рабочей гипотезы. При этом основной целью исследования является получение данных, на основании которых выдвинутую еще до начала исследования (априори) гипотезу можно было бы принять, т.е признать истинной, либо отвергнуть - признать ложной.
Выдвинутую гипотезу называют основной или нулевой (H0). Гипотезу, которая противоречит нулевой и является ее логическим отрицанием, называют конкурирующей или альтернативной (H1).
Гипотезы H0 и Н1 предоставляют выбор только одного из двух вариантов. Например, если нулевая гипотеза предполагает, что среднее арифметическое М = 15, то логическим отрицанием будет М ≠ 15. Коротко это записывается так: H0: М=15; Н1: М≠15. В медико-биологических исследованиях при сравнении регистрируемых признаков в качестве нулевой гипотезы принимают гипотезу об отсутствии различий.
Например, при оценке токсичности какого-либо вещества обычно берутся две группы лабораторных животных. Подбираются животные одинакового возраста, пола, одинакового содержания и т. п. Таким образом, делается все, чтобы эти группы животных представляли собой единую, как можно более однородную статистическую совокупность, с тем, чтобы максимально снизить исходную вариабельность анализируемых данных. Оптимальным с этой точки зрения считается ситуация, когда отличия сравниваемых групп заключаются только в том, что одна из групп (опытная) подвергается воздействию токсического вещества, а другая (контрольная) - нет. В любом случае, произошли ли после воздействия токсического вещества изменения в опытной группе или нет, различия средних показателей в обеих группах обязательно будут. Вопрос состоит в следующем: являются ли эти различия только следствием выборочного исследования, или разница возникла из-за того, что произошли существенные сдвиги физиологических функций животных опытной группы, которые будут обнаруживаться всегда, т.е. в генеральной совокупности. Значит, проверяется вопрос: принадлежат ли животные опытной и контрольной групп к той же самой генеральной совокупности или опытная группа принадлежит к другой генеральной совокупности (совокупности с измененными физиологическими параметрами)?
Методы оценки достоверности различий средних величин позволяют установить, насколько выявленные различия существенны (носят ли они закономерный характер или являются результатом действия случайных причин). Эту оценку можно выполнить только с определенной степенью вероятности, когда после установленного уровня вероятности допущение о наличии различий могут считаться закономерными или, наоборот, отвергаются.
Выдвинутая гипотеза может оказаться правильной или неправильной. При ее статистической проверке может быть отвергнута правильная гипотеза. Вероятность совершить такую ошибку называют уровнем значимости. Этот параметр принято обозначать через α или p. В биологии и медицине уровень значимости, как правило, принимают не выше 0,05. Это означает, что в 5 случаях из 100 (в 5%) мы рискуем отвергнуть правильную гипотезу. Соответственно, вероятность принятия такой гипотезы (P) равняется (P = 1 ‑ p) 0,95 (или 95%.)
Таким образом, статистическая значимость выборочных характеристик представляет собой меру уверенности в их «истинности». Уровень значимости находится в убывающей зависимости от надежности результата. Более высокая статистическая значимость соответствует более низкому уровню доверия к найденной в выборке средней величине. Именно уровень значимости представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность.
Выбор порога уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, во многом произвольный. Как правило, окончательное решение обычно зависит от традиций и накопленного практического опыта в данной области исследований. Верхняя граница p<0,05 статистической значимости содержит довольно большую вероятность ошибки (5%). Поэтому в тех случаях, когда требуется особая уверенность в достоверности полученных результатов, принимается значимость p<0,01 или даже p<0,001.
В практике медико-биологических исследований наиболее часто используются следующие значения показателей значимости: 0,1; 0,05; 0,01; 0,001. Традиционная интерпретация уровней значимости, принятая в этих исследованиях, представлена в таблице 21.
Таблица 21
Интерпретация уровня значимости (p).
Величина уровня значимости (p) | Интерпретация |
≥0,1 | Данные согласуются с нулевой гипотезой (H0), различия не подтверждены |
≥0,05 | Есть сомнения в истинности как нулевой (H0), так и альтернативной гипотез (H1) |
<0,05 | Нулевая гипотеза (H0) может быть отвергнута. |
≤0,01 | Нулевая гипотеза (H0) может быть отвергнута. Сильный аргумент |
≤0,001 | Нулевая гипотеза (H0) наверняка не подтверждается. Очень сильный аргумент |
Приблизительно о наличии достоверных различий между средними величинами можно судить по их доверительным границам. Если они имеют пересечение верхней границы одного из интервалов и нижней границы 2-го, можно предположить, что полученная разница средних является случайной и может не повториться в следующих экспериментах с вероятностью, которая использовалась при вычислении этих границ (как правило, 95%).
Если изучаемый признак подчиняется закону нормального распределения Гауса, может использоваться расчет критерия достоверности Стьюдента (t) (коэффициента достоверности). Величина этого коэффициента определяется модулем отношения разности сравниваемых средних величин к ошибке их разности. Ошибка разности равна корню квадратному из суммы квадратов средних ошибок сравниваемых величин: .
Таким образом, коэффициент достоверности (t) определяется по формуле:
,
где: M1 – средняя арифметическая 1-го вариационного ряда,
M2 – средняя арифметическая 2-го вариационного ряда,
m1 – ошибка репрезентативности 1-го вариационного ряда,
m2 – ошибка репрезентативности 2-го вариационного ряда.
Для сравнения относительных величин (показателей) применяется модифицированная формула:
где: P1 – относительная величина (показатель) 1-й группы;
P2 – относительная величина (показатель) 2-й группы;
m1 – ошибка репрезентативности 1-го показателя;
m2 – ошибка репрезентативности 2-го показателя.
При этом ошибка репрезентативности относительной величины может быть вычислена по формуле:
,
где: Р– величина относительного показателя;
q – величина, обратная Р и вычисленная как (1-Р), (100-Р), (100-Р) и т. д., в зависимости от основания, на которое рассчитан показатель;
n – число наблюдений.
В медико-биологических исследованиях, где число наблюдений больше 30, допускается использовать сравнение вычисленного значения t с критическим значением 2. Если t-критерий больше 2, тогда выявленные различия считаются закономерными (не случайными, достоверными), т.е. они статистически подтверждены с вероятностью более 95%. Если значение критерия меньше 2, то разница не доказана и носит случайный характер, статистически не подтверждается (вероятность менее 95%). При меньшем числе наблюдений значение критического уровня для сравнения с расчетным значением t-критерия необходимо искать в книгах с таблицами Стьюдента или вычислять в статистической компьютерной программе.