Пример 7.4.3. Различия в результатах Т-критерия Стьюдента критерия Вилкоксона
В предыдущем примере, при сравнении двух связанных выборок с помощью Т-критерия Стьюдента и критерия Вилкоксона эти два метода давали достаточно согласованные результаты. Однако, на практике, нередко возникают ситуации, когда эти два критерия "расходятся во мнениях" и дают противоречивые результаты. Рассмотрим пример, в котором наблюдается такое расхождение.
Файл affective_disorders.sav содержит смоделированные данные результатов исследования, направленного на изучение эмоционального состояния у больных, страдающих от аффективных расстройств, до и после медикаментозного лечения новым препаратом. Основным измеряемым параметром был интегральный показатель эмоционального состояния, измеренного с помощью Методики самооценки эмоциональных состояний А.Уэссмана и Д.Рикса[6].
Низкие показатели соответствуют отрицательному эмоциональному фону (полюс депрессии), высокие --- положительному эмоциональному фону (полюс эйфории). Измерение эмоционального состояний проводилось два раза --- до и после проведения курса медикаментозного лечения.
Первый столбец представляет собой показатель эмоционального состояния больных до лечения, второй столбец содержит оценки эмоционального состояния больных после лечения.
Расчеты, проведенные с помощью SPSS, показывают, что среднее значение показателя эмоционального состояния до лечения составило 20.28 баллов при стандартном отклонении 5.01, а после лечения --- 21.58 балла при стандартном отклонении 1.12 (значения округлены до второго знака после запятой). Значение Т-статистики составило в данном случае t(51)=-1.852, уровень значимости p=0.07. Расчет критерия Вилкоксона показывает, что эмоциональное состояние больных улучшилось в 28 случаях из 52, значения критерия составляет -1.994 и оказывается значимым на уровне p=0.046.
Таким образом, в данном примере два критерия демонстрируют различные показатели: Т-критерий Стьюдента свидетельствует о незначимости изменений эмоционального состояния, в то время как значение критерия Вилкоксона, напротив, говорит о значимости этих различий. Чтобы разобраться в этой ситуации, исследуем распределение имеющихся у нас данных.
Рассудить, какой из критериев в данном случае более пригоден, можно с помощью анализа распределения разностей сравниваемых переменных. Мы рассчитали новую переменную --- разность показателей эмоционального состояния до и после решения. На рис. 7.4.1 представлена гистограмма распределения этой переменной.
Рис. 7.4.1. Гистограмма распределения разностей показателей эмоционального состояния в двух срезах.
Распределение разностей, как видно на графике, совсем не похоже на нормальное. В главе 7.1 мы отмечали, что Т-критерий Стьюдента требует нормальности распределения разностей, в то время как критерий Вилкоксона таких ограничений не накладывает, он требует только симметричности распределения. Исходя из этого, в данном случае имеет смысл при формулировке выводов опираться, скорее, на результаты расчетов непараметрического критерия Вилкоксона и сделать вывод о значимости различий уровня эмоционального состояния в двух связанных выборках.
Мы можем дать следующую общую рекомендацию по использованию двух критериев: имеет смысл рассчитывать их оба. В случае, если они дают схожие результаты, можно уверенно говорить о значимом или незначимом (в зависимости от этого результата) различии двух выборок. В случае расхождения результатов двух критериев стоит внимательнее исследовать распределения исходных данных. Если гистограмма похожа на гистограмму нормального распределения, то можно предпочесть обычно более высокий (т.е. утверждающий большую достоверность вывода) результат Т-критерия. Если гистограмма не похожа на гистограмму нормального распределения, но симметрична, то можно доверять критерию Вилкоксона, если несимметрична, то однозначных рекомендаций дать мы не можем.
Заметим еще, что подробный анализ распределений может натолкнуть и на важные содержательные идеи. Построим диаграмму рассеяния показателей эмоционального состояния до и после лечения. Такой график представлен на рис. 7.4.2.
Рис. 7.4.2. Диаграмма рассеяния. Эмоциональное состояние испытуемых до и после лечения
Как видно из графика, все испытуемые делятся на две достаточно отчетливые группы: те, кто продемонстрировали некоторое снижение эмоционального состояния в результате лечения (вверху) и те, которые показали некоторое улучшение эмоционального состояния (внизу). В целом, испытуемые после лечения в значительной степени выровнялись по уровню эмоционального состояния, о чем также свидетельствует значительное снижение стандартного отклонения во втором срезе (1.12) по сравнению с первым (5.11), что выражается в значительно меньшем разбросе по оси X, чем по оси Y.
Исследователям имеет смысл продумать, не является ли снижение показателя с уровня эйфории до более умеренного позитивного эмоционального состояния положительным изменением. В этом случае теоретическую гипотезу о положительном воздействии препарата надо переформулировать в более тонкую эмпирическую гипотезу, связанную с нормализацией состояния, а не только с повышением среднего балла, поскольку повышение показателя имеет разный смысл на разных участках шкалы.
Для сравнения приведем график рассеяния двух сравниваемых параметров и гистограммы их разностей из примера 7.4.1 (рис. 7.4.3 а и б).
Рис. 7.4.3. а) График рассеяния времени реакции в двух экспериментальных условиях. б) Гистограмма распределения разности времени реакции в двух экспериментальных условиях (из примера 7.4.1).
На приведенных графиках видно, что, в отличие от обсуждаемого примера, в примере 7.4.1 гистограмма распределения данных похожа на гистограмму нормального распределения. В этом случае следует предпочесть Т-критерий.
Далее мы предлагаем читателю самостоятельно выполнить несколько заданий, в которые демонстрируют различные ситуации расхождения результатов двух обсуждаемых критериев.
Задание 7.4.4.
В файле training_anxiety.sav представлены смоделированные результаты исследования, цель которого заключалась в оценке эффективности созданного тренинга, направленного на понижение тревожности. Для этой оценки у испытуемых --- участников тренинга --- измерялся уровень тревожности помощью методика измерения уровня тревожности Тейлора в адаптации Т.А. Немчинова[7]. Замер уровня тревожности проводился дважды --- перед тренингом и после тренинга. Предполагалось, что в случае эффективности тренинга этот показатель должен понижаться во втором замере.
Первый столбец в файле данных содержит оценки уровня коммуникативных навыков испытуемых до тренинга, второй столбец --- оценки после тренинга.
· Проведите сравнение оценок уровня тревожности до и после тренинга с помощью t-критерия Стьюдента для связанных выборок и критерия Вилкоксона и сопоставить полученные статистические показатели.
· В случае расхождения показателей двух критериев, проанализировать распределение данных с помощью гистограмм и предложить вариант объяснения источника расхождений.