Сравнение средних в системе SPSS Base
Вряд ли можно встретить исследования в юриспруденции, где бы не потребовалось обнаружить и доказать изменение или, напротив, стабильность значения какого-либо статистического показателя под влиянием тех или иных факторов, но не всегда выполняется оценка статистической значимости этого изменения или стабильности. В то же время выполнить такой анализс помощью программыSPSS Base, содержащей процедуру “анализ средних”, не представляет трудности.
Ниже после краткого теоретического введения будет приведен ряд примеров, которые покажут практическую важность статистической оценки различия средних.
Гипотезы, построенные на основе анализа средних, проверяются на различном уровне обоснованности, начиная с простого сопоставления и заканчивая детальной проверкой статистической значимости различий. Основой сравнения средних является понятие доверительного интервала для разности средних, который при статистически значимом их различии не должен включать в себя нуль.
В первом приближении это означает, что доверительные интервалы для сравниваемых средних не должны перекрываться. А поскольку программы статистического анализа позволяют находить доверительные интервалы и строить ящичковые диаграммы Тьюки, то уже по ним можно визуально приближенно оценить уровень значимости различия средних. Так, из ящичковых диаграмм, представляющих распределение зарегистрированных преступлений по федеральным округам РФ в 1990 и 2009 гг. (рис. 2), хорошо видно, что не только медианы распределений этого показателя заметно различаются, но отличие выходит за пределы междуквартильного разброса («ящичка»), тогда как распределения показателя в 2000 и 2009 гг. не демонстрируют такого различия.
а | б |
Рис. 2. Распределение зарегистрированных преступлений по федеральным округам РФ (на 100 тыс. населения): а – 1990 и 2009 гг.; б – 2000 и 2009 гг. |
При более строгом подходе к сравнению средних необходимо различать по крайней мере три типовых случая. Проверяются следующие статистические гипотезы:
1. Различаются ли средние некоторой переменной, вычисленные в разных подгруппах наблюдений (t-критерий для независимых выборок);
2. Различаются ли средние двух переменных, вычисленные для одной группы наблюдений (t-критерий для парных выборок);
3. Отличается ли среднее отдельной переменной от некоторой заданной величины (одновыборочный t-критерий).
Из теории статистики известно, что любая статистическая гипотеза есть утверждение или предположение о параметрах генеральной совокупности. Обычно вначале выдвигают нулевую гипотезу (отсутствие различий, эффекта и т.п.) с тем, чтобы попытаться ее отвергнуть с учетом имеющейся информации (достаточно общий подход; примерно то же мы наблюдаем, например, в юриспруденции, где принята так называемая “презумпция невиновности”).
При решении первой задачи (различаются ли средние некоторой переменной, вычисленные в двух подгруппах наблюдений) нулевая гипотеза формулируется так:
H0: m1 = m2, (1)
где m1 и m2 – генеральные средние двух подвыборок, т.е. два выборочных средних получены из совокупностей с одинаковыми средними. Предполагается, что переменная имеет нормальное распределение, причем не обязательно с равными дисперсиями в подвыборках. Рассчитывается t-критерий, равный отношению разности средних к оценке ее стандартной ошибки (напомним, что стандартная ошибка среднего равна среднеквадратическому отклонению, иначе называемому стандартным отклонением, деленному на квадратный корень из объема выборки:
s[ ] = s/ ).
Формулы несколько отличаются в зависимости от того, объединяются или нет дисперсии подвыборок:
при объединении дисперсий, т.е. в случае их равенства (в статистическом смысле)
, (2)
где объединенная дисперсия
; (3)
при “раздельных” дисперсиях (равенства дисперсий не предполагается)
, (4)
Здесь – среднее группы i; – число наблюдений в группе i; – выборочная дисперсия в группе i. Формулы (2)-(4) – для двустороннего критерия; чтобы получить вероятности одностороннего критерия, следует полученное значение р-уровня разделить на 2.
В качестве примера применения t-критерия для независимых выборок сравним средние для переменной “Уровень экономической активности мужского населения в 2009 г., %” для регионов Центрального Нечерноземья (ЦР) и Центрального Черноземья (ЦЧ) – см. табл. 4.
Таблица 4
Групповые статистики переменной “Уровень экономической активности мужского населения в 2009 г., %”
Код | N | Среднее | Стд. отклонение | Стд. ошибка среднего | |
Уровень экономической активности мужчин в 2009 г., % | ЦР | 72,808 | 2,8366 | 0,8189 | |
ЦЧ | 70,640 | 1,5076 | 0,6742 |
Из данных табл. 4 следует, что средние по регионам ЦР и ЦЧ заметно отличаются: при m1=78,808 и m2=70,640 их разность составляет m1-m2=2,168. Сумма стандартных ошибок средних равна 0,8189+0,6742=1,4934, что меньше разности средних, однако эту величину следует увеличить примерно вдвое, чтобы выйти на уровень статистической значимости 5% (коэффициент доверия составляет величину около 2 для доверительной вероятности 0,95), что составит 2´1,4934=2,9862. Разность средних находится между этими двумя значениями, следовательно, можно рассчитывать на статистическую значимость различий этих двух экономико-географических районов по анализируемой переменной “Уровень экономической активности мужского населения” на уровне надежности меньше 95%, но больше 67% (этой величине соответствует коэффициент доверия 1). Точного решения мы в данном случае дать не можем, это лишь грубая “прикидка”.
Точный расчет дает обращение к процедуре “Compare Means” программы SPSS Base (табл. 5): величина t-критерия для независимых выборок значима на уровне 0,021 в предположении равенства дисперсий и на уровне 0,103 в предположении их неравенства.
Остается нерешенным – какое из предположений справедливо? Ответ на этот вопрос дает обращение к критерию равенства дисперсий Ливиня. Он применяется для того, чтобы определить, различается ли разброс переменной в сравниваемых подвыборках. Нулевая гипотеза в данном случае следующая: дисперсии двух совокупностей равны. Если вычисленный уровень значимости меньше нормативного значения 0,05, то для сравнения средних следует использовать t-критерий с раздельными дисперсиями.
Таблица 5
Групповые статистики переменной “Уровень экономической активности мужского населения в 2009 г., %”
Критерий равенства дисперсий Ливиня | t-критерий равенства средних | ||||||||
F | Знч. | t | Ст. св. | Знч. (2-сторон) | Средняя разность | Стд. ошибка разности | 95% доверительный интервал разности | ||
нижняя граница | верхняя граница | ||||||||
Предполагается равенство дисперсий | 7,204 | 0,017 | 1,597 | 0,131 | 2,168 | 1,3578 | -0,7257 | 5,0624 | |
Равенство дисперсий не предполагается | 2,044 | 13,680 | 0,061 | 2,168 | 1,0607 | -0,1117 | 4,4484 |
Поскольку при величине статистики F=7,204 критерий Ливиня показывает значимость 0,017 (табл. 5), т.е. меньше чем 0,05, гипотезу о равенстве дисперсий следует отвергнуть. В этом случае мы должны принять следующее решение: различие средних значимо на уровне 0,061. Это означает, что надежность вывода о том, что уровень экономической активности мужского населения в регионах Центральной России в среднем больше по сравнению с аналогичным показателем в регионах Центрального Черноземья, составляет менее 94%, и эту гипотезу следует отклонить.
Аналогичный вывод можно сделать, оценив стандартную ошибку разности средних. Согласно табл. 5, эта величина равна 1,0607, а 95%-й интервал составляет (-0,1117; 4,4484) и включает в себя нуль. Отсюда заключаем, что разность средних на традиционно принимаемом уровне значимости 0,05 не является статистически значимой.
Часто исследователь сталкивается несколько с иной ситуацией, когда на одной и той же выборке наблюдается две переменные, измеряющие один и тот же признак, но относящиеся, например, к разным моментам времени. В этих случаях для сравнения средних используется t-критерий для парных выборок. Пары наблюдаемых значений могут возникать по крайней мере тремя способами. Во-первых, можно делать два измерения у одного статистического объекта (сравниваются средние для двух переменных). Во-вторых, можно измерять одну и ту же переменную дважды – до и после какого либо воздействия. В-третьих, можно измерять одну и ту же случайную величину (признак) в парной выборке, т.е. у пар статистических объектов, выбранных из-за их сходства по отношению к цели измерений, благодаря чему достигается возможность контроля над внешними факторами.
Именно этот случай был рассмотрен выше на рис. 2.
Теория статистических выводов здесь проста: поскольку выборка одна и известны сравниваемые пары, то вычисляются разности di для каждой статистической единицы (наблюдения), а затем к этой случайной величине применяют обычный t-критерий для обнаружения значимости отличия среднего значения от нуля. Расчетная формула для t-критерия может быть представлена так:
t = , (5)
где SD – стандартное отклонение разностей; n – объем выборки.
В табл. 6, полученной с помощью процедуры “Compare Means” программы SPSS Base, представлены статистики парных выборок для двух переменных – “Уровень экономической активности населения в регионах ЦФОв 2009 г., %” и “Уровень экономической активности населения в регионах ЦФОв 2000 г., %” В выборку включены все регионы ЦФО, включая г. Москву.
Таблица 6
Статистики парных выборок переменных “Уровень экономической активности населения в регионах ЦФОв 2009 г., %” и “Уровень экономической активности населения в регионах ЦФОв 2000 г., %”
Среднее | N | Стд. отклонение | Стд. ошибка среднего | ||
Пара 1 | Уровень экономической активности населения в регионах ЦФОв 2000 г. | 64,961 | 2,2791 | 0,5372 | |
Уровень экономической активности населения в регионах ЦФОв 2009 г. | 66,972 | 2,9233 | 0,6890 |
Если исходные данные рассматривать как независимые выборки, тогда различие средних 64,961-66,972=-2,011 будет, скорее всего, статистически незначимым, поскольку удвоенная сумма стандартных ошибок средних, составляющая 2´(0,5372+0,6890)=2,4524, больше разности средних. Однако зависимость выборок усиливает значимость различия средних. Действительно, из табл. 7 “Критерий парных выборок” видно, что значимость парной разности гораздо выше – менее 0,0005. (Обратим внимание на то, что и здесь доверительный интервал разности не включает в себя нуль.)
Таблица 7
Критерий парных выборок (переменные “Уровень экономической активности населения в регионах ЦФОв 2000 и 2009 гг., %”)
Парные разности | t | Ст. св. | Знч. (2-сторон) | |||||
Среднее | Стд. отклоне-ние | Стд. ошибка среднего | 95% доверительный интервал разности | |||||
нижняя граница | верхняя граница | |||||||
Уровень экономической активности населения в ЦФОв 2000 и 2009 гг. | -2,011 | 1,9596 | 0,4619 | -2,986 | -1,037 | -4,354 | 0,000 |
Заметим, что критерий парных выборок значительно чувствительнее t-критерия для независимых выборок. Это и понятно, поскольку при вычислении критерия парных выборок использована дополнительная информация. При этом, чем больше корреляция между переменными (в рассматриваемом случае коэффициент линейной корреляции R=0,743), тем эффективнее парные выборки по сравнении с независимыми. Вывод информации о силе этой связи предусмотрен процедурой “Compare Means” программы SPSS Base (см. табл. 8).
Таблица 8
Корреляции парных выборок (переменные “Уровень экономической активности населения ЦФОв 2000 и 2009 гг., %”)
N | Корреляция | Знч. | ||
Пара 1 | Уровень экономической активности населения ЦФОв 2000 и 2009 гг. | 0,743 | 0,000 |
Как следует из табл. 8, выборочный коэффициент корреляции, равный 0,743, значим на уровне не хуже 0,0005 и отвечает сильной связи рассматриваемых показателей по регионам ЦФО. Отчасти поэтому столь существенной оказалась статистическая значимость различия средних. В содержательном плане этот результат может быть проинтерпретирован как заметный рост экономической активности населения в регионах ЦФОв 2009 г. по отношению к уровню 2000 года.
Третий типовой случай – одновыборочный t-критерий – отвечает на вопрос: отличается ли среднее отдельной переменной от некоторой заданной величины? В теоретическом плане это самый простой вариант статистического вывода. Формулируется нулевая гипотеза:
H0: m - а = 0, (6)
где а – некоторое заданное значение измеряемой случайной величины. Эта разность играет роль величины в формуле (5) для парного t-критерия. Для расчета t-критерия используется формула вида (5), где вместо SD (стандартного отклонения разностей) фигурирует sx – выборочное стандартное отклонение переменной:
t = . (7)
В формуле (7), как и ранее, n – объем выборки.
Продолжим рассмотренный ранее пример для иллюстрации этого типа сравнения средних. Уровень экономической активности населения в 2009 году в среднем по России составил 67,8% (так называемое “тестовое значение”). Сравним с этим тестовым значением аналогичный показатель по ЦФО. Как и ранее, воспользуемся процедурой “Compare Means” программы SPSS Base.
В табл. 9 приведены одновыборочные статистики переменной “Уровень экономической активности населения в регионах ЦФОв 2009 г.”, а в табл. 10 – одновыборочный критерий для этой переменной.
Таблица 9
Одновыборочные статистики переменной “Уровень экономической активности населения в регионах ЦФОв 2009 г., %”
N | Среднее | Стд. отклонение | Стд. ошибка среднего | |
Уровень экономической активности населения в регионах ЦФОв 2009 г., % | 66,972 | 2,9233 | 0,6890 |
Как следует из табл. 9 и 10, средняя величина анализируемого показателя меньше российского “стандарта”, но ненамного, всего на 0,8% (67,0 против 67,8%). Этого различия недостаточно, чтобы отвергнуть нулевую гипотезу о равенстве уровня экономической активности населения в 2009 г. в среднем по стране и по регионам ЦФО. Этот вывод подтверждает и очевидный факт включению нуля в 95%-й доверительный интервал (-2,281; 0,626) для средней разности между значениями переменной и “тестового значения”.
Таблица 10
Одновыборочный критерий для переменной “Уровень экономической активности населения в регионах ЦФОв 2009 г., %”
Тестовое значение = 67,8 | ||||||
t | Ст. св. | Знч. (2-сторон) | Средняя разность | 95% доверительный интервал разности | ||
нижняя граница | верхняя граница | |||||
Уровень экономической активности населения в регионах ЦФОв 2009 г., % | -0,201 | 0,246 | -0,828 | -2,281 | 0,626 |
Вернемся к представленному на рис. 2 примеру сравнения распределения числа зарегистрированных преступлений по федеральным округам РФ в различные годы. Здесь мы имеем случай парных выборок, поскольку одни и те же статистические объекты – федеральные округа – рассматриваются в разные промежутки времени. Сравнивая криминальную ситуацию 1990 и 2009 гг., получаем следующие статистики парных выборок – табл. 11.
Таблица 11
Статистики парных выборок переменных “Число зарегистрированных преступлений на 100 тыс. населения в 1990 г.” и “ Число зарегистрированных преступлений на 100 тыс. населения в 2009 г.”
Среднее | N | Стд. отклонение | Стд. ошибка среднего | ||
Пара 1 | Число зарегистрированных преступлений на 100 тыс. населения в 1990 г. | 1288,00 | 267,195 | 100,990 | |
Число зарегистрированных преступлений на 100 тыс. населения в 2009 г. | 2148,43 | 479,047 | 181,063 |
Между этими переменными наблюдается статистически значимая сильная корреляция – табл. 12.
Таблица 12
Корреляции парных выборок (переменные “Число зарегистрированных преступлений на 100 тыс. населения в 1990 г.” и “ Число зарегистрированных преступлений на 100 тыс. населения в 2009 г.”)
N | Корреляция | Знч. | ||
Пара 1 | Число зарегистрированных преступлений на 100 тыс. населения в 1990 и 2009 гг. | 0,763 | 0,046 |
Основной результат сравнения средних представлен в табл. 13.
Из этой таблицы следует, что разность средних -860,43 по абсолютному значению более чем в 7 раз превосходит стандартную ошибку среднего 122,840, и на этом основании эта разность признается статистически значимой (на уровне не хуже 0,0005).
Таблица 13
Критерий парных выборок (переменные “ Число зарегистрированных преступлений на 100 тыс. населения в 1990 г.” и “ Число зарегистрированных преступлений на 100 тыс. населения в 2009 г.”)
Парные разности | t | Ст. св. | Знч. (2-сторон) | |||||
Среднее | Стд. отклоне-ние | Стд. ошибка среднего | 95% доверительный интервал разности | |||||
нижняя граница | верхняя граница | |||||||
Число зарегистрированных преступлений на 100 тыс. населения в 1990 и 2009 гг. | -860,43 | 325,005 | 122,840 | -1161,01 | -559,85 | -7,004 | 0,000 |
Статистическая значимость разности средних подтверждается также тем, что 95%-й доверительный интервал разности (-1161,01; -559,85) не включает в себя нуль.
Таким образом, нулевая гипотеза о равенстве средних отвергается и принимается альтернативная гипотеза: уровень преступности в 2009 году в целом по РФ выше уровня преступности 1990 года.
Иначе обстоит дело в случае сравнения уровня преступности в 2009 году с 2000 годом – табл. 14-16.
Таблица 14
Статистики парных выборок переменных “Число зарегистрированных преступлений на 100 тыс. населения в 2000 г.” и “ Число зарегистрированных преступлений на 100 тыс. населения в 2009 г.”
Среднее | N | Стд. отклонение | Стд. ошибка среднего | ||
Пара 1 | Число зарегистрированных преступлений на 100 тыс. населения в 2000 г. | 2108,86 | 462,220 | 174,703 | |
Число зарегистрированных преступлений на 100 тыс. населения в 2009 г. | 2148,43 | 479,047 | 181,063 |
Между этими переменными также наблюдается статистически значимая сильная корреляция – табл. 15.
Таблица 15
Корреляции парных выборок (переменные “Число зарегистрированных преступлений на 100 тыс. населения в 2000 г.” и “ Число зарегистрированных преступлений на 100 тыс. населения в 2009 г.”)
N | Корреляция | Знч. | ||
Пара 1 | Число зарегистрированных преступлений на 100 тыс. населения в 2000 и 2009 гг. | 0,895 | 0,006 |
Основной результат сравнения средних представлен в табл. 16.
Таблица 16
Критерий парных выборок (переменные “ Число зарегистрированных преступлений на 100 тыс. населения в 2000 г.” и “ Число зарегистрированных преступлений на 100 тыс. населения в 2009 г.”)
Парные разности | t | Ст. св. | Знч. (2-сторон) | |||||
Среднее | Стд. отклоне-ние | Стд. ошибка среднего | 95% доверительный интервал разности | |||||
нижняя граница | верхняя граница | |||||||
Число зарегистрированных преступлений на 100 тыс. населения в 2000 и 2009 гг. | -39,57 | 215,969 | 81,629 | -239,31 | 160,17 | -0,485 | 0,645 |
Как следует из табл. 16, среднее парных разностей -39,57 по абсолютной величине меньше стандартной ошибки среднего 81,629, t-критерий по абсолютной величине меньше единицы (t=-0,485) и статистически незначим (р=0,645 больше нормативного значения 0,05). Статистическая незначимость разности средних подтверждается также тем, что 95%-й доверительный интервал разности (-239,31; 160,17) включает в себя нуль.
Таким образом, принимается нулевая гипотеза о равенстве средних: уровень преступности в 2009 году в целом по РФ не отличается от уровня преступности 2000 года.
Более сложным является сравнение средних двух подвыборок не по одной, а одновременно по нескольким переменным. В простейшем случае используются те же приемы, но при расчете уровня статистической значимости необходимо провести корректировку Бонферрони, т.е. умножить вероятность каждого критерия на общее число сравнений. Корректировку следует проводить до того, как будет вычислен доверительный интервал, т.е., задавая уровень значимости a, следует разделить его значение на число сравнений. Так, если принимается “стандартное” значение a=0,05 и число сравнений 5, то при вычислении доверительных интервалов задается уровень 0,05/5=0,01, т.е. не 95%-й, а 99%-й интервал.
В пакете SPSS Base предусмотрены и другие методы множественного сравнения, в частности, метод Шеффе, Стьюдента-Ньюмана-Келса (S-N-K) и Дункана. Последние два критерия авторами руководства по применению пакета SPSS не рекомендуются к использованию, что касается метода Шеффе, то он позволяет выполнить проверку не только различий средних, но и любых их комбинаций (метод контрастов).