T-тест для зависимых выборок
t-тест для двух зависимых выборок используют, чтобы проверить, различаются ли два столбца чисел с точки зрения среднего значения при условий, что числа в двух столбцах образуют пары. Такая ситуация возникает, например, в исследованиях типа “до/после”, где рассматривается результат измерения некоторой величины (оценки в результате тестирования или рейтинга) для каждого объекта как до, так и после некоторого вмешательства (например, просмотр рекламы, проведение лечения, регулировка прибора и т.п.).
Фактически вам уже известно, как выполнить t-тест для зависимых выборок, поскольку его можно свести к известной нам проверке для одной выборки. Для этого нужно перейти к работе с разностями (например, из значения “после” вычесть значение “до”), вместо того, чтобы работать с каждой выборкой отдельно. Главное, чтобы четко было видно, как объединяются значения в двух выборках в пары. Иначе будет неясно, для каких пар вычислять разность.
Недостаточно иметь средние и стандартные отклонения для каждой из этих двух групп. В таком случае мы не учитываем информацию, привнесенную тем фактом, что наблюдения объединены в пары. Поэтому мы будем работать со средним и стандартным отклонением разностей.
t-тест для зависимых выборок может быть очень эффективен, даже если значения в группах сильно отличаются друг от друга. Поскольку эта проверка концентрируется на изменениях, она может игнорировать (потенциально сбивающую с толку) вариацию на уровне отдельных объектов. Например, отдельные личности могут быть совершенно разными, а анализируемые для них изменения — подобными (например, каждый получает прибавку в $100). Выявляя систематические изменения, t-тест для зависимых выборок не отвлекается на изменчивость признаков для отдельных объектов в выборках.
Корректное использование t-теста для зависимых выборок требует выполнения некоторых условий. Первое условие заключается в том, что изучаемые нами объекты представляют собой случайную выборку, извлеченную из изучаемой генеральной совокупности. Каждому объекту соответствуют два измерения признака. Далее, рассматривают набор данных, состоящий из разностей между этими двумя наборами измерений признака. Второе условие заключается в том, что эти разности распределены (по крайней мере приблизительно) нормально.
Пример. Реакция на рекламу
Необходимо определить эффективность рекламы в плане создания ею настроения расслабленности (релаксации). Выборку из 15 человек опросили до и после просмотра рекламного ролика. Вопросник включал много пунктов, в одном из которых респондентов просили описать свое состояние по шкале от 1 (напряженное состояние) до 5 (полностью расслабленное состояние). Результаты опроса приведены в табл. 10.6.1 (обратите внимание, что средняя оценка расслабленности увеличивается на 0,67, от 2,8 перед просмотром до 3,47 после просмотра).
Задача выглядит как сравнение двух выборок, но это не так. В действительности это задача, связанная с анализом изменений оценок расслабленности в одной выборке. Например, респондент №1 изменил оценку своей расслабленности с 3 на 2, т.е. для него изменение оценки расслабленности равно -1. (Обычно вычисляют разность между оценкой "после" и оценкой "до", и таким образом увеличение оценки представляют положительным числом, а уменьшение — отрицательным). Вычислив разность для каждого респондента, мы перейдем к знакомой нам задаче для одной выборки (табл. 10.6.2).
Нам известно, как решать такую задачу для одной выборки. Находим по таблице t-значение для двустороннего интервала (2,145) и, учитывая, что среднее выборки =0,6667, а стандартная ошибка = 0,2702, делаем вывод.
Мы на 95% уверены, что среднее изменение оценки расслабленности для большей генеральной совокупности находится в пределах от 0,087 до 1,25.
Чему в данном случае равно заданное значение µ0 ? Здесь µ0 = 0, потому что равное нулю значение изменения свидетельствует об отсутствии влияния просмотра рекламы на расслабленность в генеральной совокупности. Проверка гипотезы состоит просто в том, чтобы определить, попадает заданное значение µ0= 0 в пределы доверительного интервала или нет. В нашем случае не попадает, а, следовательно, результат является значимым. Таким образом, если исходить из имеющихся данных, то "0" не является приемлемым значением для изменения расслабленности в генеральной совокупности.
Просмотр рекламы значимо увеличивает расслабленность (р < 0,05, двусторонняя проверка).
В данном случае необходимо двусторонняя проверка, потому что нас также интересует, не вызвала ли реклама значимого снижения расслабленности. Определив значимость с помощью двустороннего теста, можно сделать и одностороннее заключение.
Дня полноты картины приведем формулировки гипотез. Нулевая гипотеза H0:µ = 0 утверждает, что среднее значение изменения между оценками расслабленности "до просмотра" и "после просмотра" в генеральной совокупности равно нулю, т.е. нет изменения средней оценки расслабленности. Альтернативная гипотеза Н1: µ ≠ 0 утверждает, что есть изменение средней расслабленности между "до просмотра" и "после просмотра."
Такие же результаты могут быть получены с использованием парного двухвыборочного t – теста для средних, входящего в библиотеку программ надстройки «Анализ данных». Соответствующий фрагмент приведен ниже.
t-тест для независимых выборок
t-тест для двух независимых выборок используют, чтобы установить, существует ли различие средних для двух независимых столбцов чисел. Значения в этих двух столбцах нельзя естественным образом объединить в пары. Например, имеются данные о фирмах в двух промышленных группах или необходимо сравнить выборки, взятые из продукции двух различных производственных линий. В таких случаях нельзя сводить данные в один столбец чисел — необходимо работать с двумя выборками.
Как только определена соответствующая стандартная ошибка, остальное выполнить уже легко. У вас есть оценка (разность между средними двух выборок), ее “собственная” стандартная ошибка и соответствующее число степеней свободы. Остается только построить доверительный интервал и проверить гипотезу.
У нас есть две выборки, выборка 1 и выборка 2. Основные статистики для обоих выборок обозначаются обычным способом, как показано в табл. 10.6.3.
Рассмотрим, что в этом случае появилось нового. Стандартная ошибка разности указывает на выборочную изменчивость разности между двумя выборочными средними. Есть две различные формулы: формула для большой выборки, которую используют, когда размер каждой из двух выборок не менее 30, и формула для малой выборки, которую используют в предположении, что обе генеральные совокупности имеют одинаковую изменчивость. Формула для большой выборки работает даже тогда, когда изменчивость у выборок разная, за счет непосредственного объединения двух стандартных ошибок и . Чтобы оценить изменчивость генеральной совокупности (при допущении, что она одинакова для обеих генеральных совокупностей), формула для малой выборки включает взвешенное среднее выборочных стандартных отклонений. Стандартная ошибка для случая малой выборки имеет n1 +n2 - 2 степеней свободы: из объединенного размера двух выборок n1 +n2 , дважды вычитают 1 (для каждой оценки выборочного среднего). Ниже приведены формулы вычисления стандартной ошибки длякаждого случая.
Проверяется гипотеза Н0 : µ1 = µ2 против альтернативной гипотезы Н1 : µ1 ≠ µ2. Предварительные условия, выполнение которых необходимо для t-проверки двух независимых выборок, те же, что были рассмотрены ранее, с добавлением одного нового, но только для случая выборок малого размера. Во-первых, предполагается, что каждая выборка является случайной выборкой из своей генеральной совокупности. (Здесь имеются две генеральные совокупности и две независимые выборки, представляющие эти совокупности.) Во-вторых, предполагается, что каждое выборочное среднее распределено приблизительно нормально, как мы и требовали ранее. И, наконец, только для случая выборок малого размера предполагается, что в двух генеральных совокупностях стандартные отклонения равны между собой, σ1 = σ2. Иными словами, две генеральные совокупности отличаются (если отличаются) только своими средними значениями, но не изменчивостью отдельных элементов по отношению к среднему генеральной совокупности.
Пример. Дискриминация по полу и заработная плата
Вашей фирме предъявлено обвинение в дискриминации сотрудников по признаку пола, и вам поручено изучить документы, представленные другой стороной. Документы включают проверку статистической гипотезы относительно размера заработной платы мужчин и женщин, которая демонстрирует "высоко значимую разницу" в средних значениях размера заработной платы мужчин и женщин. В табл. 10.6.4 приведены результаты этой проверки.
Таблица 10.6.4. Размеры заработной платы мужчин и женщин (в долларах)
В этом отделе работают 15 женщин и 22 мужчины, средний годовой размер зарплаты составляет для женщин $24476 и для мужчин — $33095. В среднем мужчины зарабатывают на $8628 больше женщин. Таковы факты. Однако проблема заключается в том, является ли эта разница обычным случайным отклонением или нет. По существу, не имеет значения, как разделить эту группу из 37 человек на две группы по 15 и 22 человека, чтобы найти разницу средних размеров заработной платы. Вопрос в том, может ли такая большая разница в размерах заработной платы быть результатом лишь случайного распределения размеров заработной платы между мужчинами и женщинами, или необходимо другое объяснение этого очевидного неравенства.
Стандартные отклонения ($2806 для женщин и $4189 для мужчин) показывают, на какую приблизительно сумму отличаются размеры заработной платы отдельных людей в каждой группе. Большее колебание в размере заработной платы наблюдается среди мужчин, но его недостаточно, чтобы мы отказались от выполнения t-теста для двух независимых выборок.
«Стандартные ошибки ($724 для женщин и $893 для мужчин) показывают, насколько сильно отличается среднее значение заработной плата в каждой из групп от среднего значения заработной платы в соответствующих идеализированных генеральных совокупностях. Например, если рассматривать группу из 15 человек как случайную выборку, извлеченную из идеализированной генеральной совокупности женщин, находящихся в аналогичных условиях, то среднее значение заработной платы для женщин $24 467 (в случайной выборке, потому что проанализировали размеры заработной платы только 15 человек), будет приблизительно на $724 отличаться от среднего в идеализированной генеральной совокупности.
Оценим среднее значение разности, равное $8 628, чтобы решить, является ли она случайной. Для этого необходимо знать стандартную ошибку и число степеней свободы. Ниже представлен расчет, выполненный по формуле для случая выборки малого размера.
Число степеней свободы равно n1 +n2 - 2 = 15+22-2 = 35.
t-значение для 99,9% доверительного интервала равно 3,591. Помните, что t-значение находят по таблице с учетом числа степеней свободы, так как мы имеем дело с двумя выборками. Доверительный интервал находится между 8628-3,591*1238 и 8628+3,591*1238.
Мы на 99,9% уверены, что разность средних значений размеров заработной платы в генеральных совокупностях находится между $4 182 и $13 074.
Этот доверительный интервал не включает заданное значение, равное 0, означающее отсутствие различия между средними значениями размеров заработной платы мужчин и женщин. Таким образом, мы принимаем следующее решение относительно результата проведенной проверки гипотез.
Разница между средними размерами заработной платы мужчин и женщин является очень высоко значимой (р < 0,001).
Этот результат подтверждает и тот факт, что значение t-статистики 8628 - 0/1238 = 6,97 намного больше, чем критическое для уровня значимости 0,001 табличное t-значение 3,591.
Какойвывод можно сделать из этого? Во-первых, распределение размеров заработной платы между мужчинами и женщинами не является случайным. Его можно было быть считать случайным, но только если допустить, что произошло очень редкое, встречающееся 1 раз на 1000 случаев, событие (так как именно такой смысл имеет уровень значимости 0,001). Во-вторых, если распределение размеров заработной платы не случайно, то должно быть некоторое объяснение. И здесь каждый человек может выдвинуть свою причину, думая, что она полностью доказана результатами этого теста. Однако одно дело сказать, что причина есть, а другое указать, что это за причина. Статистика исключает случайность как приемлемую возможность. И это все. Если вам хочется выдвинуть причину наблюдаемой разности размеров заработной платы, это ваше право, но это уже вне сферы статистики. Предложив основание для объяснения, статистика "уходит" на задний план.
Итак, что может быть причиной разницы в размерах заработной платы? Одно из объяснений заключается в том, что руководство из консервативных и эгоистических соображений противозаконными способами умышленно решило платить отдельным служащим меньше только потому, что они женщины, руководствуясь в этом своем решении только полом служащего. Но это не единственно возможное объяснение. Разница в размерах заработной платы может быть обусловлена другими факторами, которые (1) влияют на размер заработной платы и (2) связаны с полом человека. В свою защиту фирма может заявить, что она устанавливает заработную плату только на основании образования и опыта работы и не ее вина, что при подборе кадров среди претендентов мужчин более образованных и опытных больше, чем среди претендентов женщин. Этот аргумент перемещает обвинение с фирмы на общество в целом.
Это сложная проблема. В принципе, это не вопрос статистики, и его нужно решать с привлечением экспертов из других областей. Мы еще вернемся к этому вопросу в главе о множественной регрессии, продолжив попытки понять взаимодействие таких факторов, как пол, размер заработной платы, образование и стаж работы.
Статистика очень полезна для получения точных ответов в условиях неопределенности, но эти ответы ограничены, и может понадобиться много работы и размышлений, прежде чем будет получен окончательный результат.