Проверка гипотезы о равенстве средних
Пусть в результате наблюдений получены независимые выборки из нормально распределённых генеральных совокупностей X и Y: (x1, x2, …, xn) объёма n и (y1, y2, …, ym) объёма m.
Требуется проверить гипотезу о том, что математические ожидания случайных величин X и Y равны, то есть нулевая гипотеза H0: M(X) = M(Y).
Пусть дисперсии случайных величин D(X) и D(Y) известны.
В качестве критерия используется статистика
Величина N является стандартной нормальной случайной величиной с нулевым математическим ожиданием и единичной дисперсией. Величину N, вычисленную по выборкам, обозначим Nнабл..
Для вычисления критического значения Nкр.. можно воспользоваться функцией MS Excel НОРМ.СТ.ОБР(вероятность), которая возвращает обратное значение стандартного нормального распределения.
Пример 2. Были измерены диаметры валиков, изготовленных на двух агрегатах, в мм:
I агрегат: 180; 182; 184; 185; 182; 179; 185; 181; 183; 179
II агрегат: 183 ; 190; 184; 188; 182; 183; 189; 183; 185; 184;
183; 185.
Известно, что размер диаметров имеет нормальный закон распределения с дисперсиями D(X )= 5 мм2 для аппарата І и D(Y) = 7 мм2 для аппарата ІІ. Можно ли на уровне значимости α = 0,05 объяснить различие выборочных средних случайными причинами?
Введём исходные данные в диапазоны А2:А11 и B2:B13 и тексты-метки в ячейки А1, B1,C2, C3, C4, C5, C6, C7, C8, C9, C10. В ячейки D2 и D3 введём значения дисперсий, а в ячейки D4 и D5 ‒ объёмы выборок.
Вычислим средние значения для выборок. В ячейку D6 введём формулу =СРЗНАЧ(A2:A11), а в ячейку D7 ‒ =СРЗНАЧ(B2:B13).Получим значения 182 и 184,9167.
Рассчитаем наблюдаемое значение критерия. Для этого в ячейку D8 введём формулу:=(D6-D7)/КОРЕНЬ(D2/D4+D3/D5). Получим результат: -2,802243.
Для вычисления критического значения при конкурирующей гипотезе H1: M(X) < M(Y) в ячейку D9 введём формулу: =НОРМСТОБР(1-0,05). Получим результат: 1,644854.
Так как ½Nнабл.½> Nкр., то нулевую гипотезу о равенстве математических ожиданий следует отвергнуть.
При альтернативной гипотезе H1: M(X) ≠ M(Y) уровню значимости α соответствует двусторонняя критическая область. Критическое значение вычисляется с помощью функции: НОРМСТОБР(1-0,05/2). Введём формулу в ячейку D10и получим результат: 1,959964. Так как ½Nнабл.½> Nкр., то нулевую гипотезу о равенстве математических ожиданий следует отвергнуть и в этом случае, то есть нельзя объяснить различие выборочных средних случайными причинами.
Для проверки гипотезы при известных дисперсиях можно использовать инструмент Пакета анализа «Двухвыборочный z-тест для средних».
В диалоговом окне инструмента введём следующие данные:
Получим результат:
Если выборки имеют большой объём (>30) и независимы, то критерий для проверки о равенстве средних можно применять также в следующих случаях: генеральные совокупности распределены нормально, а дисперсии их неизвестны; генеральные совокупности не распределены нормально и дисперсии их неизвестны. При этом вместо неизвестных дисперсий используются исправленные выборочные дисперсии.
Если дисперсии неизвестны, но известно, что они равны (то есть гипотеза о равенстве дисперсий подтверждается), то наблюдаемое значение критерия рассчитывается по формуле:
.
Критическое значение критерия Ткр. находится по распределению Стъюдента по заданному α и числу степеней свободы
k = n + m - 2. Если ½Tнабл.½> Tкр., то нулевую гипотезу следует отвергнуть и принять альтернативную гипотезу. Если ½Tнабл.½< Tкр., то нулевую гипотезу следует принять.
Пример 3. Проверить гипотезу о равенстве средних для данных примера 1.
В предположении, что дисперсии генеральных совокупностей одинаковы, требуется проверить гипотезу H0: M(X) = M(Y), то есть необходимо установить, значимо или незначимо различаются статистические оценки и , вычисленные по независимым выборкам.
Для проверки гипотезы воспользуемся стандартной функцией MS Excel ТТЕСТ, которая определяет вероятность, соответствующую найденному значению критерия. Аргументы функции: Массив1 – первый набор данных; Массив2 – второй набор данных; Хвосты – число хвостов распределения (1 или 2). Если Хвосты равно 1, то функция определяет уровень значимости для односторонней доверительной вероятности. Если Хвосты равно 2, то функция определяет уровень значимости для двусторонней доверительной вероятности. Тип – вид исполняемого теста: 1 – парный; 2- двухвыборочный с равными дисперсиями (гомоскедатический); 3 – двухвыборочный с неравными дисперсиями (гетероскедастический).
В ячейку В30 введём формулу:
=TТЕСТ(A2:A12;B2:B11;2;2). Получим результат: .
Так как , то нет оснований отвергать нулевую гипотезу. Уровень значимости также больше 0,05.
Проверим гипотезу с использованием инструмента Пакета анализа Двухвыборочный t-тест с одинаковыми дисперсиями.
В таблице: объединённая дисперсия рссчитывается по формуле:
Замечание. В случае, если гипотеза о равенстве дисперсий не подтверждается, то для проверки гипотезу о равенстве средних следует использовать инструмент Двухвыборочный t-тест с разными дисперсиями.