Проверка гипотез о равенстве средних для нормальных распределений

Проверка гипотезы о равенстве средних двух совокупностей имеет важное практическое значение. Так, иногда оказывается, что среднее значение одной выборки отличается от среднего значения другой, хотя обе выборки взяты из схожих совокупностей.. Возникает вопрос: можно ли это различие объяснить случайной ошибкой экспериментов или же оно не случайно?

Сравнивать средние в двух группах позволяет сравнивать t-критерий. В меню Analysis – Анализ модуля Basic Statistics and Tables – Основные статистики и таблицы предлагаются t-test for independent samples – t-критерий для независимых выборок и t-test for dependent samples – t-критерий для зависимых выборок. Если мы имеем дело с развитием явления, например, если выборки извлечены из одной и той же совокупности в разные моменты времени, то следует использовать t-test for dependent samples – t-критерий для зависимых выборок. Если же между выборками нет причинной связи, следует использовать t-test for independent samples – t-критерий для независимых выборок.

3.3.1. t-критерий для зависимых выборок.

Рассмотрим применение t-критерия на примере файла ex3.sta, где приведены данные об объеме выполненных работ в расчете на одного рабочего строительного предприятия за 14 дней до перехода на новую форму оплаты труда и за 14 дней после того. Требуется установить, повлияла ли новая форма оплаты на производительность труда. В данном случае для решения воспользуемся меню t-test for dependent samples – t-критерий для зависимых выборок.

Необходимым требованием применения t-критерия для анализа статистической значимости различия выборочных средних является нормальный характер распределения в исследуемых выборках. Поэтому переменные DO и POSLE следует проверить критериями нормальности, как было описано выше.

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 32 Окно результатов Tests of normality – Критерии нормальности для переменных DO и POSLE

На основе полученных значений критериев нормальности (рис.13) гипотеза о нормальном характере распределения переменных не отвергается.

Вычисленные средние значения переменных DO и POSLE несколько различны (рис.12).

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 33 Статистические характеристики результатов наблюдений по данным файла ex3.sta

Требуется установить, является ли это расхождение статистически значимым. Выбрав в меню Analysis - Анализ пункт t-test for dependent samples – t-критерий для зависимых выборок, в открывшемся диалоговом окне (рис.14) выберем переменные для анализа через клавишу Variables – Переменные. В первом списке переменных (first list) укажем переменную DO, во втором (second list) – POSLE.

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 34 Диалоговое окно t-test for dependent samples – t-критерий для зависимых выборок

Нажав на кнопку T-tests или OK, выведем на экран таблицу результатов (рис.15). На экране появляется таблица результатов проверки гипотезы о том, что результаты не равны. Если гипотеза не отклоняется, то различие между средними можно считать статистически значимым (строка на экране будет выделена красным цветом). В таблице приводится в том числе значение t-критерия и значение вероятности р отклонения гипотезы о равенстве средних.

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 35 Результаты проверки гипотезы о неравенстве средних для зависимых выборок

В нашем примере вычисленное значение р = 0,801930, т.е. вероятность отклонения гипотезы о неравенстве средних близка к 1. Таким образом, можно сделать вывод о том, что различие в средних несущественно, и изменение формы оплаты труда не повлияло на выработку рабочих.

3.3.2. t-критерий для независимых выборок.

В файле ex4.sta приведены данные статистического наблюдения за работой двух бригад рабочих (каждая бригада наблюдалась по 12 дней), в результате которого фиксировалась их дневная выработка. Требуется выяснить имеется ли различие в производительности труда двух бригад.

Как и в предыдущем случае, сначала проверим распределение данных на соответствие закону нормального распределения, затем воспользуемся пунктом t-test for independent samples – t-критерий для независимых выборок.

В данном случае данные по каждой бригаде не сгруппированы, они занесены в таблицу в соответствии с днями работы той или иной бригады. Поэтому в диалоговом окне (рис.16) выберем One record per case (Use a grouping variable) – Используется группирующая переменная. (Если бы данные были сгруппированы, как в предыдущем примере, т.е. одна переменная содержала бы данные о выработке одной бригады, а вторая – другой, то следовало бы выбрать Each variable contents data for one group – Каждая переменная содержит данные для одной переменой).

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 36 Диалоговое окно t-test for independent samples – t-критерий для независимых выборок

Вид диалогового окна изменится (рис.17).

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 37 Диалоговое окно t-test for independent samples – t-критерий для независимых выборок

В открывшемся диалоговом окне (рис.17) выберем переменные для анализа через клавишу Variables – Переменные. В открывшемся списке (рис. 18) выберем группирующую переменную (Groping variable) – BRIGADA, и зависимую переменную (Dependent variable) – VIRABOTK.

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 38 Выбор группирующей и зависимой переменных

Щелкнув ОК, вернемся в основное диалоговое окно. Программа автоматически (рис.19) проставит коды для групп, в качестве которых берутся значения группирующей переменной (в нашем случае Бригада 1, Бригада 2).

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 39 Диалоговое окно t-test for independent samples – t-критерий для независимых выборок

Нажатие кнопки ОКили T-tests выводит на экран окно результатов анализа (рис.20).

Проверка гипотез о равенстве средних для нормальных распределений - student2.ru

Рис. 40 Окно результатов проверки гипотезы о неравенстве средних для независимых выборок

Вероятность отклонения гипотезы о неравенстве средних р = 0,000001 (строка высвечена красным), поэтому можно сделать вывод о существенности различий в производительности труда в двух бригадах.

Задание № 1.

Имеются следующие данные о месячной выработке, стаже работы и заработной плате двадцати рабочих фирмы.

№№ п.п. Выработка Стаж работы Зарплата
4,80
4,50
3,50
4,50
2,50
4,80
3,50
3,60
2,80
3,00
4,50
3,50
4,00
4,20
3,80
3,70
4,20
3,90
4,40
4,00

Провести анализ данных в системе «STATISTICA»:

1) вычислить основные статистические характеристики каждой переменной;

2) по сгруппированным данным построить гистограмму и диаграмму размаха и дать заключение о близости полученного распределения к нормальному. На основе анализа показателей формы распределения и с помощью критерия Колмогорова-Смирнова проверить свой вывод.

Задание №2.

Имеются данные выборочного наблюдения, характеризующие товарооборот за месяц однотипных торговых организаций двух микрорайонов города (обследовалось по 20 предприятий каждого микрорайона).

Товарооборот за месяц предприятия, расположенного в первом микрорайоне Товарооборот за месяц предприятия, расположенного во втором микрорайоне
8609,2 8490,7
9139,6 8829,5
9378,4 9168,3
9526,8 9216,7
9417,3 9361,9
9091,2 8781,1
8448,1 8442,3
9623,6 9313,5
9236,4 8926,3
9042,8 8732,7
9188,0 8877,9
9430,0 9119,9
9023,6 8974,7
8994,4 8684,3
8946,0 8635,9
9333,2 9023,1
9381,6 9071,5
9275,2 9265,1
8897,6 8587,5
8849,2 8539,1

Проверить, является ли различие по двум микрорайонам в величине товарооборота предприятия статистически значимым.

Задание №3.

Имеются следующие данные о величине дневной выработки водителей городских автобусов двух автотранспортных предприятий (АТП), расположенных в двух микрорайонах города (обследовалось по 20 водителей каждого АТП).

Величина выработки АТП №   Величина выработки АТП №   Величина выработки АТП №   Величина выработки АТП №
8274,1   9392,9   8786,3   8399,7
8516,7   9460,3   8853,7   8462,5
8584,1   9467,3   8902,1   8651,5
8525,3   8449,3   9527,7   8718,9
8588,1   8713,7   9404,5   9341,7
8650,9   8776,5   8200,4   9662,5
8921,1   8839,3   9153,3   9729,9
8988,5   9595,1   9123,3   8964,9
9055,9   9216,1   9190,7   9090,5
8336,9   9278,9   9027,7   9325,5

Проверить, является ли различие в дневной выработке водителей по двум АТП статистически значимым.

Задание №4.

В целях повышения эффективности продаж 2 фирмы воспользовались возможностями рекламной кампании. Имеются данные о ежедневном товарообороте каждой фирмы за 20 дней до проведения рекламной акции и за 20 дней после того.

Данные по фирме А   Данные по фирме В
Ежедневный товарооборот до проведения рекламной акции Ежедневный товарооборот после проведения рекламной акции Ежедневный товарооборот до проведения рекламной акции Ежедневный товарооборот после проведения рекламной акции
8442,3 8619,0 8684,3 8794,4
8490,7 8647,3 8732,7 8842,8
8539,1 8675,6 8781,1 8891,2
8587,5 8703,9 8829,5 8939,6
8635,9 8732,2 8877,9 8988,0
8684,3 8760,5 8926,3 8400,7
9071,5 9047,2 8974,7 9084,8
9119,9 9095,6 9023,1 9133,2
9168,3 9144,0 9071,5 9181,6
9216,7 9192,4 9119,9 9230,0
9265,1 9240,8 9168,3 9278,4
9313,5 9289,2 9216,7 9326,8
9361,9 9337,6 9265,1 9375,2
8732,7 8788,8 9313,5 9423,6
8781,1 8817,1 9361,9 9472,0
8829,5 8845,4 8442,3 8552,4
8877,9 8873,7 8490,7 8600,8
8926,3 8902,0 8539,1 8649,2
8974,7 8950,4 8587,5 8697,6
9023,1 8998,8 8635,9 8746,0

Определить по каждой фирме, явилась ли рекламная акция эффективной.

Наши рекомендации