Проверка гипотез о равенстве средних для нормальных распределений
Проверка гипотезы о равенстве средних двух совокупностей имеет важное практическое значение. Так, иногда оказывается, что среднее значение одной выборки отличается от среднего значения другой, хотя обе выборки взяты из схожих совокупностей.. Возникает вопрос: можно ли это различие объяснить случайной ошибкой экспериментов или же оно не случайно?
Сравнивать средние в двух группах позволяет сравнивать t-критерий. В меню Analysis – Анализ модуля Basic Statistics and Tables – Основные статистики и таблицы предлагаются t-test for independent samples – t-критерий для независимых выборок и t-test for dependent samples – t-критерий для зависимых выборок. Если мы имеем дело с развитием явления, например, если выборки извлечены из одной и той же совокупности в разные моменты времени, то следует использовать t-test for dependent samples – t-критерий для зависимых выборок. Если же между выборками нет причинной связи, следует использовать t-test for independent samples – t-критерий для независимых выборок.
3.3.1. t-критерий для зависимых выборок.
Рассмотрим применение t-критерия на примере файла ex3.sta, где приведены данные об объеме выполненных работ в расчете на одного рабочего строительного предприятия за 14 дней до перехода на новую форму оплаты труда и за 14 дней после того. Требуется установить, повлияла ли новая форма оплаты на производительность труда. В данном случае для решения воспользуемся меню t-test for dependent samples – t-критерий для зависимых выборок.
Необходимым требованием применения t-критерия для анализа статистической значимости различия выборочных средних является нормальный характер распределения в исследуемых выборках. Поэтому переменные DO и POSLE следует проверить критериями нормальности, как было описано выше.
Рис. 32 Окно результатов Tests of normality – Критерии нормальности для переменных DO и POSLE
На основе полученных значений критериев нормальности (рис.13) гипотеза о нормальном характере распределения переменных не отвергается.
Вычисленные средние значения переменных DO и POSLE несколько различны (рис.12).
Рис. 33 Статистические характеристики результатов наблюдений по данным файла ex3.sta
Требуется установить, является ли это расхождение статистически значимым. Выбрав в меню Analysis - Анализ пункт t-test for dependent samples – t-критерий для зависимых выборок, в открывшемся диалоговом окне (рис.14) выберем переменные для анализа через клавишу Variables – Переменные. В первом списке переменных (first list) укажем переменную DO, во втором (second list) – POSLE.
Рис. 34 Диалоговое окно t-test for dependent samples – t-критерий для зависимых выборок
Нажав на кнопку T-tests или OK, выведем на экран таблицу результатов (рис.15). На экране появляется таблица результатов проверки гипотезы о том, что результаты не равны. Если гипотеза не отклоняется, то различие между средними можно считать статистически значимым (строка на экране будет выделена красным цветом). В таблице приводится в том числе значение t-критерия и значение вероятности р отклонения гипотезы о равенстве средних.
Рис. 35 Результаты проверки гипотезы о неравенстве средних для зависимых выборок
В нашем примере вычисленное значение р = 0,801930, т.е. вероятность отклонения гипотезы о неравенстве средних близка к 1. Таким образом, можно сделать вывод о том, что различие в средних несущественно, и изменение формы оплаты труда не повлияло на выработку рабочих.
3.3.2. t-критерий для независимых выборок.
В файле ex4.sta приведены данные статистического наблюдения за работой двух бригад рабочих (каждая бригада наблюдалась по 12 дней), в результате которого фиксировалась их дневная выработка. Требуется выяснить имеется ли различие в производительности труда двух бригад.
Как и в предыдущем случае, сначала проверим распределение данных на соответствие закону нормального распределения, затем воспользуемся пунктом t-test for independent samples – t-критерий для независимых выборок.
В данном случае данные по каждой бригаде не сгруппированы, они занесены в таблицу в соответствии с днями работы той или иной бригады. Поэтому в диалоговом окне (рис.16) выберем One record per case (Use a grouping variable) – Используется группирующая переменная. (Если бы данные были сгруппированы, как в предыдущем примере, т.е. одна переменная содержала бы данные о выработке одной бригады, а вторая – другой, то следовало бы выбрать Each variable contents data for one group – Каждая переменная содержит данные для одной переменой).
Рис. 36 Диалоговое окно t-test for independent samples – t-критерий для независимых выборок
Вид диалогового окна изменится (рис.17).
Рис. 37 Диалоговое окно t-test for independent samples – t-критерий для независимых выборок
В открывшемся диалоговом окне (рис.17) выберем переменные для анализа через клавишу Variables – Переменные. В открывшемся списке (рис. 18) выберем группирующую переменную (Groping variable) – BRIGADA, и зависимую переменную (Dependent variable) – VIRABOTK.
Рис. 38 Выбор группирующей и зависимой переменных
Щелкнув ОК, вернемся в основное диалоговое окно. Программа автоматически (рис.19) проставит коды для групп, в качестве которых берутся значения группирующей переменной (в нашем случае Бригада 1, Бригада 2).
Рис. 39 Диалоговое окно t-test for independent samples – t-критерий для независимых выборок
Нажатие кнопки ОКили T-tests выводит на экран окно результатов анализа (рис.20).
Рис. 40 Окно результатов проверки гипотезы о неравенстве средних для независимых выборок
Вероятность отклонения гипотезы о неравенстве средних р = 0,000001 (строка высвечена красным), поэтому можно сделать вывод о существенности различий в производительности труда в двух бригадах.
Задание № 1.
Имеются следующие данные о месячной выработке, стаже работы и заработной плате двадцати рабочих фирмы.
№№ п.п. | Выработка | Стаж работы | Зарплата |
4,80 | |||
4,50 | |||
3,50 | |||
4,50 | |||
2,50 | |||
4,80 | |||
3,50 | |||
3,60 | |||
2,80 | |||
3,00 | |||
4,50 | |||
3,50 | |||
4,00 | |||
4,20 | |||
3,80 | |||
3,70 | |||
4,20 | |||
3,90 | |||
4,40 | |||
4,00 |
Провести анализ данных в системе «STATISTICA»:
1) вычислить основные статистические характеристики каждой переменной;
2) по сгруппированным данным построить гистограмму и диаграмму размаха и дать заключение о близости полученного распределения к нормальному. На основе анализа показателей формы распределения и с помощью критерия Колмогорова-Смирнова проверить свой вывод.
Задание №2.
Имеются данные выборочного наблюдения, характеризующие товарооборот за месяц однотипных торговых организаций двух микрорайонов города (обследовалось по 20 предприятий каждого микрорайона).
Товарооборот за месяц предприятия, расположенного в первом микрорайоне | Товарооборот за месяц предприятия, расположенного во втором микрорайоне |
8609,2 | 8490,7 |
9139,6 | 8829,5 |
9378,4 | 9168,3 |
9526,8 | 9216,7 |
9417,3 | 9361,9 |
9091,2 | 8781,1 |
8448,1 | 8442,3 |
9623,6 | 9313,5 |
9236,4 | 8926,3 |
9042,8 | 8732,7 |
9188,0 | 8877,9 |
9430,0 | 9119,9 |
9023,6 | 8974,7 |
8994,4 | 8684,3 |
8946,0 | 8635,9 |
9333,2 | 9023,1 |
9381,6 | 9071,5 |
9275,2 | 9265,1 |
8897,6 | 8587,5 |
8849,2 | 8539,1 |
Проверить, является ли различие по двум микрорайонам в величине товарооборота предприятия статистически значимым.
Задание №3.
Имеются следующие данные о величине дневной выработки водителей городских автобусов двух автотранспортных предприятий (АТП), расположенных в двух микрорайонах города (обследовалось по 20 водителей каждого АТП).
Величина выработки | АТП № | Величина выработки | АТП № | Величина выработки | АТП № | Величина выработки | АТП № | |||
8274,1 | 9392,9 | 8786,3 | 8399,7 | |||||||
8516,7 | 9460,3 | 8853,7 | 8462,5 | |||||||
8584,1 | 9467,3 | 8902,1 | 8651,5 | |||||||
8525,3 | 8449,3 | 9527,7 | 8718,9 | |||||||
8588,1 | 8713,7 | 9404,5 | 9341,7 | |||||||
8650,9 | 8776,5 | 8200,4 | 9662,5 | |||||||
8921,1 | 8839,3 | 9153,3 | 9729,9 | |||||||
8988,5 | 9595,1 | 9123,3 | 8964,9 | |||||||
9055,9 | 9216,1 | 9190,7 | 9090,5 | |||||||
8336,9 | 9278,9 | 9027,7 | 9325,5 |
Проверить, является ли различие в дневной выработке водителей по двум АТП статистически значимым.
Задание №4.
В целях повышения эффективности продаж 2 фирмы воспользовались возможностями рекламной кампании. Имеются данные о ежедневном товарообороте каждой фирмы за 20 дней до проведения рекламной акции и за 20 дней после того.
Данные по фирме А | Данные по фирме В | ||
Ежедневный товарооборот до проведения рекламной акции | Ежедневный товарооборот после проведения рекламной акции | Ежедневный товарооборот до проведения рекламной акции | Ежедневный товарооборот после проведения рекламной акции |
8442,3 | 8619,0 | 8684,3 | 8794,4 |
8490,7 | 8647,3 | 8732,7 | 8842,8 |
8539,1 | 8675,6 | 8781,1 | 8891,2 |
8587,5 | 8703,9 | 8829,5 | 8939,6 |
8635,9 | 8732,2 | 8877,9 | 8988,0 |
8684,3 | 8760,5 | 8926,3 | 8400,7 |
9071,5 | 9047,2 | 8974,7 | 9084,8 |
9119,9 | 9095,6 | 9023,1 | 9133,2 |
9168,3 | 9144,0 | 9071,5 | 9181,6 |
9216,7 | 9192,4 | 9119,9 | 9230,0 |
9265,1 | 9240,8 | 9168,3 | 9278,4 |
9313,5 | 9289,2 | 9216,7 | 9326,8 |
9361,9 | 9337,6 | 9265,1 | 9375,2 |
8732,7 | 8788,8 | 9313,5 | 9423,6 |
8781,1 | 8817,1 | 9361,9 | 9472,0 |
8829,5 | 8845,4 | 8442,3 | 8552,4 |
8877,9 | 8873,7 | 8490,7 | 8600,8 |
8926,3 | 8902,0 | 8539,1 | 8649,2 |
8974,7 | 8950,4 | 8587,5 | 8697,6 |
9023,1 | 8998,8 | 8635,9 | 8746,0 |
Определить по каждой фирме, явилась ли рекламная акция эффективной.