Статистическое сравнение двух выборочных средних
по t –критерию Стьюдента при неравнозначных выборках
Если объёмы выборочных совокупностей неравны (выборки неравнозначные), то критерий t- Стьюдента определяется по формуле:
tф= ,
где , т.е. разность между сравниваемыми средними; Sd – ошибка разности выборочных средних.
Sd = ,
где n1 и n2 –объёмы сравниваемых выборочных совокупностей; и - значение стандартного отклонения.
Пример расчета вспомогательных величин для вычисления t- критерия фактического приведен в таблице 4.5
Таблица 4.5 Статистическое сравнение двух выборочных средних по t- критерию Стьюдента
Фамилия | Объём выборки n, шт. | Средняя величина xi, cм. | Стандартное отклонение, σ, cм. | t факт | t 05/01 |
Иванов | 24,45 | 8,09 | 6,23 | 1,96/2,58 | |
Смирнов | 22,02 | 4,08 |
.
Sd= .
tф= .
Фактическое значение t- критерия (t Ф) сравнивается с tSt на1% и 5%-ном уровне значимости.
t 05/ 01 определяем по приложению 1 учебника (Герасимов, Хлюстов), исходя из числа степеней свободы.
Формула для вычисления числа степеней свободы имеет вид: .
Для приведенного примера,
к = (542+552-2)×( = 566 следовательно, t05/ 01 = 1,96/2,58.
Так как tфакт(6,23) больше t01 , Н0-гипотеза отвергается, следовательно, различия существенные.
Статистическое заключение
В результате сравнения выборочной средней Иванова со средней Смирнова делаем заключение о несущественности различий между ними, т.к tф больше t01.
В курсовой работе произвести сравнительную оценку со средними пятерых студентов.
Дисперсионный анализ
При исследовании причинно-следственных отношений между явлениями используется дисперсионный анализ. Дисперсионный анализ разработан английским ученым Р. А. Фишером. Он открыл закон распределения отношений средних квадратов отклонений (дисперсий).
Fф = S1 / S2,
где Fф – расчетное значение F- критерия Фишера; S1 – средний квадрат (отклонений) выборочных средних; S2 – средний квадрат всех объектов.
Эксперимент (опыт) нельзя спланировать, не зная основ дисперсионного анализа. При дисперсионном анализе одновременно обрабатываются данные нескольких выборок. Каждая выборка представляет собой вариант опыта. Вариантов выборок может быть несколько. Желательно вариантами опыта охватить весь диапазон возможных изменений искомого (результирующего) признака. Эти выборки (варианты опыта) составляют единый статистический комплекс. Статистический комплекс оформляется в виде рабочей таблицы.
Сущность дисперсионного анализа - это расчленение общей в опыте суммы квадратов отклонений и общего числа степеней свободы на части, которые соответствуют структуре эксперимента. При этом оценка значимости взаимодействия изучаемых факторов оценивается по F – критерию Фишера.
Рассмотрим однофакторный статистический комплекс, который состоит из нескольких независимых выборок.
L вариантов опыта, в котором общая изменчивость изучаемого признака оценивается дисперсией Cy.
Cy – общая изменчивость. Она расчленяется на две составляющие:
Cv – варьирование между выборками (вариантами опыта);
Cz – варьирование внутри выборок, внутри вариантов.
Формула изменчивости признака:
Cy = Cv + Cz ,
где Cv–обусловлена действием изучаемых факторов;
Cz – характеризует случайное варьирование, т. е. ошибку эксперимента.
Согласно определению сущности дисперсионного анализа, общее число степеней свободы, равное ν = N – 1 также делится на части. Первая часть – степени свободы для вариантов: ν = l – 1. Вторая часть – степень свободы для случайного варьирования: N – l.
Общая формула числа степеней свободы:
(N – 1) = (l – 1) + (N – l)
При обработке однофакторных комплексов, когда варианты (выборки) имеют ''n'' организованных повторений, общая сумма квадратов разлагается на три части: Ср – варьирование повторений; Сv – варьирование вариантов; Сz – случайное варьирование.
Cy = Cp + Cv + Cz
(N – 1) = ( n – 1) + ( l –1 ) + ( n – 1) + ( l – 1).
Найдем сумму квадратов отклонений по данным статистического комплекса с '' l '' вариантами и ''n'' повторностями.
В исходной таблице определяют суммы по повторениям p, по вариантам V и общую сумму всех наблюдений ∑ x.
Затем вычисляем:
- общее число наблюдений: N = l × n;
- корректирующий фактор: C = ( ∑ x )2 / N;
- общая сумма квадратов: Cy = ∑ ( x )2 – C;
- сумма квадратов для повторений: Cp = ( ∑ p2 / l ) – C;
- сумма квадратов для вариантов: Cv =( ∑ V2 / n) – C;
- сумма квадратов для ошибки: Сz = Cy - Cv .
Сумму квадратов отклонений для вариантов Cv и для ошибки Cz делят на соответствующие им степени свободы, т. е. приводят к сравниваемому виду – к одной степени свободы вариаций.
Получаем два средних квадрата дисперсии:
sv2 = Cv / l – 1,
sz2 = Cz / (n – 1) × (l – 1)
Оценка значимости воздействия изучаемых факторов осуществляется по F – критерию Фишера:
Fф = sv2 / sz2.
Если Fф > F01, то различия между вариантами существенны. Если Fф < F05 , то различий нет.
Если F05< Fф < F01, нужно увеличить число повторностей, не увеличивая числа вариант.
Если Fф ≥ F01 , то приступаем ко второй части анализа – проведем дополнительную оценку существенности частных различий.
Критерий НСР указывает предельную ошибку для разности двух выборочных средних.
Если фактическая разность ( d ) между средними по вариантам больше или равна НСР ( d ≥ НСР ), то она существенна ( значима ).
Если d < НСР – разность между средними не существенна.
Чтобы определить НСР необходимо по данным дисперсионного анализа вычислить обобщенную ошибку средней по опыту:
.
Ошибку разности средних:
,
где S2 – остаточный средний квадрат из таблицы дисперсионного анализа;
n – число повторностей сравниваемых вариантов.
Если сравнивают группы вариантов (неодинакового размера) - неравномерные комплексы, ошибку разности вычисляют по формуле:
.
Подставляя значения Sd в формулу НСР, получаем:
НСР05 = t05 × Sd; НСР01 = t01 × Sd; НСР001 = t001 × Sd..
при этом t05 – это t критерий Стьюдента на 5 % уровне значимости, который берётся по числу степеней свободы дисперсии остатка из учебника.
В конечном итоге строится таблица с ранжированием вариантов по росту от большего к меньшему.
После этого сравнивают лучший вариант с применяемым в производстве раньше.