Разложение суммы квадратов отклонений
Несмещенной оценкой для неизвестной дисперсии σ2 является, как известно, сумма квадратов
, (40)
деленная на n - 1, где
(41)
количество всех наблюдений.
Основная идея дисперсионного анализа заключается в разбиении этой суммы квадратов отклонений на несколько компонент, каждая из которых соответствует предполагаемой причине изменения средних значений mi .
Обозначим через
(42)
- среднее арифметическое величин i-й группы, через
(43)
- среднее арифметическое всех величин. Тогда справедливо тождество
, (44)
или Q = Q1 + Q2 . (45)
Таким образом, полная сумма квадратов отклонений от общего среднего Q разбивается на две компоненты: Q1 - сумма квадратов между группами, Q2 - сумма квадратов внутри групп. Если поделить обе части равенства (44) на число наблюдений n, то получим известное правило сложения дисперсий:
DОБЩ = DВНГР + DМЕЖГР ,
где , ,
,
Пример 3.1. Дана совокупность, состоящая из следующих двух групп:
x | n1 | n2 | n | |||||
Частота |
Необходимо доказать, что DОБЩ = DВНГР+ DМЕЖГР.
Решение. Дано: n1 = 10, n2 = 9.
Найдем групповые средние: , .
Найдем групповые дисперсии: ,
Найдем внутригрупповую дисперсию: .
Найдем общую среднюю:
Найдем общую дисперсию:
Найдем межгрупповую дисперсию:
Убедимся, что общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий: DОБЩ= DВНГР +DМЕЖГР = 2,824 + 0,921 = 3,745, что и требовалось показать.
Проверка гипотезы о равенстве групповых средних
Пусть гипотеза H0: mi = m, i =1,…r. Заметим, что величина , являющаяся несмещенной оценкой для σ2 , всегда будет иметь распределение χ2 с n - 1 степенями свободы и по ней можно построить доверительный интервал для σ2 . Если гипотеза H0 верна, то величины и (46)
будут иметь распределение Фишера с r-1 и n - r степенями свободы, соответственно, при этом и являются несмещенными оценками для межгрупповой дисперсии . Отношение - называется дисперсионным отношением и, если гипотеза H0 верна, то статистика F имеет распределение Фишера с r -1, n - r степенями свободы. В этом случае эффекты влияния уровней фактора A будут нулевыми, т.е. m1= m2= ... =mr = 0, а оценка параметра a равна общему среднему , вычисленному по формуле (43). Проверка гипотезы H0 о равенстве групповых средних проводится по схеме, изложенной ранее. Если же гипотеза H0 отвергается, то параметр a по-прежнему вычисляется по формуле (43), а оценка эффекта mi влияния i-го уровня фактора равна
, (47)
где определяется по формуле (44), а - по формуле (43). Проверка гипотезы H0 о равенстве групповых средних проводится по схеме, изложенной ранее.
Коэффициент детерминации
Предположим, что фактор A влияет на результативный признак X. Для измерения степени этого влияния используют выборочный коэффициент детерминации, равный
, (48)
который показывает, какую долю выборочной дисперсии составляет дисперсия групповых средних, иначе говоря, какая доля общей дисперсии объясняется зависимостью результативного признака X от фактора A .
Сводка формул
Изложенные выше формулы для решения задач однофакторного анализа приведем в таблице 2. При вычислении сумм квадратов Q , Q1 , Q2 часто удобно при ni = n0 использовать следующие формулы:
, (49)
, (50)
. (51)
Таблица 2
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Оценки дисперсии |
Межгрупповая | r-1 | ||
Внутригрупповая | n-r | ||
Общая | n-1 |