Однофакторный дисперсионный анализ
Многие приложения связаны с экспериментами, в которых рассматривается несколько групп или уровней одного фактора. Некоторые факторы, например, температура обжига керамики, могут иметь несколько числовых уровней (т.е. 300°, 350°, 400° и 450°). Другие факторы, например, местоположение товаров в супермаркете, могут иметь категориальные уровни (например, первый поставщик, второй поставщик, третий поставщик, четвертый поставщик). Однофакторные эксперименты, в ходе которых экспериментальные единицы случайным образом распределяются по группам или уровням фактора, называются полностью рандомизированными [8].
Использование F-критерия для оценки разностей между несколькими математическими ожиданиями
Если числовые измерения фактора в группах являются непрерывными и выполняются некоторые дополнительные условия, для сравнения математических ожиданий нескольких групп применяется дисперсионный анализ (ANOVA – Analysis of Variance). Дисперсионный анализ, использующий полностью рандомизированные планы, называется однофакторной процедурой ANOVA. В некотором смысле термин дисперсионный анализ является неточным, поскольку при этом анализе сравниваются разности между математическими ожиданиями групп, а не между дисперсиями. Однако сравнение математических ожиданий осуществляется именно на основе анализа вариации данных. В процедуре ANOVA полная вариация результатов измерений подразделяется на межгрупповую и внутригрупповую, как показано на рисунке 2. Внутригрупповая вариация объясняется ошибкой эксперимента, а межгрупповая – эффектами условий эксперимента. Символ с обозначает количество групп.
Рисунок 2. Разделение вариации в полностью рандомизированном эксперименте
Предположим, что с групп извлечено из независимых генеральных совокупностей, имеющих нормальное распределение и одинаковую дисперсию. Нулевая гипотеза заключается в том, что математические ожидания генеральных совокупностей одинаковы: . Альтернативная гипотеза гласит, что не все математические ожидания одинаковы: не все одинаковы .
На рисунке 3 представлена истинная нулевая гипотеза о математических ожиданиях пяти сравниваемых групп при условии, что генеральные совокупности имеют нормальное распределение и одинаковую дисперсию. Пять генеральных совокупностей, связанных с разными уровнями фактора, идентичны. Следовательно, они накладываются одна на другую, имея одинаковые математическое ожидание, вариацию и форму.
Предположим, что на самом деле нулевая гипотеза является ложной, причем четвертый уровень имеет наибольшее математическое ожидание, первый уровень – чуть меньшее математическое ожидание, а остальные
уровни – одинаковые и еще меньшие математические ожидание [9].
Рисунок 3. Пять генеральных совокупностей имеют одинаковое математическое ожидание
С другой стороны, предположим, что на самом деле нулевая гипотеза является ложной, причем четвертый уровень имеет наибольшее математическое ожидание, первый уровень – чуть меньшее математическое ожидание, а остальные уровни – одинаковые и еще меньшие математические ожидание, как показано на рисунке 4. Обратите внимание на то, что за исключением величины математических ожиданий все пять генеральных совокупностей идентичны (т.е. имеют одинаковую изменчивость и форму).
Рисунок 4. Наблюдается эффект условий эксперимента
При проверке гипотезы о равенстве математических ожиданий нескольких генеральных совокупностей полная вариация разделяется на две части: межгрупповую вариацию, обусловленную разностями между группами, и внутригрупповую, обусловленную разностями между элементами, принадлежащими одной группе. Полная вариация выражается полной суммой квадратов (SST – sum of squares total). Поскольку нулевая гипотеза заключается в том, что математические ожидания всех с групп равны между собой, полная вариация равна сумме квадратов разностей между отдельными наблюдениями и общим средним (среднее средних) , вычисленным по всем выборкам. Полная вариация:
,
где – общее среднее;
Xij – i-e наблюдение в j-й группе или уровне;
nj – количество наблюдений в j-й группе;
n – общее количество наблюдений во всех группах (т.е. );
с – количество изучаемых групп или уровней.
Межгрупповая вариация, называемая обычно межгрупповой суммой квадратов (SSA – sum of squares among groups), равна сумме квадратов разностей между выборочным средним каждой группы и общим средним
, умноженных на объем соответствующей группы nj:
,
где с – количество изучаемых групп или уровней;
nj – количество наблюдений в j-й группе;
– среднее значение j-й группы;
– общее среднее.
Внутригрупповая вариация, называемая обычно внутригрупповой суммой квадратов (SSW – sum of squares withing groups), равна сумме квадратов разностей между элементами каждой группы и выборочным средним этой группы :
,
где Хij – i-й элемент j-й группы;
– среднее значение j-й группы.
Поскольку сравнению подвергаются с уровней фактора, межгрупповая сумма квадратов имеет степеней свободы. Каждый из с уровней обладает степенями свободы, поэтому Внутригрупповая
сумма квадратов имеет степеней свободы, и
.
Кроме того, общая сумма квадратов имеет степеней свободы, поскольку каждое наблюдение Хij сравнивается с общим средним , вычисленным по всем n наблюдениям. Если каждую из этих сумм разделить на соответствующее количество степеней свободы, возникнут три вида дисперсии: межгрупповая (mean square among – MSA), внутригрупповая (mean square within – MSW) и полная (mean square total – MST):
,
,
.
Несмотря на то что основное предназначение дисперсионного анализа – сравнить математические ожидания с групп, чтобы выявить эффект условий эксперимента, его название обусловлено тем, что главным инструментом является анализ дисперсий разного типа. Если нулевая гипотеза является истинной, и между математическими ожиданиями с групп нет существенных различий, все три дисперсии – MSA, MSW и MST – являются оценками дисперсии σ2, присущей анализируемым данным. Таким образом, чтобы проверить нулевую гипотезу и альтернативную гипотезу
Н1: не все одинаковы . Необходимо вычислить статистику
F-критерия, представляющую собой отношение двух дисперсий, MSA и MSW. Тестовая F-статистика в однофакторном дисперсионном анализе:
.
Статистика F-критерия подчиняется F-распределению с (с – 1) степенями свободы в числителе MSA и (n – с) степенями свободы в знаменателе MSW. При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная F-статистика больше верхнего критического значения FU, присущего
F-распределению с (с – 1) степенями свободы в числителе и (n – с) степенями свободы в знаменателе. Таким образом, как показано на рисунке 5, решающее правило формулируется следующим образом: нулевая гипотеза Н0 отклоняется, если F > FU; в противном случае она не отклоняется [10].
Рисунок 5. Критическая область дисперсионного анализа при проверке гипотезы Н0
Если нулевая гипотеза Н0 является истинной, вычисленная F-статистика близка к 1, поскольку ее числитель и знаменатель являются оценками одной и той же величины – дисперсии σ2, присущей анализируемым данным. Если нулевая гипотеза Н0 является ложной (и между математическими ожиданиями разных групп существует значительная разница), вычисленная F-статистика будет намного больше единицы, поскольку ее числитель, MSA, помимо естественной изменчивости данных, оценивает эффект условий эксперимента или разности между группами, в то время как знаменатель MSW оценивает лишь естественную изменчивость данных. Таким образом, процедура ANOVA представляет собой F-критерий, в котором при заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная F-статистика больше верхнего критического значения FU, присущего F-распределению с (с – 1) степенями свободы в числителе и (n – с) степенями свободы в знаменателе, как показано на рисунке 5.
Чем объясняется изменчивость данных? Иначе говоря, почему все наблюдения не одинаковы? Одна из причин заключается в том, что разные фирмы поставляют волокна разной прочности. Это частично объясняет, почему группы имеют разные математические ожидания: чем сильнее эффект условий эксперимента, тем больше разность между математическими ожиданиями групп. Другой причиной изменчивости данных является естественная изменчивость любого процесса, в данном случае производства парашютов. Даже если бы все волокна приобретались у одного и того же поставщика, их прочность была бы неодинаковой при прочих равных условиях. Поскольку этот эффект проявляется в каждой из групп, он называется внутригрупповой вариацией.
Разности между выборочными средними называются межгрупповой вариацией SSA. Часть внутригрупповой вариации, как уже указывалось, объясняется принадлежностью данных разным группам. Однако даже если бы группы были совершенно одинаковыми (т.е. нулевая гипотеза была бы истинной), межгрупповая вариация все равно существовала. Причина этого заключается в естественной изменчивости процесса производства парашютов. Поскольку выборки разные, их выборочные средние отличаются друг от друга. Следовательно, если нулевая гипотеза является истинной, как межгрупповая, так и внутригрупповая изменчивость представляют собой оценку изменчивости генеральной совокупности. Если нулевая гипотеза является ложной, межгрупповая гипотеза будет больше. Именно этот факт лежит в основе F-критерия для сравнения разностей между математическими ожиданиями нескольких групп.
После выполнения однофакторного дисперсионного анализа и обнаружения значительной разницы между фирмами остается неизвестным, какой же из поставщиков существенно отличается от остальных. Нам известно лишь, что математические ожидания генеральных совокупностей не равны. Иначе говоря, по крайней мере одно из математических ожиданий существенно отличается от других. Чтобы определить, какой из поставщиков отличается от других, можно воспользоваться процедурой Тьюки, использующей попарное сравнение между поставщиками. Эта процедура была разработана Джоном Тьюки. Впоследствии он и К. Крамер независимо друг от друга модифицировали эту процедуру для ситуаций, в которых объемы выборок отличаются друг от друга.
При решении задачи о прочности парашютов мы не проверяли, выполняются ли условия, при которых можно использовать однофакторный F-критерий. Как же узнать, можно ли применять однофакторный F-критерий при анализе конкретных экспериментальных данных? Однофакторный F-критерий можно применять, только если выполняются три основных предположения: экспериментальные данные должны быть случайными и независимыми, иметь нормальное распределение, а их дисперсии должны быть одинаковыми.
Первое предположение случайность и независимость данных должно выполняться всегда, поскольку корректность любого эксперимента зависит от случайности выбора и/или процесса рандомизации. Чтобы избежать искажения результатов, необходимо, чтобы данные извлекались из с генеральных совокупностей случайно и независимо друг от друга. Аналогично данные должны быть случайным образом распределенными по с уровням интересующего нас фактора (экспериментальным группам). Нарушение этих условий может серьезно исказить результаты дисперсионного анализа.
Второе предположение нормальность означает, что данные извлечены из нормально распределенных генеральных совокупностей. Как и для
t-критерия, однофакторный дисперсионный анализ на основе F-критерия относительно мало чувствителен к нарушению этого условия. Если распределение не слишком значительно отличается от нормального, уровень значимости F-критерия изменяется мало, особенно если объем выборок достаточно велик. Если же условие о нормальности распределения нарушается серьезно, следует применять непараметрические процедуры дисперсионного анализа.
Третье предположение однородность дисперсии означает, что дисперсии каждой генеральной совокупности равны между собой. Это предположение позволяет решить, разделять или объединять внутригрупповые дисперсии. Если объемы групп совпадают, условие однородности дисперсии слабо влияет на выводы, полученные с помощью F-критерия. Однако, если объемы выборок неодинаковы, нарушение условия о равенстве дисперсий может серьезно исказить результаты дисперсионного анализа. Таким образом, следует стремиться к тому, чтобы объемы выборок были одинаковыми. Одним из методов проверки предположения об однородности дисперсии является критерий Левенэ, описанный ниже.
Если из всех трех условий нарушается лишь условие об однородности дисперсии, можно применять процедуру, аналогичную t-критерию, использующему раздельную дисперсию. Однако, если предположения о нормальном распределении и однородности дисперсии нарушаются одновременно, необходимо выполнить нормализацию данных и уменьшить разности между дисперсиями или применить непараметрическую процедуру.
Модифицированный критерий Левенэ основан на утверждении, что если изменчивость в группах одинакова, для проверки нулевой гипотезы о равенстве дисперсий можно применить анализ дисперсии абсолютных величин разностей между наблюдениями и медианами групп. Итак, сначала следует вычислить абсолютные величины разностей между наблюдениями и медианами в каждой группе, а затем выполнить однофакторный дисперсионный анализ полученных абсолютных величин разностей. Для иллюстрации критерия Левенэ вернемся к сценарию, изложенному в начале заметки. Используя данные, представленные на, проведем аналогичный анализ, но в отношении модулей разница исходных данных и медиан по каждой выборке отдельно [11].