Дисперсионный анализ. Задача однофакторного дисперсионного анализа
Во многих случаях практики нас интересует вопрос о степени влияния одного или нескольких факторов на результирующий признак. Факторами обычно называют внешние условия, влияющие на эксперимент. В условиях эксперимента факторы варьируют (т.е. изменяются), благодаря чему можно исследовать влияние фактора на результирующий признак. Дисперсионный анализ - это статистический метод анализа результатов наблюдений влияния одного или нескольких факторов, выбор наиболее важных факторов и оценка их влияния. Идея дисперсионного анализа принадлежит английскому статистику Р.А. Фишеру. В зависимости от количества факторов, включенных в анализ, различают однофакторный анализ, двухфакторный анализ и многофакторный анализ. Так, например, если на автоматической линии несколько станков параллельно выполняют некоторую операцию, то для выполнения дальнейших операций важно знать, несколько однотипны средние размеры деталей, получаемых на параллельно работающих станках. Здесь имеет место лишь один фактор F, влияющий на результирующий признак X ( размер деталей), - станки, на которых они изготовляются. Если имеется m станков, то говорят, что фактор F варьирует на m уровнях. Пусть с каждого станка на проверку попало соответственно n1, n2,....,nm деталей (или, как говорят, произведено n1, n2,..,nm наблюдений), которые называют повторностями. Если обозначить ij размер детали, взятой с i-го станка (уровня фактора) при j-ом наблюдении, то все наблюдения (или, как говорят, однофакторный комплекс) можно свести в таблицу 3. (таблица составлена для случая n1=n2=....=nm=n), которая называется матрицей наблюдений.
Таблица 3.
Уровни фактора | Наблюдения (повторности) | средние | |||||
F | ...... | j | ..... | n | |||
F1 | x11 | x12 | ...... | x1j | ...... | x1n | |
F2 | x21 | x22 | ...... | x2j | ...... | x2n | |
......... | ........ | ........ | ....... | ........ | ......... | ........ | ........ |
Fi | xi1 | xi2 | ...... | xij | ....... | xin | |
... | ..... | ...... | ....... | ......... | ......... | ........ | .......... |
Fm | xm1 | xm2 | .... | xmj | ......... | xn |
Основная идея однофакторного дисперсионного анализа.
Обратимся к матрице наблюдений 3. Абстрагируясь от конкретной задачи, будем считать, что исследуется зависимость некоторого результирующего признака X от факторного F и рассмотрим случай, когда число повторностей для каждого уровня фактора одинаково и равно n. Разумеется, в матрицу наблюдений попадает не вся генеральная совокупность, а только некоторая выборка на каждом уровне фактора. Обозначим -генеральную среднюю признака Х, - генеральную среднюю признака Х для i-го уровня фактора F. Очевидно, , где - вариация средней , обусловленная влиянием уровня фактора. Тогда каждое наблюдение можно представить в виде где - вариация результирующего признака Х. внутри i-го уровня, зависящая от случайных, неучтенных в модели факторов.
Общая задача дисперсионного анализа состоит в том, чтобы по выборочной матрице наблюдений оценить на заданном уровне значимости существенно или нет влияет фактор F на результирующий признак Х. Интуитивно ясно, что если фактор существенно влияет на признак Х, то среднее по уровням фактора должны сильно отличаться друг от друга. В связи с этим, общая идея состоит в том, чтобы определить для последующего сравнения, какая часть общей вариации результатов наблюдений обусловлена различием в уровнях факторов (и, следовательно, определяет долю влияния фактора), а что может быть отнесено за счет случайных причин.
Таким образом, дисперсионный анализ применяется для получения критериев при сравнении средних значений результирующего признака для различных уровней фактора. Существенность этих различий оценивается путем сравнения вкладов в дисперсию, которые дают оба источника вариации -различие в уровнях фактора и случайные отклонения.
Матрица наблюдений позволяет находить оценки средних и общей средней . Очевидно, что оценкой является средняя арифметическая наблюдений i-го уровня, т.е. . Оценкой общей средней является средняя арифметическая всей совокупности наблюдений, т.е.
(5)
Нам известно, что мерой вариации значений признака является выборочная дисперсия . Сумму квадратов отклонений значений результирующего признака от общей средней представим в виде суммы двух слагаемых следующим образом:
Второе слагаемое равно нулю. Отметим еще, что
поэтому сумму можно представить в виде:
(6)
В слагаемом суммируются квадраты отклонений средних значений признака на каждом уровне фактора от общей средней, следовательно оно характеризует влияние фактора на результирующий признак и называется факторным рассеиванием.
В слагаемом внутренние суммы представляют собой квадраты отклонений значений признака на каждом уровне фактора от своей средней, т.е. учитывает колебания значений признака внутри каждого уровня фактора, которые обусловлены случайными, неучтенными причинами. Все слагаемое суммирует эти случайные колебания по всем уровням фактора.
В соответствии с гипотетической интерпретацией выборочных данных будем считать наблюдаемые значения случайными величинами причем для проведения дисперсионного анализа необходимо соблюдать следующие условия: результаты наблюдений должны быть независимыми случайными величинами, имеющими нормальное распределение и одинаковую дисперсию . Доказано, что следующие случайные величины распределены по закону хи-квадрат с соответствующим числом степеней свободы:
(7)
причем доказано, что суммы Q1 и Q2, в случае справедливости исходной гипотезы, являются независимыми. В таком случае из сказанного следует, что критерий
(8)
распределен по закону Фишера с (m-1) и (mn-m) степенями свободы. С помощью полученного критерия Фишера на заданном уровне значимости сравнивают дисперсию по факторам с остаточной дисперсией , выясняя насколько существенным является влияние фактора. В этом сравнении и заключается основная идея дисперсионного анализа.
Схема реализации этой идеи следующая. Если справедлива исходная гипотеза о равенстве средних по уровням фактора, т.е. влияние всех уровней фактора одинаково, то являются несмещенными оценками общей дисперсии и не должны сильно отличаться. Тогда для оценки существенности влияния фактора достаточно проверить гипотезу . Для этого рассматривают критерий , распределенный по закону Фишера с и степенями свободы. По выборочным данным вычисляют его фактическое значение Fфакт, затем по таблицам распределения Фишера для заданного уровня значимости находим критическое значение критерия . Если вычисленное значение , то нулевая гипотеза отвергается и делается заключение о существенном влиянии фактора. При нет оснований отвергать нулевую гипотезу; считают, что влияние фактора несущественно.
Пример 8. В таблице4 приведены результаты конкурсного сортоиспытания культур (урожайность в ц/га). Каждый сорт испытывался на четырех участках. Методом дисперсионного анализа изучить влияние сорта на урожайность культуры. Установить существенность влияния фактора на уровне значимости 0,05.
Таблица 4.
Сорт культуры | Повторности | Средние по | |||
(уровни фактора F) | факторам | ||||
Гибрид 481 (F1) | 32,2 | 32,7 | 30,7 | 33,3 | 32,225 |
Новоукраинка 84 (F2) | 35,2 | 35,2 | 32,2 | 33,8 | 34,1 |
Безостая 4 (F3) | 45,7 | 44,2 | 43,7 | 44,0 | 44,4 |
Скороспелка 3 (F4) | 42,5 | 54,5 | 35,7 | 53,7 | 46,6 |
Приазовская (F5) | 36,8 | 37,0 | 38,0 | 37,8 | 37,4 |
В нашем примере m=5, n=4, mn=20. В последнем столбце таблицы 4 помещены вычисленные средние по факторам:
Аналогично вычислены остальные:
Вычислим общую среднюю
При вычислении факторной и остаточной дисперсий рекомендуется пользоваться формулами, упрощающими вычисления
– nm( ; - n (9)
Подставляя данные задачи в формулы (9), получим:
Теперь находим фактическое значение Fфакт критерия F по формуле . По таблицам распределения Фишера F(к1,к2) для
к1=m-1=4 и к2=m(n-1)=15 степеней свободы при уровне значимости 0,05 находим критическое значение критерия Fкр=3,06. В результате оказалось Fфакт>Fкр, следовательно, факторная и остаточная дисперсии отличаются значимо на 5%-ом уровне значимости. Иначе говоря, фактор F, сорт культуры, существенно влияет на урожайность. В частности, из таблицы 4 видно, что наибольшую урожайность дает сорт Скороспелка 3.