Однофакторный дисперсионный анализ
Элементы дисперсионного анализа
Цель данных методических указаний – познакомить студентов с простейшими задачами, решаемыми средствами дисперсионного анализа, и помочь в выполнении индивидуального задания.
Основные задачи
Предположим, что изучается влияние одного или нескольких факторов на некоторую величину. Эти факторы могут принимать разные значения, называемые уровнями. Факторы могут быть как числовыми, так и нечисловыми. Например, на износ автомобильных покрышек может влиять как тип покрышки (нечисловой фактор), так и длина пробега (числовой фактор).
Вот некоторые из задач, которые ставятся в дисперсионном анализе:
· влияет ли некоторый фактор или группа факторов на изучаемую величину?
· какой из них имеет наибольшее влияние?
· зависит ли влияние факторов от их взаимодействия друг с другом?
Предварительные сведения
Напомним определения некоторых понятий из курса теории вероятностей и математической статистики, необходимых для понимания последующего материала:
а) Функция называется функцией распределения случайной величины
, если для любого
выполняется равенство
, где
вероятность попадания значения величины
в интервал
.
б) Функция называется плотностью распределения.
в) Числовые характеристики случайной величины:
математическое ожидание;
дисперсия.
Математическое ожидание является в определенном смысле средним значением случайной величины, а дисперсия – характеристикой рассеяния значений случайной величины относительно ее среднего значения.
г) Число , определяемое уравнением
, называется
-квантилью распределения. Из определения следует, что
-квантиль является возрастающей функцией от
. Если график плотности симметричен относительно математического ожидания
, то
и, значит, в этом случае
совпадает с
-квантилью.
д) Случайной выборкой объема называется набор значений
случайной величины, полученных в результате
независимых опытов. Эти значения называют в статистике наблюдениями.
е) Функция от наблюдений называется несмещенной оценкой параметра
, если ее математическое ожидание равно
.
Однофакторный дисперсионный анализ
1. Постановка задачи
Пусть фактор А имеет m уровней и число получено в результате j-го опыта, проведенного на его i-м уровне,
. Числа
называются наблюдениями, а
число наблюдений, полученных на i-м уровне. Наблюдения представим в виде
, (1)
где - математическое ожидание у на i-м уровне, а
- случайная ошибка. Обычно наблюдения записывают в виде таблицы.
Таблица 1. Исходные данные
![]() | ![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() | ![]() |
![]() ![]() | ![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() | ![]() |
Отметим, что столбцы в таблице могут быть разной длины, так как число наблюдений на разных уровнях фактора А не обязательно одинаково.
Пример 1. Четыре фирмы производят одинаковые изделия, некоторый показатель качества изделия (например, время безотказной работы). Здесь фактор А нечисловой – это фирма-производитель. Для сравнения качества изделий отбирают по 7 изделий у двух фирм и 9 и 8 изделий у двух других фирм и определяют значение
для каждого изделия. Получаем две случайные выборки объема 7 и две – объема 9 и 8. Здесь m = 4, n1 = 9, n2 = n3 = 7, n4 = 8. Требуется на основании этих данных выяснить, одинаково ли качество продукции у этих фирм, т.е. ответить на первый из перечисленных выше вопросов.
Если фактор не влияет на переменную у, торассеяние ее значений вызвано лишь случайными ошибками, а математические ожидания на всех уровнях одинаковы. В терминах математической статистики задача сводится к проверке гипотезы .
Обозначим . Число
называется эффектом фактора А на i-м уровне. Тогда уравнение (1) и гипотеза
принимают вид
(2)
. (3)
Далее предполагается, что случайные ошибки удовлетворяют следующим условиям:
а) имеют нулевое математическое ожидание;
б) имеют постоянную дисперсию, т.е. не зависящую ни от уровня фактора, ни от номера наблюдения;
в) подчиняются нормальному распределению.
2. Оценки параметров модели (2)
Определим следующие величины:
средние значения по столбцам;
отклонения от среднего в каждом столбце;
общее среднее,
;
отклонения средних по столбцам от общего среднего;
Если выполнены допущения а), б), в), то можно доказать, что
, (4)
где .
На языке математической статистики соотношения (4) означают, что случай-ные величины и
являются несмещенными оценками параметров
и
. 3. Идея проверки гипотезы (3)
Вычислим следующие суммы квадратов:
полная сумма квадратов;
межгрупповая сумма квадратов;
внутригрупповая сумма квадратов.
Справедливо соотношение
. (5)
Здесь характеризует рассеяние средних по столбцам относительно общего среднего, т.е. рассеяние между группами (уровнями фактора), а
характеризует рассеяние значений
относительно
, т.е. рассеяние внутри групп (столбцов таблицы).
Метод проверки гипотезы (3) основан на следующей идее. Если гипотеза верна, т.е. , то величины
должны быть достаточно близки к 0. Тогда вклад
в
по сравнению с
должен быть мал. Поэтому малое значение
является доводом в пользу гипотезы, а большое значение
является доводом против гипотезы. Очевидно, в этом рассуждении не хватает точного указания, какое значение
считать малым.
4. Применение F - критерия для проверки гипотезы
Опишем точный метод проверки гипотезы (3), основанный на - критерии.
1. Вычисляем средние суммы квадратов:
Числа (m – 1) и (n – m), на которые делятся суммы квадратов, назы-ваются степенями свободы.
2. Вычисляем значение - критерия
.
3. Задаем число и из таблицы квантилей
- распределения со степенями свободы
при уровне значимости
находим критическое значение
.
Правило:
если , то гипотеза отвергается;
если , то гипотеза принимается.
Замечания.
1) Вероятностный смысл состоит в следующем. Предположим, что гипотеза
верна, но из-за случайных ошибок вычисленное значение F оказалось больше критического, т.е.
. Тогда согласно сформулированному выше правилу мы должны отвергнуть
, хотя на самом деле она верна. Получается, что, применяя это правило, мы в этом случае совершим ошибку, называемую ошибкой 1-го рода (отвергается верная гипотеза). Вероятность такой ошибки равна вероятности неравенства
, вычисленной в предположении верности гипотезы
, т.е. равна
.
2) зависит от выбранного значения
, причем
увеличивается при уменьшении
. Поэтому, уменьшая
, всегда можно добиться выполнения неравенства
и тем самым принятия гипотезы. Однако, уменьшая
, мы увеличиваем
вероятность ошибки 2-го рода: принять
, когда на самом деле она неверна. Обычно используют
. Задать значение
мы не можем, так как оно зависит от неизвестных нам истинных значений эффектов
.
Пример 2.
Таблица 2. Исходные данные к примеру 2
Номер наблюдения | А1 | А2 | А3 | А4 |
9,57 | 11,17 | 12,07 | 13,12 | |
8,33 | 10,81 | 11,06 | 10,81 | |
10,13 | 11,73 | 10,90 | 12,36 | |
10,29 | 10,41 | 10,17 | 12,75 | |
8,85 | 13,18 | 11,29 | 9,91 | |
11,19 | 10,86 | 9,66 | 10,06 | |
11,19 | 11,11 | 11,71 | 12,07 | |
9,96 | - | - | 11,10 | |
10,33 | - | - | - | |
![]() | 9,98 | 11,32 | 10,98 | 11,52 |
Здесь
Из таблицы видно, что средние по столбцам заметно различаются. Однако нельзя исключить, что это различие вызвано лишь случайным рас-сеянием данных, в то время как "истинные" значения средних, т.е. , одина-ковы. Для проверки гипотезы
применим описанный выше метод. Результаты расчетов приведены в таблице 3.
Таблица 3. Результат дисперсионного анализа
Источник рассеяния | Сумма квадратов | Степени свободы | Средняя сумма квадратов | ![]() | ![]() |
между группами | 12,003 | 4,001 | 3,99 | 0,018 |
Окончание табл. 3
Источник рассеяния | Сумма квадратов | Степени свободы | Средняя сумма квадратов | ![]() | ![]() |
внутри групп | 27,047 | 1,002 | - | - | |
полная | 39,05 | - | - | - |
Поясним содержание таблицы. Второй столбец содержит суммы квадратов , смысл которых указан в первом столбце; в 3-м столбце – степени свободы, равные (m - 1), (n - m) и (n - 1) соответственно; 4-й столбец получается делением сумм квадратов на их степени свободы. В последний столбец обычно помещают вероятность
. Дело в том, что для проверки неравенства
(6)
потребуется сначала найти , а для этого нужна таблица квантилей F-распределения, которая не всегда доступна. Заметим, что
где
функция распределения Фишера. Функция
возрастающая, поэтому неравенство (6) равносильно (7)
. (7)
Поэтому вместо неравенства (6) можно пользоваться неравенством (7). В данном примере при получаем
принимается на уровне значимости 0,05.