Однофакторный дисперсионный анализ

Элементы дисперсионного анализа

Цель данных методических указаний – познакомить студентов с простейшими задачами, решаемыми средствами дисперсионного анализа, и помочь в выполнении индивидуального задания.

Основные задачи

Предположим, что изучается влияние одного или нескольких факторов на некоторую величину. Эти факторы могут принимать разные значения, называемые уровнями. Факторы могут быть как числовыми, так и нечисловыми. Например, на износ автомобильных покрышек может влиять как тип покрышки (нечисловой фактор), так и длина пробега (числовой фактор).

Вот некоторые из задач, которые ставятся в дисперсионном анализе:

· влияет ли некоторый фактор или группа факторов на изучаемую величину?

· какой из них имеет наибольшее влияние?

· зависит ли влияние факторов от их взаимодействия друг с другом?

Предварительные сведения

Напомним определения некоторых понятий из курса теории вероятностей и математической статистики, необходимых для понимания последующего материала:

а) Функция Однофакторный дисперсионный анализ - student2.ru называется функцией распределения случайной величины Однофакторный дисперсионный анализ - student2.ru , если для любого Однофакторный дисперсионный анализ - student2.ru выполняется равенство Однофакторный дисперсионный анализ - student2.ru , где Однофакторный дисперсионный анализ - student2.ru вероятность попадания значения величины Однофакторный дисперсионный анализ - student2.ru в интервал Однофакторный дисперсионный анализ - student2.ru .
б) Функция Однофакторный дисперсионный анализ - student2.ru называется плотностью распределения.

в) Числовые характеристики случайной величины:

Однофакторный дисперсионный анализ - student2.ru математическое ожидание;
Однофакторный дисперсионный анализ - student2.ru дисперсия.

Математическое ожидание является в определенном смысле средним значением случайной величины, а дисперсия – характеристикой рассеяния значений случайной величины относительно ее среднего значения.

г) Число Однофакторный дисперсионный анализ - student2.ru , определяемое уравнением Однофакторный дисперсионный анализ - student2.ru , называется Однофакторный дисперсионный анализ - student2.ru -квантилью распределения. Из определения следует, что Однофакторный дисперсионный анализ - student2.ru -квантиль является возрастающей функцией от Однофакторный дисперсионный анализ - student2.ru . Если график плотности симметричен относительно математического ожидания Однофакторный дисперсионный анализ - student2.ru , то Однофакторный дисперсионный анализ - student2.ru и, значит, в этом случае Однофакторный дисперсионный анализ - student2.ru совпадает с Однофакторный дисперсионный анализ - student2.ru -квантилью.

д) Случайной выборкой объема Однофакторный дисперсионный анализ - student2.ru называется набор значений Однофакторный дисперсионный анализ - student2.ru случайной величины, полученных в результате Однофакторный дисперсионный анализ - student2.ru независимых опытов. Эти значения называют в статистике наблюдениями.

е) Функция Однофакторный дисперсионный анализ - student2.ru от наблюдений называется несмещенной оценкой параметра Однофакторный дисперсионный анализ - student2.ru , если ее математическое ожидание равно Однофакторный дисперсионный анализ - student2.ru .

Однофакторный дисперсионный анализ

1. Постановка задачи

Пусть фактор А имеет m уровней и число Однофакторный дисперсионный анализ - student2.ru получено в результате j-го опыта, проведенного на его i-м уровне, Однофакторный дисперсионный анализ - student2.ru . Числа Однофакторный дисперсионный анализ - student2.ru называются наблюдениями, а Однофакторный дисперсионный анализ - student2.ru число наблюдений, полученных на i-м уровне. Наблюдения представим в виде

Однофакторный дисперсионный анализ - student2.ru , (1)
где Однофакторный дисперсионный анализ - student2.ru - математическое ожидание у на i-м уровне, а Однофакторный дисперсионный анализ - student2.ru - случайная ошибка. Обычно наблюдения записывают в виде таблицы.

Таблица 1. Исходные данные

Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru

Отметим, что столбцы в таблице могут быть разной длины, так как число наблюдений на разных уровнях фактора А не обязательно одинаково.

Пример 1. Четыре фирмы производят одинаковые изделия, Однофакторный дисперсионный анализ - student2.ru некоторый показатель качества изделия (например, время безотказной работы). Здесь фактор А нечисловой – это фирма-производитель. Для сравнения качества изделий отбирают по 7 изделий у двух фирм и 9 и 8 изделий у двух других фирм и определяют значение Однофакторный дисперсионный анализ - student2.ru для каждого изделия. Получаем две случайные выборки объема 7 и две – объема 9 и 8. Здесь m = 4, n1 = 9, n2 = n3 = 7, n4 = 8. Требуется на основании этих данных выяснить, одинаково ли качество продукции у этих фирм, т.е. ответить на первый из перечисленных выше вопросов.

Если фактор не влияет на переменную у, торассеяние ее значений вызвано лишь случайными ошибками, а математические ожидания на всех уровнях одинаковы. В терминах математической статистики задача сводится к проверке гипотезы Однофакторный дисперсионный анализ - student2.ru .

Обозначим Однофакторный дисперсионный анализ - student2.ru . Число Однофакторный дисперсионный анализ - student2.ru называется эффектом фактора А на i-м уровне. Тогда уравнение (1) и гипотеза Однофакторный дисперсионный анализ - student2.ru принимают вид
Однофакторный дисперсионный анализ - student2.ru (2)
Однофакторный дисперсионный анализ - student2.ru . (3)
Далее предполагается, что случайные ошибки удовлетворяют следующим условиям:

а) имеют нулевое математическое ожидание;

б) имеют постоянную дисперсию, т.е. не зависящую ни от уровня фактора, ни от номера наблюдения;

в) подчиняются нормальному распределению.

2. Оценки параметров модели (2)
Определим следующие величины:
Однофакторный дисперсионный анализ - student2.ru средние значения по столбцам;
Однофакторный дисперсионный анализ - student2.ru отклонения от среднего в каждом столбце;
Однофакторный дисперсионный анализ - student2.ru общее среднее, Однофакторный дисперсионный анализ - student2.ru ;

Однофакторный дисперсионный анализ - student2.ru отклонения средних по столбцам от общего среднего;
Если выполнены допущения а), б), в), то можно доказать, что

Однофакторный дисперсионный анализ - student2.ru , (4)
где Однофакторный дисперсионный анализ - student2.ru .

На языке математической статистики соотношения (4) означают, что случай-ные величины Однофакторный дисперсионный анализ - student2.ru и Однофакторный дисперсионный анализ - student2.ru являются несмещенными оценками параметров Однофакторный дисперсионный анализ - student2.ru и Однофакторный дисперсионный анализ - student2.ru . 3. Идея проверки гипотезы (3)
Вычислим следующие суммы квадратов:

Однофакторный дисперсионный анализ - student2.ru полная сумма квадратов;

Однофакторный дисперсионный анализ - student2.ru межгрупповая сумма квадратов;

Однофакторный дисперсионный анализ - student2.ru внутригрупповая сумма квадратов.

Справедливо соотношение

Однофакторный дисперсионный анализ - student2.ru . (5)
Здесь Однофакторный дисперсионный анализ - student2.ru характеризует рассеяние средних по столбцам относительно общего среднего, т.е. рассеяние между группами (уровнями фактора), а Однофакторный дисперсионный анализ - student2.ru характеризует рассеяние значений Однофакторный дисперсионный анализ - student2.ru относительно Однофакторный дисперсионный анализ - student2.ru , т.е. рассеяние внутри групп (столбцов таблицы).

Метод проверки гипотезы (3) основан на следующей идее. Если гипотеза верна, т.е. Однофакторный дисперсионный анализ - student2.ru , то величины Однофакторный дисперсионный анализ - student2.ru должны быть достаточно близки к 0. Тогда вклад Однофакторный дисперсионный анализ - student2.ru в Однофакторный дисперсионный анализ - student2.ru по сравнению с Однофакторный дисперсионный анализ - student2.ru должен быть мал. Поэтому малое значение Однофакторный дисперсионный анализ - student2.ru является доводом в пользу гипотезы, а большое значение Однофакторный дисперсионный анализ - student2.ru является доводом против гипотезы. Очевидно, в этом рассуждении не хватает точного указания, какое значение Однофакторный дисперсионный анализ - student2.ru считать малым.

4. Применение F - критерия для проверки гипотезы

Опишем точный метод проверки гипотезы (3), основанный на Однофакторный дисперсионный анализ - student2.ru - критерии.

1. Вычисляем средние суммы квадратов:
Однофакторный дисперсионный анализ - student2.ru

Числа (m – 1) и (n – m), на которые делятся суммы квадратов, назы-ваются степенями свободы.

2. Вычисляем значение Однофакторный дисперсионный анализ - student2.ru - критерия

Однофакторный дисперсионный анализ - student2.ru .

3. Задаем число Однофакторный дисперсионный анализ - student2.ru и из таблицы квантилей Однофакторный дисперсионный анализ - student2.ru - распределения со степенями свободы Однофакторный дисперсионный анализ - student2.ru при уровне значимости Однофакторный дисперсионный анализ - student2.ru находим критическое значение Однофакторный дисперсионный анализ - student2.ru .

Правило:
если Однофакторный дисперсионный анализ - student2.ru , то гипотеза отвергается;

если Однофакторный дисперсионный анализ - student2.ru , то гипотеза принимается.

Замечания.

1) Вероятностный смысл Однофакторный дисперсионный анализ - student2.ru состоит в следующем. Предположим, что гипотеза Однофакторный дисперсионный анализ - student2.ru верна, но из-за случайных ошибок вычисленное значение F оказалось больше критического, т.е. Однофакторный дисперсионный анализ - student2.ru . Тогда согласно сформулированному выше правилу мы должны отвергнуть Однофакторный дисперсионный анализ - student2.ru , хотя на самом деле она верна. Получается, что, применяя это правило, мы в этом случае совершим ошибку, называемую ошибкой 1-го рода (отвергается верная гипотеза). Вероятность такой ошибки равна вероятности неравенства Однофакторный дисперсионный анализ - student2.ru , вычисленной в предположении верности гипотезы Однофакторный дисперсионный анализ - student2.ru , т.е. равна Однофакторный дисперсионный анализ - student2.ru .

2) Однофакторный дисперсионный анализ - student2.ru зависит от выбранного значения Однофакторный дисперсионный анализ - student2.ru , причем Однофакторный дисперсионный анализ - student2.ru увеличивается при уменьшении Однофакторный дисперсионный анализ - student2.ru . Поэтому, уменьшая Однофакторный дисперсионный анализ - student2.ru , всегда можно добиться выполнения неравенства Однофакторный дисперсионный анализ - student2.ru и тем самым принятия гипотезы. Однако, уменьшая Однофакторный дисперсионный анализ - student2.ru , мы увеличиваем Однофакторный дисперсионный анализ - student2.ru вероятность ошибки 2-го рода: принять Однофакторный дисперсионный анализ - student2.ru , когда на самом деле она неверна. Обычно используют Однофакторный дисперсионный анализ - student2.ru . Задать значение Однофакторный дисперсионный анализ - student2.ru мы не можем, так как оно зависит от неизвестных нам истинных значений эффектов Однофакторный дисперсионный анализ - student2.ru .

Пример 2.

Таблица 2. Исходные данные к примеру 2

Номер наблюдения А1 А2 А3 А4
9,57 11,17 12,07 13,12
8,33 10,81 11,06 10,81
10,13 11,73 10,90 12,36
10,29 10,41 10,17 12,75
8,85 13,18 11,29 9,91
11,19 10,86 9,66 10,06
11,19 11,11 11,71 12,07
9,96 - - 11,10
10,33 - - -
Однофакторный дисперсионный анализ - student2.ru 9,98 11,32 10,98 11,52

Здесь Однофакторный дисперсионный анализ - student2.ru

Из таблицы видно, что средние по столбцам заметно различаются. Однако нельзя исключить, что это различие вызвано лишь случайным рас-сеянием данных, в то время как "истинные" значения средних, т.е. Однофакторный дисперсионный анализ - student2.ru , одина-ковы. Для проверки гипотезы Однофакторный дисперсионный анализ - student2.ru применим описанный выше метод. Результаты расчетов приведены в таблице 3.

Таблица 3. Результат дисперсионного анализа

Источник рассеяния Сумма квадратов Степени свободы Средняя сумма квадратов Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
между группами 12,003 4,001 3,99 0,018

Окончание табл. 3

Источник рассеяния Сумма квадратов Степени свободы Средняя сумма квадратов Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru
внутри групп 27,047 1,002 - -
полная 39,05 - - -

Поясним содержание таблицы. Второй столбец содержит суммы квадратов Однофакторный дисперсионный анализ - student2.ru , смысл которых указан в первом столбце; в 3-м столбце – степени свободы, равные (m - 1), (n - m) и (n - 1) соответственно; 4-й столбец получается делением сумм квадратов на их степени свободы. В последний столбец обычно помещают вероятность Однофакторный дисперсионный анализ - student2.ru . Дело в том, что для проверки неравенства

Однофакторный дисперсионный анализ - student2.ru (6)

потребуется сначала найти Однофакторный дисперсионный анализ - student2.ru , а для этого нужна таблица квантилей F-распределения, которая не всегда доступна. Заметим, что Однофакторный дисперсионный анализ - student2.ru Однофакторный дисперсионный анализ - student2.ru где Однофакторный дисперсионный анализ - student2.ru функция распределения Фишера. Функция Однофакторный дисперсионный анализ - student2.ru возрастающая, поэтому неравенство (6) равносильно (7)

Однофакторный дисперсионный анализ - student2.ru . (7)

Поэтому вместо неравенства (6) можно пользоваться неравенством (7). В данном примере при Однофакторный дисперсионный анализ - student2.ru получаем Однофакторный дисперсионный анализ - student2.ru принимается на уровне значимости 0,05.

Наши рекомендации