Двухфакторный дисперсионный анализ

Пусть случайная величина Двухфакторный дисперсионный анализ - student2.ru зависит от двух признаков (факторов) Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru
Обозначим Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru — уровни факторов Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru , соответственно.
Результаты измерения случайной величины Двухфакторный дисперсионный анализ - student2.ru представлены в таблице

  ... Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru
Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru ... Двухфакторный дисперсионный анализ - student2.ru
Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru ... Двухфакторный дисперсионный анализ - student2.ru
... ... ... ... ... ...
Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru ... Двухфакторный дисперсионный анализ - student2.ru

В каждой клетке таблицы – при каждом сочетании уровней факторов проведено по одному наблюдению (измерению). Тогда общее число наблюдений Двухфакторный дисперсионный анализ - student2.ru . Обозначим через Двухфакторный дисперсионный анализ - student2.ru математическое ожидание Двухфакторный дисперсионный анализ - student2.ru при уровне Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru ; через Двухфакторный дисперсионный анализ - student2.ru — математическое ожидание Двухфакторный дисперсионный анализ - student2.ru при уровне Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru . Если при изменении фактора Двухфакторный дисперсионный анализ - student2.ru сохраняется равенство Двухфакторный дисперсионный анализ - student2.ru , то естественно считать, что величина Двухфакторный дисперсионный анализ - student2.ru не зависит от фактора Двухфакторный дисперсионный анализ - student2.ru , принимается нулевая гипотеза Двухфакторный дисперсионный анализ - student2.ru . В противном случае, Двухфакторный дисперсионный анализ - student2.ru зависит от фактора Двухфакторный дисперсионный анализ - student2.ru . Аналогично определяется зависимость от фактора Двухфакторный дисперсионный анализ - student2.ru , нулевая гипотеза Двухфакторный дисперсионный анализ - student2.ru .

При решении задачи будем предполагать, что выполняются следующие условия: наблюдения при различных сочетаниях уровней факторов независимы и при всех сочетаниях уровней факторов случайная величина Двухфакторный дисперсионный анализ - student2.ru нормально распределена с одной и той же дисперсией Двухфакторный дисперсионный анализ - student2.ru .
Изменчивость наблюдаемых факторов при переходе от одной клетки таблицы к другой может быть обусловлена как изменением уровней факторов, так и случайными неконтролируемыми факторами.
Изменчивость, вызванная случайными неконтролируемыми факторами, называется остаточной.

Вычислим общую среднюю результатов измерений по формуле
Двухфакторный дисперсионный анализ - student2.ru . Эту величину можно представить в другой форме, использующей групповые средние Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru :

, .

Точка в индексе величины Двухфакторный дисперсионный анализ - student2.ru означает, что суммирование ведется по i-й строке, а точка в индексе величины Двухфакторный дисперсионный анализ - student2.ru означает, что суммирование ведется по j-му столбцу.
В этих обозначениях средняя результатов измерений вычисляется по формуле Двухфакторный дисперсионный анализ - student2.ru или Двухфакторный дисперсионный анализ - student2.ru .


Средняя изменчивость, вызванная фактором Двухфакторный дисперсионный анализ - student2.ru , вычисляется по формуле
Двухфакторный дисперсионный анализ - student2.ru .

Аналогично для изменчивости, вызванной фактором Двухфакторный дисперсионный анализ - student2.ru :
Двухфакторный дисперсионный анализ - student2.ru .
Для характеристики изменчивости, обусловленной случайными факторами, вычисляем
Двухфакторный дисперсионный анализ - student2.ru .
Общую изменчивость величины Двухфакторный дисперсионный анализ - student2.ru характеризуют величиной
Двухфакторный дисперсионный анализ - student2.ru .
Доказано, что Двухфакторный дисперсионный анализ - student2.ru .

Проверка гипотезы Двухфакторный дисперсионный анализ - student2.ru основывается на сравнении величин Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru .
Если гипотеза Двухфакторный дисперсионный анализ - student2.ru верна, то величина Двухфакторный дисперсионный анализ - student2.ru имеет распределение Фишера со степенями свободы Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru .
Зададимся уровнем значимости Двухфакторный дисперсионный анализ - student2.ru и найдем правостороннюю критическую точку Двухфакторный дисперсионный анализ - student2.ru — решение уравнения Двухфакторный дисперсионный анализ - student2.ru .

Если значение Двухфакторный дисперсионный анализ - student2.ru , вычисленное по результатам измерений удовлетворяет неравенству Двухфакторный дисперсионный анализ - student2.ru , то гипотеза Двухфакторный дисперсионный анализ - student2.ru принимается.
В противном случае – отвергается и можно заключить, что изменение фактора Двухфакторный дисперсионный анализ - student2.ru влияет на изменение величины Двухфакторный дисперсионный анализ - student2.ru . Мерой этого влияния является коэффициент детерминации Двухфакторный дисперсионный анализ - student2.ru , который показывает, какая доля общей изменчивости величины Двухфакторный дисперсионный анализ - student2.ru обусловлена увеличением фактора Двухфакторный дисперсионный анализ - student2.ru .
Аналогично проверяется гипотеза Двухфакторный дисперсионный анализ - student2.ru основывается на сравнении величин Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru .

Если гипотеза Двухфакторный дисперсионный анализ - student2.ru верна, то величина Двухфакторный дисперсионный анализ - student2.ru имеет распределение Фишера со степенями свободы Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru .
При уровне значимости Двухфакторный дисперсионный анализ - student2.ru правосторонняя критическая точка Двухфакторный дисперсионный анализ - student2.ru — решение уравнения Двухфакторный дисперсионный анализ - student2.ru . Если значение Двухфакторный дисперсионный анализ - student2.ru , вычисленное по результатам измерений удовлетворяет неравенству Двухфакторный дисперсионный анализ - student2.ru ,
то гипотеза Двухфакторный дисперсионный анализ - student2.ru принимается.
В противном случае гипотеза Двухфакторный дисперсионный анализ - student2.ru отвергается и можно заключить, что изменение фактора Двухфакторный дисперсионный анализ - student2.ru влияет на изменение величины Двухфакторный дисперсионный анализ - student2.ru . Мерой этого влияния является коэффициент детерминации Двухфакторный дисперсионный анализ - student2.ru , который показывает, какая доля общей изменчивости величины Двухфакторный дисперсионный анализ - student2.ru обусловлена увеличением фактора Двухфакторный дисперсионный анализ - student2.ru .
В рамках двухфакторного дисперсионного анализа можно получить более конкретное представление о случайной величине Двухфакторный дисперсионный анализ - student2.ru .
Ее модель на Двухфакторный дисперсионный анализ - student2.ru -м уровне фактора A и на j-м уровне фактора B имеет вид
Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru , где a — генеральное среднее случайной величины Двухфакторный дисперсионный анализ - student2.ru , Двухфакторный дисперсионный анализ - student2.ru — слагаемое, которое описывает эффект влияния фактора A на случайную величину Двухфакторный дисперсионный анализ - student2.ru на i-м уровне фактора A,
Двухфакторный дисперсионный анализ - student2.ru — слагаемое, которое описывает эффект влияния фактора B на случайную величину Двухфакторный дисперсионный анализ - student2.ru на j-м уровне фактора B,
Двухфакторный дисперсионный анализ - student2.ru — слагаемое, которое описывает эффект влияния случайных факторов.
Величины Двухфакторный дисперсионный анализ - student2.ru — независимые случайные величины, имеющие одинаковое нормальное распределение Двухфакторный дисперсионный анализ - student2.ru .

Если гипотезы Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru не отвергаются, то в рассмотренной модели параметры

Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru .

Величина Двухфакторный дисперсионный анализ - student2.ru является оценкой параметра Двухфакторный дисперсионный анализ - student2.ru , а величина Двухфакторный дисперсионный анализ - student2.ru — несмещенная оценка параметра Двухфакторный дисперсионный анализ - student2.ru .
Если гипотезы Двухфакторный дисперсионный анализ - student2.ru и Двухфакторный дисперсионный анализ - student2.ru отвергаются, то: оценка параметра a равна Двухфакторный дисперсионный анализ - student2.ru , оценка параметра Двухфакторный дисперсионный анализ - student2.ru равна Двухфакторный дисперсионный анализ - student2.ru , оценка параметра Двухфакторный дисперсионный анализ - student2.ru равна Двухфакторный дисперсионный анализ - student2.ru ,
а величина Двухфакторный дисперсионный анализ - student2.ru служит несмещенной оценкой параметра Двухфакторный дисперсионный анализ - student2.ru .

Пример: Проведите двухфакторный дисперсионный анализ таблицы. Запишите уточнённую модель.

  Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru Двухфакторный дисперсионный анализ - student2.ru
Двухфакторный дисперсионный анализ - student2.ru 10.9 11.1 9.9 11.51
Двухфакторный дисперсионный анализ - student2.ru 13.3 15.2 14.8 14.9
Двухфакторный дисперсионный анализ - student2.ru 17.3 18.0 19.6 19.3

На приведенном ниже рисунке изображён фрагмент листа Excel c результатами вычислений.

Двухфакторный дисперсионный анализ - student2.ru

Выборочное значение критерия Фишера для фактора А попадает в критическую область, 89.19 > 5.14.
Фактор А является причиной изменчивости случайной величины.
Коэффициент детерминации для фактора Аравен rA=0.94. Это означает, что более 94% всей изменчивости исследуемой случайной величины обусловлено изменением фактора А. Выборочное значение критерия Фишера для фактора В не попадает в критическую область, 1.56 < 4.76.

Фактор В не является причиной изменчивости случайной величины.
На долю фактора Вприходится только 2% изменчивости, поскольку rВ=0.02.
Для всех уровней фактора случайные величины распределены нормально со стандартным отклонением 0.82 и математическими ожиданиями 10.852, 14.55 и 18.55 соответственно для каждого уровня фактора.
Матрица, описывающая влияние факторов на изучаемое явление – уточнённая матрица.

Так, например, на уровнях А2иВ3случайная величина имеет нормальное распределение

Дискриминантный анализ

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Пошаговый дискриминантный анализ:

Вероятно, наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой.

Модель.Другими словами, вы хотите построить "модель", позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной образец. В следующем рассуждении термин "в модели" будет использоваться для того, чтобы обозначать переменные, используемые в предсказании принадлежности к совокупности; о неиспользуемых для этого переменных будем говорить, что они "вне модели".

Пошаговый анализ с включением. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Пошаговый анализ с исключением.Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

F для включения, F для исключения. Эта пошаговая процедура "руководствуется" соответствующим значением F для включения и соответствующим значением F для исключения. Значение F статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, то есть, она является мерой вклада переменной в предсказание членства в совокупности. Если вы знакомы с пошаговой процедурой множественной регрессии, то вы можете интерпретировать значение F для включения/исключения в том же самом смысле, что и в пошаговой регрессии.

Расчет на случай.Пошаговый дискриминантный анализ основан на использовании статистического уровня значимости. Поэтому по своей природе пошаговые процедуры рассчитывают на случай, так как они "тщательно перебирают" переменные, которые должны быть включены в модель для получения максимальной дискриминации. При использовании пошагового метода исследователь должен осознавать, что используемый при этом уровень значимости не отражает истинного значения альфа, то есть, вероятности ошибочного отклонения гипотезы H0 (нулевой гипотезы, заключающейся в том, что между совокупностями нет различия).

Интерпретация функции дискриминации для двух групп:

Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии (и аналогичная ей) - (см. раздел Множественная регрессия; дискриминантный анализ для двух групп также называется Линейным дискриминантным анализом Фишера после работы Фишера (Fisher, 1936). (С вычислительной точки зрения все эти подходы аналогичны). Если вы кодируете две группы как 1 и 2, и затем используете эти переменные в качестве зависимых переменных в множественной регрессии, то получите результаты, аналогичные тем, которые получили бы с помощью Дискриминантного анализа. В общем, в случае двух совокупностей вы подгоняете линейное уравнение следующего типа:

Группа = a + b1*x1 + b2*x2 + ... + bm*xm

где a является константой, и b1...bm являются коэффициентами регрессии. Интерпретация результатов задачи с двумя совокупностями тесно следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Дискриминантные функции для нескольких групп:

Если имеется более двух групп, то можно оценить более, чем одну дискриминантную функцию подобно тому, как это было сделано ранее. Например, когда имеются три совокупности, вы можете оценить: (1) - функцию для дискриминации между совокупностью 1 и совокупностями 2 и 3, взятыми вместе, и (2) - другую функцию для дискриминации между совокупностью 2 и совокупности 3. Например, вы можете иметь одну функцию, дискриминирующую между теми выпускниками средней школы, которые идут в колледж, против тех, кто этого не делает (но хочет получить работу или пойти в училище), и вторую функцию для дискриминации между теми выпускниками, которые хотят получить работу против тех, кто хочет пойти в училище. Коэффициенты b в этих дискриминирующих функциях могут быть проинтерпретированы тем же способом, что и ранее.

Наши рекомендации