Ограничения дисперсионного анализа и подготовка данных
Дисперсионный анализ.
Понятие, назначение дисперсионного анализа. Виды дисперсионного анализа.
Дисперсионный анализ – анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов.
(В зарубежной литературе именуется ANOVA – «Analisis of Variance»)
Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:
- Вариативность, обусловленную действием каждой из исследуемых независимых переменных.
- Вариативность, обусловленную взаимодействием исследуемых независмых переменных.
- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.
Вариативность, обусловленная действием исследуемых переменных и их взаимодействием соотносится со случайной вариативностью. Показателем этого соотношения является F – критерий Фишера (метод, не имеющий ничего общего, кроме автора, с «угловым преобразованием Фишера»).
FэмпА = Вариативность, обусловленная действием переменной А / Случайная вариативность
FэмпБ = Вариативность, обусловленная действием переменной Б / Случайная вариативность
FэмпАБ = Вариативность, обусловленная взаимодействием А и Б / Случайная вариативность
В формулу расчета критерия F взодят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических. Чем в большей степени вариативность признака обусловлена исследуемыми переменными или их взаимодействием, тем выше эмпирические значения критерия F.
В отличие от корреляционного анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности рассуждений об источнике и объекте влияния.
Формулировка гипотез в дисперсионном анализе.
Нулевая гипотеза:
«Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».
Альтернативная гипотеза:
«Средние величины результативного признака в разных условиях действия фактора различны».
Виды дисперсионного анализа.
Дисперсионный анализ схематически можно подразделить на несколько категорий. Это деление осуществляется, смотря по тому, сколько, во-первых, факторов принимает участие в рассмотрении, во-вторых, - сколько переменных подвержены действию факторов, и, в-третьих, - по тому, как соотносятся друг с другом выборки значений.
При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:
- Анализ несвязанных (то есть – различных) выборок. Например, одна группа респондентов решает задачу в условиях тишины, вторая – в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении», то есть не зависит от фактора шума.)
- Анализ связанных выборок. То есть: двух замеров, проведенных на одной и той же группе респондентов в разных условиях. Тот же пример: в первый раз задача решалась в тишине, второй – сходная задача – в условиях шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость», влияние которого исследователь рискует приписать изменению условий, а именно, - шуму.)
В случае, если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.
Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе.
Ограничения дисперсионного анализа и подготовка данных.
Дисперсионный анализ следует применять тогда, когда известно (установлено), что распределение результативного признака является нормальным.
Для проверки следует провести расчеты ассимметрии и эксцесса по следующим формулам:
A = Σ (xi – xср)3 / ns3
mA= √6/n
E = (Σ (xi – xср)4 / ns4 ) - 3
mE= 2√6/n ,
где А и Е – ассимметрия и эксцесс, а mA и mE – их ошибки репрезентативности. После подстановки значений не должно оказаться так, чтобы ассимметрия и эксцесс превышали более, чем втрое свои ошибки репрезентативности. При соблюдении этого требования, распределение можно считать нормальным.
Будем называть данные, относящиеся к одному условию действия фактора (к одной градации) дисперсионным комплексом.
Дисперсионный анализ требует также, чтобы между комплексами соблюдалось равенство дисперсий. В литературе по этому вопросу предлагается (и доказана правомочность предложения) удовлетворять такое требование уравниванием числа значений в каждом из комплексов. Иными словами, если в тихой аудитории решали задачу 10 человек, то и в шумную мы должны посадить столько же; если белых кур набралось 100, черных – 80, а пестрых – 70, - мы обязаны взять только по 70 кур каждого цвета. Причем, отбор следует осуществлять случайным образом.