Однофакторный дисперсионный анализ для несвязанных выборок
Дисперсионный анализ
Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным(позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. (Суходольский Г.В., 1972; Шеффе Г., 1980).
Однофакторный дисперсионный анализ для несвязанных выборок
Изучается действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности.[1][1]
В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех.
Пример 1.Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в табл. 1.
Таблица 1. Количество воспроизведенных слов (по J. Greene, M D'Olivera, 1989, p. 99)
№ испытуемого | Группа 1 низкая скорость | Группа 2 средняя скорость | Группа 3 высокая скорость |
суммы | |||
средние | 7,17 | 6,17 | 4,00 |
Общая сумма |
Дисперсионный однофакторный анализ позволяет проверить гипотезы:
H0: различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы
H1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.
Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок:
1. подсчитаем SSфакт - вариативность признака, обусловленную действием исследуемого фактора. Часто встречающееся обозначение SS - сокращение от "суммы квадратов" (sum of squares). Это сокращение чаще всего используется в переводных источниках (см., например: Гласс Дж., Стенли Дж., 1976).
, (1)
где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1);
с – количество условий (градаций) фактора (=3);
n – количество испытуемых в каждой группе (=6);
N – общее количество индивидуальных значений (=18);
- квадрат общей суммы индивидуальных значений (=1042=10816)
Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.
По формуле (1) рассчитав фактическую вариативность признака, получаем:
2. подсчитаем SSобщ – общую вариативность признака:
(2)
3. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами:
(3)
4. число степеней свободыравно:
=3-1=2 (4)
5. «средний квадрат»или математическое ожидание суммы квадратов,усредненная величина соответствующих сумм квадратов SS равна:
(5)
6. значение статистики критерия Fэмп рассчитаем по формуле:
(6)
Для нашего примера имеем: Fэмп=15,72/2,11=7,45
7. определим Fкрит по статистическим таблицам Приложения 3 для df1=k1=2 и df2=k2=15 табличное значение статистики равно 3,68
8. если Fэмп< Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера Fэмп > Fкрит (7.45>3.68), следовательно принимается альтернативная гипотеза.
Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.