Условия применения факторного анализа
Факторный анализ может быть уместен, если выполняются следующие критерии.
1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.
2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.
3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.
4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.
5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.
Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых.
13.3. Приемы для определения числа факторов
Разработано несколько приемов для выбора «правильного» числа факторов из корреляционной матрицы. Определение числа выделяемых факторов, вероятно, наиболее важное решение, которое необходимо принять при проведении факторного анализа. Неверное решение может привести к бессмысленным результатам при обработке самого четкого набора данных. Нет ничего страшного в том, чтобы попытаться выполнить несколько вариантов анализа, базирующегося на разном числе факторов, и использовать нескольких различных приемов, определяющих выбор факторов.
Первые руководящие принципы — это теория, здравый смысл, а также прошлый опыт. При этом психолог должен установить:
o не способствует ли увеличение числа факторов уменьшению доли нагрузок в диапазоне от -0,4 до +0,4? Если это так, то это увеличение скорее всего не имеет смысла;
o не появляются ли какие либо большие корреляции между факторами при осуществлении облических вращений. Последнее может указывать, что было извлечено слишком много факторов, и два фактора проходят через один и тот же кластер переменных. Корреляции между факторами больше, чем приблизительно 0,5 могут косвенно свидетельствовать об этом;
o не разделились ли какие-либо хорошо известные факторы на две или большее количество частей. Например, если во множестве предшествующих исследований было показано, что набор заданий формирует только один фактор (например, экстраверсия), а вам кажется, что в вашем анализе, они все же формируют два фактора, вероятно, что было извлечено слишком много факторов.
Существует ряд способов определения числа факторов, с которыми связаны исследуемые переменные величины. Наиболее надежны из них — определение числа вкладов ряда первых т факторов в общую дисперсию. Обычно, если сумма вкладов первых т факторов составляет 90 или 95%, этой величиной ограничивают число анализируемых факторов.
Иллюстрирует это приведенный ниже пример в таблице 13.2
Таблица 13.2
Собственные значения 10 факторов Метод главных компонент | ||||
Факторы | Собственные значения факторов | % общей дисперсии | Кумулят. соб. знач. | Кумулят. % |
6,118369 | 61,18369 | 6,11837 | 61,1837 | |
1,800682 | 18,00682 | 7,91905 | 79,1905 | |
,472888 | 4,72888 | 8,39194 | 83,9194 | |
,407996 | 4,07996 | 8,79993 | 87,9993 | |
,317222 | 3,17222 | 9,11716 | 91,1716 | |
,293300 | 2,93300 | 9,41046 | 94,1046 | |
,195808 | 1,95808 | 9,60626 | 96,0626 | |
,170431 | 1,70431 | 9,77670 | 97,7670 | |
,137970 | 1,37970 | 9,91467 | 99,1467 | |
,085334 | ,85334 | 10,00000 | 100,0000 |
Как можно видеть из таблицы, первый фактор (значение 1) объясняет 61% процент общей дисперсии, фактор 2 (значение 2) — 18% процентов, и т.д. Четвертый столбец содержит накопленную или кумулятивную дисперсию. Напомним, что дисперсии, выделяемые факторами, называются собственными значениями.
Таким образом, из 10 факторов первые 5 объясняют 91% всей дисперсии, их анализом можно ограничиться. Фактически, однако, только первые два фактора несут на себе основную нагрузку, и реально исследователи в такой ситуации нередко пренебрегают оставшимися тремя, которые все вместе объясняют не более 12%.
В заключение отметим, что проблема определения числа факторов имеет ряд дискуссионных аспектов. Существуют несколько методов определения количества факторов, но они достаточно сложны и их реализация возможна только на ЭВМ.
Вращение факторов
Вращение факторов изменяет положение факторов по отношению к переменным таким образом, что получаемое решение легко интерпретировать. Как упоминалось выше, факторы идентифицируют, наблюдая, какие переменные имеют большие и/ или нулевые нагрузки по ним. Решения, которые не подчиняются интерпретации, — это те решения, в которых большое число переменных имеет нагрузки «среднего уровня» по фактору, т.е. нагрузки порядка 0,3. Они слишком малы, чтобы рассматриваться как «выступающие» и использоваться для идентификации фактора, и все же слишком велики, чтобы их можно было игнорировать безо всякого риска.
Вращение (ротация факторов) перемещает факторы относительно переменных таким образом, что каждый фактор начинает обладать несколькими существенными нагрузками и несколькими нагрузками близкими к нулю. Иными словами, цель вращения — преобразовать факторную матрицу таким образом, чтобы получилась простая структура, в которой каждый фактор имеет некоторое количество больших нагрузок и некоторое маленьких, и подобно этому каждая переменная имеет существенные нагрузки только по некоторым факторам.
Приведем пример факторной матрицы «до» и «после» вращения.
Таблица 13.3
До вращения | До вращения | После вращения (Варимакс) | После вращения (Варимакс) | |
Фактор 1 | Фактор 2 | Фактор 1 | Фактор 2 | |
Экстраверсия | 0.37 | 0.29 | 0.60 | 0.00 |
Тревожность | 0.42 | 0.52 | 0.74 | 0.00 |
Нейротизм | 0.43 | -0.43 | 0.13 | 0.75 |
Агрессивность | 0.51 | -0.32 | 0.06 | 0.89 |
Эта таблица демонстрирует, насколько проще интерпретировать факторы, полученные после вращения, по сравнению с факторами, имевшимися до вращения. Факторное решение до вращения (левая половина таблицы 13.3) трудно интерпретировать, поскольку все переменные имеют почти равные нагрузки как по первому, так и по второму фактору. После вращения (правая половина таблицы 13.3) получается простая структура, провести интерпретацию которой становится значительно проще. Распределение нагрузок по факторам дает основание утверждать, что первый фактор измеряет экстраверсию и тревожность, второй — нейротизм и агрессивность.
В практике факторного анализа используются разные варианты вращения факторов, при этом выделяются два основных метода вращения — ортогональное и косоугольное (облическое).
Сущность ортогонального вращения заключается в том, что при вращении остается верным предположение о независимости факторов.
Ортогональное вращение бывает четырех видов: варимакс, квартимакс, эквимакс и биквартимакс.
При использовании метода варимакс минимизируется количество переменных, имеющих высокие нагрузки на данный фактор, при этом максимально увеличивается дисперсия фактора. Это способствует упрощению описания фактора за счет группировки вокруг него только тех переменных, которые в большей степени связаны с ним, чем остальные.
Квартимакс, напротив, минимизирует количество факторов, необходимых для объяснения данной переменной. Этот метод усиливает возможности интерпретации переменных. Он позволяет выделить один фактор с достаточно высокими нагрузками на большинство переменных.
Последующие два метода являются комбинациями варимакса и квартимакса. Однако, как показывает практика, психологи предпочитают использовать метод варимакс.
Что касается методов косоугольного вращения, то они также позволяют упростить описание факторного решения за счет введения предположения о коррелированности факторов. В статистических программах на ЭВМ большое распространение получил метод облимин. Этот метод эквивалентен методу эквимакс для ортогонального вращения.