Проведение факторного анализа
Процедура факторного анализа позволяет перейти от матрицы 1314x21 к матрице, включающей 1314 случаев (cases) и значительно меньшее число переменных, которые являются интегральными характеристиками первичных
переменных и называются факторами. Под факторами понимаются гипотетические непосредственно не измеряемые (латентные) показатели, в той или иной мере связанные с измеряемыми характеристиками. Последние выступают в роли внешних проявлений этих факторов. Являются ли факторы причинами или просто агрегированными теоретическими конструктами, зависит от способа их включения в теоретические представления о явлении, к которому они относятся, т.е. от интерпретации. Необходимо обратить внимание, что количество случаев (анкет) должно быть на порядок больше первичных переменных, включенных в процедуру факторизации.
Для проведения факторного анализа в программе SPSS 8.0 необходимо произвести следующие действия:
1. Выбрать опции -» Statistics -» Data Reduction -»Factor... (рис. 44).
Рис. 44
2. Выбрать переменные, подлежащие факторизации (рис. 45):-» Variables(s):Око за око, зуб за зуб
Возлюби ближнего твоего, как самого себя
Не обманешь — не проживешь
Бог терпел, да и нам велел
Каждый сам за себя
Человек человеку друг, товарищ и брат и т.д.
3. -»Descriptives...
Correlation Matrix 0 Coefficients
Рис. 45
Корреляционная матрица строится на основе расчета коэффициента парной корреляции Пирсона. Коэффициент корреляции — числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь. Постановка флажка 0 Coefficientsпозволит увидеть коэффициенты парной корреляции Пирсона. Например, переменная «Око за око, зуб за зуб» имеет положительную корреляцию с переменной «Не обманешь — не проживешь» (R=0,304). Социологическая интерпретация значения коэффициента Пирсона состоит в следующем: «Если респондент согласен с пословицей «Не обманешь — не проживешь», то с определенной долей вероятности можно утверждать, что этому респонденту ближе и понятней социальное взаимодействие, согласно которому отношения между людьми должны строится по принципу «Око за око, зуб за зуб». То есть мы можем говорить о взаимосвязи этих двух переменных. На основании матрицы корреляций происходит формирование факторов (рис. 46).
4.-» Rotation...
Method
Щ. Varimax
Display
0 Loading plots (см. рис. 47).
Вращение факторов осуществляется с целью максимизации факторных нагрузок первичных переменных. При проверочном (конфирматорном) анализе критерием качества вращения является соответствие факторной структуры той структуре, которая задана исследователем. При разведочном (экс-плораторном) анализе критерии требуют достижения «простой структуры», когда нагрузки максимально «поляризованы» между нулем и единицей. Процедура необходима для упрощения интерпретации факторной модели исследуемой области. Результаты процедуры вращения показаны на графиках (рис. 48). Величина нагрузки после вращения несколько выше, чем до вращения факторов.
1БЗ
Рис. 46
Рис. 47
Уровень общности первичной переменной с факторами.Для интерпретации факторов имеет значение доля дисперсии переменной, которая может быть объяснена общими факторами. В столбце «Initial» (табл. 27) даны начальные дисперсии первичных переменных, которые при методе главных компонент (Principal components) всегда равны 1. В колонке «Extraction» даны извлеченные дисперсии первичных переменных с факторами. Наибольшая доля дисперсии присутствует у переменной «Не пойман -- не вор» и равняется 0,405.
Если в первоначальной исходной матрице 1314x21 каждая первичная переменная имеет значение доли дисперсии равной 1, то в матрице 1314x2 значение доли дисперсии снижается. Первичная переменная, имеющая значение доли дисперсии (Extract) близкое к нулю, из факторизации исключается как незначимая в данной структуре факторов.
Рис. 48. Процедура вращения факторов: а — до вращения, б — после вращения
Таблица 27 Доля дисперсии переменной, объясненной факторами
№ | Initial | Extraction | |
Око за око, зуб за зуб | 1,000 | 0,269 | |
Возлюби ближнего твоего, как самого себя | 1,000 | 0,322 | |
3 4 | Не обманешь — не проживешь | 1,000 | 0,387 |
Богтерпел, да и нам велел | 1,000 | 0,388 | |
Каждый сам за себя | 1,000 | 0,249 | |
Человек человеку друг, товарищ и брат | 1,000 | 0,288 | |
Всяк человек живет для себя, а для других — как получится | 1,000 | 0,354 | |
Велика святорусская земля, а правде нигде нет места | 1,000 | 0,277 | |
Э | Закон — дышло: куда захочешь, туда и воротишь | 1,000 | 0,309 |
Пусти душу в ад, будешь богат | 1,000 | 0,214 | |
Худо тому, кто добра не делает никому | 1,000 | 0,304 | |
Лучше жить бедняком, чемжитьсо грехом | 1,000 | 0,333 | |
Глас народа — глас Божий | 1,000 | 0,301 | |
Варварство истребляется варварскими методами | 1,000 | 0,224 | |
Все продается, дело только в цене | 1,000 | 0,390 | |
J6_ _Г7_ | Терпение — лучшее спасение | 1,000 | 0,372 |
Просите, и дано будет вам; ищите, и найдете; стучите, и отворят вам | 1,000 | 0,349 | |
Что ни делается, все к лучшему | 1,000 | 0,236 | |
19 20 21 | С волками жить — по-волчьи выть | 1,000 | 0,401 |
Не пойман — не вор | 1,000 | 0,405 | |
От трудов праведных не наживешь палат каменных | 1,000 | 0,277 |
Установка метода факторного анализа (рис. 49).
-» Extraction...
Method
Principal components Я
Analyze
Щ, Correlation matrix
Extract
Щ. Number of factors 2
Рис. 49
Объясненная дисперсия(табл. 28). Метод главных компонент (Principal components) может быть интерпретирован как проблема:
♦ нахождения оптимальных весов, т.е. оптимальных коэффициентов регрессии;
♦ преобразования исходных переменных в новые, обладающие более удобными операционными свойствами.
В методе главных компонент процент общей дисперсии, объясненной двумя факторами, составляет 31,661%, — т.е. при переходе от матрицы 1314x21 кматрице 1314x2 произошла потеря 68,339% информации. Новслед-ствии этого перехода мы получили возможность выразить 21 переменную посредством двух факторов. Вариабельность двух факторов объясняет 31,661 % исходных переменных.
Значение факторов.При установке флажка 0 Save as variables (рис. 50) SPSS создаст переменные, которые содержат вклад каждого респондента в каждый из факторов. Факторы являются z-вкладами, имеющими нулевое среднее значение и единичное стандартное отклонение.
-» Scores...
0 Save as variables
Method
Щ. Regression
-> Continue
Рис. 50
Таблица 21 Объясненная дисперсия
Component | Initial Eigenvalues | ||
Total | % of Variance | Cumulative% | |
3,902 | 18,582 | 18,582 | |
2,747 | 13,080 | 31,661 | |
1,220 | 5,810 | 37,472 | |
1,102 | 5,247 | 42,719 | |
1,027 | 4,888 | 47,607 | |
0,928 | 4,418 | 52,025 | |
0,906 | 4,313 | 56,339 | |
0,852 | 4,055 | 60,394 | |
0,788 | 3,750 | 64,144 | |
0,759 | 3,615 | 67,759 | |
0,746 | 3,551 | 71,310 | |
0,696 | 3,313 | 74,623 | |
0,688 | 3,277 | 77,901 | |
0,667 | 3,177 | 81,077 | |
0,634 | 3,018 | 84,096 | |
0,596 | 2,836 | 86,931 | |
0,590 | 2,808 | 89,739 | |
0,569 | 2,711 | 92,449 | |
0,554 | 2,639 | 95,088 | |
0,534 | 2,543 | 97,631 | |
lL_ 21 | 0,497 | 2,369 | 100,000 |
Значение факторов для случая(cases, анкет). Например, значение z-вклада для респондента 38 (Рис. 51) составляет по facll («Характер мироотношения») -1,14254 и по fac2_l («Характер социального взаимодействия») 1,27939 (социологическое значение данной информации будет рассмотрено ниже).
Рис. 51
-> Options... (рис. 52)
Method
ГЦ. Exclude cases listwise
0 Sorted by size
0 Suppress absolute values less than: ,30.
Рис. 52 1Б8
Установка указанных опций позволит включить в анализ только те анкеты (cases), которые содержат информацию по факторизуемым переменным, и упорядочить матрицу факторных нагрузок.
Интерпретация факторов
Наиболее сложным и ответственным этапом в применении факторного анализа является интерпретация полученных факторов. Интерпретации, при проведении процедуры вращения факторов, подвергается повернутая матрица факторов (Rotated Component Matrix — табл. 29). Включение флажков 0 Sorted by sizeи 0 Suppress absolute vfllues less thanпредставляет возможность получить матрицу факторов в упорядоченном по факторам и внутри фактора виде. Переменные с факторными нагрузками менее 0,3 социологической интерпретации (вербализации) не поддаются.
Таблица 29 Матрица нагрузок повернутых факторов
№ | Пословицы | Component[ | |
С волками жить — по-волчьи выть | 0,633 | ||
Все продается, дело только в цене | 0,622 | ||
Не пойман — не вор | 0,620 | ||
Всяк человек живет для себя, а для других — как получится | 0,591 | ||
Не обманешь — не проживешь | 0,583 | ||
Закон — дышло: куда захочешь, туда и воротишь | 0,552 | ||
От трудов праведных не наживешь палат каменных | 0,518 | ||
Велика святорусская земля, а правде нигде нет места | 0,504 | ||
Каждый сам за себя | 0,494 | ||
Око за око, зуб за зуб | 0,493 | ||
Варварство истребляется варварскими методами | 0,467 | ||
Пусти душу в ад, будешь богат | 0,435 | ||
Богтерпел, дайнам велел | 0,619 | ||
Терпение — лучшее спасение | 0,609 | ||
Просите, и дано будет вам; ищите, и найдете; стучите, и отворят вам | 0,589 | ||
Лучше жить бедняком, чем жить со грехом | 0,569 | ||
Возлюби ближнего твоего, как самого себя | 0,540 | ||
Худо тому, кто добра не делает никому | 0,537 | ||
Глас народа — глас Божий | 0,526 | ||
20 21 | Человек человеку друг, товарищ и брат | 0,463 | |
Что ни делается, все к лучшему | 0,456 |
Из матрицы факторных нагрузок следует, что респонденты, согласившиеся с пословицей «С волками жить — по-волчьи выть», чаще всего соглашаются и со всеми теми, которые вошли В первый фактор. То же относится и ко второму фактору: если респондет согласен с тем, что «Бог терпел, да и нам велел», он, скорее всего, соглашается и с тем, что «Терпение — лучшее спасение», и с тем, что «Человек человеку друг, товарищ и брат».
Задача состоит в том, чтобы найти понятие, которое включают в себя все первичные переменные, вошедшие в фактор. В приведенном примере первый фактор интерпретируется как характер мироотношения — все респонденты расположены между двумя противоположными полюсами. Эти полюса условно можно назвать полюсом соперничества (конфронтация) и полюсом сотрудничества (партнерство). Второй фактор —характер социального взаимодействия — все респонденты расположены между двумя противоположными полюсами: толерантности и агрессивности по отношению к социальному окружению (рис. 53, табл. 29).
Рис. 53. Величина нагрузки после вращения
Основная проблема состоит в способе интерпретации факторов и латентных величин, зависимость между которыми означает существование отличного от нуля коэффициента корреляции. Здесь прежде всего необходимо помнить, что корреляционная зависимость не означает причинную зависимость и поэтому «факторы», найденные в ходе анализа корреляций, не могут быть причинными факторами, позволяющими дать соответствующее «объяснение» соотношений между переменными в исследуемой области. Иногда вследствие упрощенного отождествления понятий «причинность» и «корреляция» понятие «фактор» автоматически интерпретируется как «действующее начало», т.е. как оказывающий влияние, определяющий, причинный, по смыслу примерно эквивалентный экспериментальному фактору, которым мы можем управлять по своему усмотрению, тем самым оказывая влияние на исход эксперимента. Такую причинную интерпретацию фактора следует принимать в лучшем случае за гипотезу о том, что некоторая переменная, математически сконструированная из наблюдаемых переменных и называемая всоответствии с терминологией факторного анализа «фактором», может быть принята за «фактор — действующее начало», воздействующий на зависимую от него переменную, т.е. на следствие, или внешнее проявление. Это обстоятельство требует от исследователя особой концептуальной проработки изучаемой проблемы.
КЛАСТЕРНЫЙ АНАЛИЗ
Кластерный анализ необходим там и тогда, где и когда социология понимается прежде всего как «социальная типология»6. Кластерный анализ в социологическом исследовании служит прежде всего инструментом для проведения типологического анализа. Если в факторном анализе мы, по сути, также занимались «типологизацией», но переменных, то в кластерном анализе типологизации подвергаются случаи (анкеты, cases). В основе кластерного анализа лежит концепция распределения наблюдаемых данных (респондентов, анкет, cases) по однородным группам в зависимости от их сходства (близости) друг с другом. Существуют несколько алгоритмов кластерного анализа. В нашем примере буде! рассмотрен метод k-средних. Этот метод относится к неиерархическим методам. Буква «к» в названии обозначает число кластеров, которое социолог выбирает самостоятельно. Как правило, производится несколько попыток, прежде чем исследователь определится окончательно с числом кластеров.
Для проведения кластерного анализа в программе SPSS 8.0 необходимс произвести следующие действия:
1.-> Statistics -» Classify -4 К-Means Cluster ...
Рис. 54
2. -> Variables(s):Характер мироотношения
Характер социального взаимодействия В данном примере в качестве переменных, на основании которых будет прс веден кластерный анализ, выступают значения z-вклада. Выше приведены дан ные, где для респондента 38 (рис. 51) значение z-вклада составляет -1,14254 п facl_l («Характер мироотношения») и 1,27939 по fac2_l («Характер социально! взаимодействия»). Эта информация указывает на то, что респондент не соглг
БУРДье П. Социология политики. М., 1993. С. 55.
шается с тем, что «С волками жить — по-волчьи выть», «Все продается, дело только в цене», «Не пойман — не вор» и с другими первичными переменными, вошедшими в первый фактор. На это указывает отрицательное значение z-вклада в facl_l («Характер мироотношения»). Одновременно этот респондент соглашается с тем, что «Бог терпел, да и нам велел», «Терпение — лучшее спасение», «Просите, и дано будет вам; ищите, и найдете; стучите, и отворят вам» и с другими первичными переменными, вошедшими во второй фактор. На это указывает положительное значение z-вклада в fac2_l («Характер социального взаимодействия»). Таким образом, этот респондент по фактору «Характер мироотношения» тяготеет к полюсу сотрудничество, а по фактору «Характер социального взаимодействия» —к полюсу толерантность. Предпринимая кластеризацию значений z-вкладов, мы выходим на социологические типы, где «тип — это то, что может существовать или не существовать в реальности7». Но социологическое значение здесь безусловно присутствует. Кластерный анализ является логическим продолжением факторного анализа, позволяющим произвести типологический анализ в пространстве выделенных факторов (рис. 55).
При проведении кластерного анализа большое значение имеет число кластеров. Для определения оптимального числа необходимо руководствоваться целями исследования и такими важными параметрами кластеров, как плотность, дисперсия, размеры, форма и делимость. Плотность — это свойство, которое позволяет определить кластер как скопление точек в пространстве данных. Дисперсия — характе -ристика степени рассеяния точек в пространстве относительно центра кластера. Размеры кластеров тесно связаны с дисперсией. Если кластер можно идентифицировать, то можно измерить и его «радиус». Форма — это расположение точек в пространстве. Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены. Кластеры могут быть относительно близки друг к другу и не иметь четких границ, или же они могут быть разделены широкими участками пустого пространства. Исходная база кластеризации в пространстве двухфакторной модели представлена на диаграмме рассеяния (рис. 56).
В нашем случае в соответствии с логикой двухфакторного анализа оптимальным является выделение 5 кластеров.
-> Number of Clusters: 5
-»ОК
Впроцессе интерпретации нас интересуют финальные центры кластеров (рис. 57, табл. 30).
Таблица 30 Финальные центры кластеров
Cluster | ||||||
Характер мироотношения | 0,13192 | 0,92072 | 0,90197 | -1,03670 | -0,99507 | |
Zj | Характер социального взаимодействия | -0,23677 | -1,28707 | 0,96177 | -0,94249 | 0,74047 |
В рассматриваемом примере можно видеть, что расстояние между кластерами достаточно велико. Это указывает на существование различных типов «духовной организации личности». Таким образом, мы завершили работу по типологизации объектов (случаев, cases).
Татарова Г.Г. Методология анализа данных в социологии (введение): Учеб. пособие для вузов. М., 1999.
Рис. 55
Рис. 56. Исходная база для кластерного анализа (диаграмма рассеяния)
Рис. 57. Пространственное расположение кластерных центров в факторном пространстве
Результаты типологического анализа позиций различных групп респондентов представлены в табл. 31, из которой видно, что респонденты, вошедшие во второй и пятый кластеры, занимают прямо противоположные позиции как в факторном пространстве, так и в ответах на вопросы анкеты. Если во втором кластере средней уровень согласия с максимой «С волками жить — по-волчьи выть» по девятибалльной шкале составляет 7,3 пункта, то у респондентов пятого кластера зафиксировано непринятие данной максимы на уровне 3,8 пункта. Аналогичная картина зафиксирована для респондентов третьего и четвертого кластеров. В то же время мы видим, что респонденты, вошедшие в первый кластер, занимают срединное положение (около 0) в пространстве факторов, что соответствует среднему значению по выборке.
Таблица 31 Позиции различных типологических групп респондентов
IS | Максимы, пословицы, афоризмы | Всего по выбор. N=1314, 100% | кластер N=319 22,3% | кластер N=199 13,9% | кластер N=300 21,0% | кластер N=303 21,2% | 4 кластер N=193 13,5% |
С волками жить — по-волчьи выть | 5,7382 | 6,0690 | 7,2663 | 3,7933 | 7,4257 | 3,9896 | |
Все продается, дело только в цене | 5,1172 | 5,4389 | 7,2161 | 3,0267 | 6,7129 | 3,1658 | |
Не пойман — не вор | 5,8288 | 6,0251 | 6,9347 | 4,1900 | 7,9967 | 3,5078 | |
Всякчеловекживетдля себя, а для других — как получится | 5,6849 | 5,7273 | 7,4774 | 4,0633 | 6,9373 | 4,3212 | |
Не обманешь — не проживешь | 3,9886 | 4,3386 | 6,2764 | 2,0633 | 4,8383 | 2,7098 | |
Закон —дышло: куда захочешь, туда и воротишь | 6,4269 | 6,5266 | 7,5678 | 5,2633 | 7,7789 | 4,7720 | |
От трудов праведных не наживешь палат каменных | 6,5107 | 6,5674 | 7,5176 | 5,3733 | 7,9043 | 4,9585 | |
Велика святорусская земля, а правде нигде нет места | 6,0023 | 6,1348 | 6,6734 | 4,9733 | 7,4356 | 4,4404 | |
Каждый сам за себя | 5,4460 | 5,6865 | 6,6633 | 3,9800 | 6,5281 | 4,3731 | |
Око за око, зуб за зуб | 4,1903 | 4,4263 | 5,9799 | 2,4500 | 5,0528 | 3,3057 | |
Варварство истребляется варварскими методами | 4,2557 | 4,3856 | 5,9045 | 2,9033 | 5,2112 | 2,9430 | |
Пусти душу в ад, будешь богат | 3,8128 | 4,3793 | 5,3920 | 2,3167 | 4,3828 | 2,6788 | |
Богтерпел, да и нам велел | 5,5152 | 5,2508 | 3,3618 | 6,6433 | 7,3597 | 3,5233 | |
U | Терпение — лучшее спасение | 5,6865 | 5,2571 | 3,3166 | 6,8667 | 7,4125 | 4,2953 |
Просите, и дано будет вам; ищите, и найдете; стучите, и отворят вам | 6,0921 | 5,8527 | 3,9497 | 7,3900 | 7,4059 | 4,6166 | |
Лучше жить бедняком, чемжить со грехом | 6,2131 | 5,6332 | 3,9347 | 7,6433 | 7,5215 | 5,2435 | |
Возлюби ближнего твоего, как самого себя | 6,6842 | 6,3072 | 4,6583 | 7,9967 | 7,5248 | 6,0363 | |
Худо тому, кто добра не делает никому | 6,9711 | 6,7398 | 4,9749 | 8,3300 | 7,9043 | 5,8342 | |
Глас народа — глас Божий | 5,0715 | 4,6771 | 3,9296 | 5,7867 | 6,7063 | 3,2228 | |
Человек человеку друг, товарищ и брат | 6,0944 | 5,7304 | 4,1960 | 7,6533 | 6,5149 | 5,5699 | |
Что не делается, всеклучшему | 6,7976 | 6,5705 | 5,7437 | 7,1000 | 8,2541 | 5,5026 |
ТАБЛИЧНОЕ И ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ СОЦИОЛОГИЧЕСКИХ ДАННЫХ1
Таблицы и графики — одно из самых гениальных изобретений человеческой мысли, стремившейся выразить через образный видеоряд сухие колонки цифр и фактов. Во всех странах мира таблица считается наиболее наглядной и компактной формой представления статистического материала. Табличное и графическое оформление социологических данных — это всегда завершающий этап эмпирического исследования. Закончена полевая стадия, теперь собранные сведения надо проанализировать2. Вы должны наглядно и убедительно представить данные, полученные в результате обработки первичной социологической информации, чтобы более четко и емко изложить свои выводы.