Классификация рассматриваемых задач и отвечающих им методов
Ниже в скобках бы будем указывать примеры математических методов, направленных на решение задач выделяемых классов. При первом чтении это можно опустить. Мы называем конкретные методы уже сейчас, до того как они будут описаны (а следующие параграфы будут посвящены такому описанию; сами названия этих параграфов отвечают названиям выделенных ниже классов задач), по двум причинам: во-первых, для того, чтобы читатель, знакомый с упоминаемыми методами, лучше понял нашу классификацию; во-вторых, мы надеемся,что читатель вернется к настоящему параграфу после прочтения всей книги с целью более четко представить себе совокупность тех алгоритмов, из числа которых ему предстоить выбрать инструмент для обнаружения интересующих его закономерностей.
Итак, в соответствии с предлагаемым основанием выделяются задачи типа:
– "альтернатива-альтернатива", т.е. такие, которые позволяют изучать связь между отдельными значениями любых рассматриваемых признаков (примером является детерминационный анализ [Чесноков, 1982]);
– "(группа альтернатив) - (группа альтернатив)" (анализ фрагментов таблиц сопряженности [Интерпретация и анализ ..., гл. 2], алгоритмы типа "пятна" и "полосы" [Ростовцев, 1985. С. 203-214]); эту группу методов можно расширить, условно назвав результат такого расширения методами типа
– " (группа альтернатив) – ("поведение" объектов)", где “поведение" (подчеркнем, - не одного объекта, а целой совокупности, заданной рассматриваемой группой альтернатив; такое "поведение" в определенном смысле есть описание этой совокупности, которое, в свою очередь, можно интерпретировать как характеристику некоторого типа объектов) может пониматься по-разному: как определенный каким-либо образом "средний" уровень заранее заданного результирующего признака (скажем мы можем искать тип людей с низким уровнем зарплаты и тип людей с высоким уровнем зарплаты), как истинность для рассматриваемой совокупности некоторой логической функции от элементарных формул типа P(a)=1, (так называемых логических закономерностей), где буквой Р обозначен произвольный признак, а приведенное выражение означает: "значение признака P для объекта a равно 1" и т.д. (методы выявления логических закономерностей [Лбов, 1981], методы поиска детерминирующих сочетаний значений рассматриваемых признаков, в том числе известные на Западе алгоритмы, для обозначения которых используются аббревиатуры, включающие в себя сочетание AID (automatic interaction detector): THAID [Интерпретация и анализ данных в социологических исследованиях, 1987, с. 136-151; Messenger, Mandell 1972; Morgan, Messenger, 1973]), CHAID [Agresti, 1990; Magidson, 1993; Derrick, Magidson, 1992], AID3 [Sonquist, Morgan, 1973] и т.д. Сравнение THAID и AID3 осуществляется в [Kass, 1980]. Ряд методов описан в [Типология и классификация в социологических исследованиях, 1982, с. 213-231]. Назовем также брошюру [Ливанова Т. Н. 1990], где подробно описан процесс реализации на ЕС ЭВМ алгоритма AID3. Хотя в наше время персональных компьютеров такое описание не является актуальным, тем не менее, на наш взгляд, указанная работа не стала бесполезной для социолога, поскольку в ней помимо правил обращения с ЭВМ серии ЕС подробно раскрывается сущность самого алгоритма).
Частным случаем упомянутых комбинаций явится объединение в одну группу альтернатив, отвечающих одному признаку. В соответствии с этим, выделим класс задач:
– "признак - признак" (традиционные, наиболее знакомые социологу коэффициенты парной связи).
Продолжая рассуждения, отвечающие той же логике, нетрудно придти к выводу, что та же специфика измерительных процедур может вызвать потребность объединять не только "надерганные" из разных признаков альтернативы, но и признаки в целом. в соответствии с этим, в рамках нашей классификации выделим группы методов:
– "признак - (группа признаков)" (регрессионный анализ, многие методы построения индексов);
(Отметим, что при использовании регрессионного анализа зачастую решаются также задачи типа "(группа альтернатив) - ("поведение" объекта)"; это ярко демонстрирует его так называемый номинальный вариант [Аргунова, 1990; Типология и классификация..., 1982; Hаrdy, 1993], см. также п. 2.6.)
– "(группа признаков) - (группа признаков)" (канонический анализ [Интерпретация и анализ ..., 1987]). Это известный математико-статистический метод. Однако он крайне редко используется социологами, считающими его типично "количественным" методом. В действительности же соответствующий подход является актуальным для анализа именно номинальных данных: он дает возможность осуществлять их оцифровку (т.е. приписать каждому значению номинального признака некоторое число), изучать связи между признаками с т. н. "совместными" альтернативами, эффективно находить веса признаков при формировании из них индекса. Идеи, заложенные в каноническом анализе используются в таком широко применяющимся в современной западной социологии (в том числе в ставших “модными” в России маркетинговых исследованиях) методе, как корреспонденс-анализ, или анализ соответствий [Clausen, 1998]).
Тип задач, отвечающих рассмотрению всей совокупности признаков как системы, назовем так:
– анализ системы признаков (логлинейный анализ [Аптон, 1982; Елисеева, Рукавишников, 1977; Мирзоев, 1980,1981; Миркин, 1980]; причинный анализ [Елисеева, Рукавишников, 1982; Осипов, Андреев, 1977; Хейс, 1981]).
К сожалению, в настоящей работе мы не имеем возможности рассмотреть последние два типа задач.
Конечно, если строго следовать формальной логике, можно заметить, что почти все упомянутые классы методов могут быть сведены к одному – классу "(группа альтернатив)-(группа альтернатив)", поскольку с формальной точки зрения частным случаем группы альтернатив является и отдельная альтернатива; и набор градаций, отвечающих одному признаку; и совокупности значений сразу нескольких признаков. Но с содержательной точки зрения все же мы не можем игнорировать различие между выделенными выше совокупностями альтернатив. В частности, понятие признака – это нечто, отвечающее вполне определенной социальной реальности. За частью альтернатив признака эта реальность не стоит. И, как мы увидим ниже, методы, позволяющие решать задачи выделенных классов, различны, поскольку различны постановки соответствующих содержательных вопросов.
Казалось бы, изложение надо начинать с описания наиболее простых методов – типа “альтернатива – альтернатива”. Однако исторически сложилось так, что сначала были разработаны коэффициенты парной связи между признаками (т.е. наши методы типа “признак – признак”). А все остальные подходы опирались на соответствующие теоретические положения. Мы не хотим претендовать на разработку новых подходов к обоснованию известных коэффициентов. Поэтому начнем как бы с середины нашей схемы – с описания методов измерения связей между двумя номинальными признаками. Однако прежде позволим себе некоторое отступление от основного содержания настоящей книги. Дело в том, что подходами, рассматриваемыми в настоящей работе, отнюдь не ограничивается ни совокупность всех методов анализа номинальных данных вообще, ни совокупность методов анализа связей между номинальными переменными. Для того, чтобы более четко охарактеризовать круг задач, решение которых становится доступным с помощью подходов, описанных в следующих параграфах, попытаемся очертить то место, которое эти подходы занимают в гораздо более широкой совокупности известных методов анализа номинальных данных. Сделаем это, обратившись к рассуждениям, нетрадиционным для работ по анализу данных.