Анализ многомерный статистический
выборочной табл. сопряженности макс, правдоподобных оценок:
G2 = -2 ^ пщ Щтт ■ пш)
имеет асимптотическое χ2-распределение. На этом основана стат. проверка гипотезы о взаимосвязях.
Опыт обработки данных с помощью А.л. показал его эффективность как способа целенаправленного анализа многомерной табл. сопряженности, содержащей (в случае содержательно разумного выбора переменных) огромный, по сравнению с двухмерными табл., объем интересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же время детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социолог—ЭВМ. Т.о., А.л. обладает значительной гибкостью, представляет возможность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.
Лит.: Аптоп Г. Анализ табл. сопряженности. М., 1982; Типология и классификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.
А.А. Мирзоев
АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ— разд. статистики математической, посвященный матем. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выводов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений (см. Наблюдение в статистике). Многомерный признак чаще всего интерпретируется как многомерная вели-
чина случайная, а последовательность многомерных наблюдений — как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных стат. данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака (см. Распределение вероятностей).
По содержанию А.м.с. может быть условно разбит на три осн. подразд.
1. А.м.с. многомерных распределений и их осн. характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. задачам этого подраздела относятся; оценивание статистическое исследуемых многомерных распределений и их осн. параметров; иссл-е свойств используемых стат. оценок; иссл-е распределений вероятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).
2. А.м.с. характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежащие к этой гр., включают как алгоритмы, осн. на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероятностной модели (последние чаще относят к методам анализа данных).
3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы классификации, Шкала). Узловым для этих моделей явл. понятие расстояния либо меры близости между анализируемыми элементами как точками нек-рого про-
АНАЛИЗ ПРИЧИННЫЙ
странства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в «объектном» пространстве).
Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех проблем: стат. иссл-я зависимостей между рассматриваемыми показателями; классификации элементов (объектов) или признаков; снижения размерности рассматриваемого признакового пространства и отбора наиб, информативных признаков.
Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и классификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в социол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и основы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. анализ в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомерные стат. методы для экономистов и менеджеров. М., 2000; Ростовцев B.C., Ковалева Т.Д. Анализ социол. данных с применением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.
ЮН. Толстова
АНАЛИЗ ПРИЧИННЫЙ- методы моделирования причинных отношений между признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области методов: путевой анализ, как впервые назвал его основоположник С. Райт; методы структурных эконометрических уравнений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компоненты связи между признаками. Используемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-
лос. проблем, связанных с понятием «причинность». Причинный коэффициент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причинных связей между признаками, а также выявления тех компонент корреляционных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.
Путевая диаграмма отражает графически гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с однонаправленными связями называется рекурсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы могут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-следствия (зависимые, эндогенные) и признаки-причины (независимые, экзогенные). Однако в системе уравнений эндогенные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:
х2 | |||||
/ | N | ||||
*1 | К | ||||
г | |||||
к | S |
Построение диаграммы связей явл. необходимой предпосылкой матем. формулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построения системы регрессионных уравнений проиллюстрируем на примере тех же четырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-
АНАЛИЗ ПРИЧИННЫЙ
ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непосредственно), так и косвенно (опосредованно) и через др. признаки. Первое стандартизированное регрессионное уравнение соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.
Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулируется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандартизованных регрессионных моделей для нашей конкретной причинной диаграммы имеет вид: Х\ = Ui, А? =
— Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα —
— baXi + binXi + Й43А3 + Щ. Чтобы оценить коэффициенты b,s, необходимо ее решить. Решение существует при условии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называются причинными коэффициентами и часто обозначаются как Ру. Т.о., Р# показывает ту долю изменения вариации эндогенного признака ;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влияние остальных признаков уравнения исключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эффект признака j на ;) вычисляется на основе учета всех путей влияния j на i за исключением прямого.
На диаграмме прямое влияние первого признака на четвертый схематически представление прямой стрелой, непосредственно идущей от Χι к Xt, символически изображаемое как 1->4; оно равно коэффициенту причинного влияния Р[4. Компоненты прямого, косвенного и мнимого влияний явл. слагаемыми корреляционного коэффициента гд между признаками Xj и AJ-, к-рые можно вычис-
лить на основе формулы разложения Райта:
Г9 ~ "f + 2^ "lkrjki I
где к пробегает номера переменных, имеющих прямое влияние на признак/ Компонента прямого влияния есть первое слагаемое правой ч. формулы, под знаком суммы содержатся две компоненты косвенного и мнимого (ложного) влияний. Косвенное влияние всегда представимо в виде произведения прямых влияний. Напр., косвенное влияние Х\ на АЯ, схематически представленное тремя путями опосредственного влияния Χι на АЯ: 1-^2^4, 1-»3-И и 1-»•2->3->4, вычисляется как сумма трех косвенных влияний Ραί Рц, Раз Рзи До Рн Ри- Мнимое влияние вычисляется как остаток от вычитания из величины корреляционного коэффициента суммы прямого и косвенного влияний.
Величины прямых и косвенных эффектов дают возможность проверять на эмпирическом материале гипотезы о силе тех или иных влияний и правильности содержательных гипотез о причинных связях между признаками. Обычно проверяется значимость отличия коэффициентов bij = Pij от нуля, равенство нулю регрессионных коэффициентов равносильно отсутствию соотв. коэффициентов прямого влияния.
Качество модели А.п. или ее адекватность эмпирическим данным оценивается как степень совпадения коэффициентов корреляции, полученных по формуле Райта на основе рассчитанных параметров системы, с коэффициентами корреляции, вычисленными обычным путем по эмпирическим данным. А.п. не может служить окончательным средством для построения теории о причинных связях. Скорее имеет смысл использовать его для проверок, подтверждения или опровержения соотв. гипотез.
Трудами Г. Волда, К. Ерескога и др. развита теория нерекурсивных систем. Применению метода в соц-и мешает заложенное в традиционных моделях предположение о том, что рассматриваемые признаки измерены, по крайней
АНАЛИЗ РЕГРЕССИОННЫЙ
мере, по интервальной шкале. В соц-и модели причинного анализа развивались в работах X. Блейлока, X, Саймона, П. Лазарсфельда, Р. Будона, О. Дункана. Информационный подход к разработке причинных моделей для номинальных признаков разрабатывал И.Н. Таганов. Одно из направлений А.п. для номинальных признаков развивается в рамках анализа логлинейного Л. Гудмэном, И. Бишопом и др. Оно основано на анализе разл. функций от перекрестных отношений табл. сопряженности, предложенных впервые Г. Юлом. Др. развивающееся направление опирается на концепцию К. Пирсона, в соответствии с к-рой в основе перекрестной классификации лежит двух- или многомерное нормальное распределение признаков. Но оценка параметров такой модели очень сложна.
Совр. развитие А.п. в соц-и идет по пути синтеза классических эконометри-ческих и факторно-аналитических подходов, определяемых спецификой социол. данных, наличием латентных признаков, прямых и обратных связей между переменными (Водд, Ереског, Гудмэн, Блей-лок).
Лит.: Маленво Э. Стат. методы эконометрии. М., 1975; Математика в соц-и: моделирование и обработка информации. Μ., 1977; Матем. моделирование в соц-и. Новосибирск, 1977; Математи-ко-стат. методы в социол. иссл-ях. М., 1981; Елисеева И.И., Рукавишников В.О. Логика прикладного стат. анализа. М,, 1982; Mosbaek £., Wold Η. Interdependent Systems: Strukture and Estimation. L., 1969; Goldberger A.S. On Boudon's Method of Linear Cauzal Analysis // American Sociology. Rewiew. 1970. V. 35. No. I; Hauser R.M., Goiderger A.S. The Treatment of an Observebles in Path Analysis // Sociological Methodology. 1971; Goodman L.A. The Analysis of Maltidimentional Contingency Tables when Some Variables are Posterior to Others: A Modified Path Analysis Approach // Biometrica. 1973. V.60.
К.Д. Аргунова, Ю.Н. Телешова
АНАЛИЗ РЕГРЕССИОННЫЙ- стат. метод иссл-я зависимости (регрессии) между зависимым признаком Υ и независимыми (регрессорами, предикторами) X], Х2, ..., ХР. Строго регрессионную зависимость можно определить след. образом.
Пусть У, Х\, Хг, ..., Хр — случайные
величины с заданным совместным рас
пределением вероятностей. Если для каж
дого набора значений Χλ =х\, Х2 = хг, ...,
Хр = хр определено условное матем. ожи
дание Υ(χ\, Х2, ..., Хр) — E(Y/(X] = xj,
Χι = Х2, ..., Хр = Хр)), то функция Υ(Χ],
Х2,..., Хр) называется регрессией величи
ны У по величинам Х\, Хг, ..., Хр, а ее
график — линией регрессии У по Х\, Хг,
..., Хр, или уравнением регрессии. Зави
симость У от ΛΊ, Хг....... Хр проявляется в
изменении средних значений Упри из
менении Х\, Хг........ Хр. Хотя при каждом
фиксированном наборе значений X] - xj, Хг = хг, »•, Хр ~ Хр величина Τ остается случайной величиной с опред. рассеянием. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Хр, используется средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): w
У (У -У) => min (Ν — объем выборки), ы
Этот подход основан на том известном факте, что фигурирующая в приведенном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, •--, хР). Применение