Множественная регрессия и путевой анализ
Выше описывалась модель линейной регрессии для двух переменных. В действительности социолог довольно редко сталкивается со столь простыми моделями данных. Влияние одного фактора обычно может объяснить лишь часть разброса наблюдаемых значений независимой переменной. Метод частной корреляции позволяет нам проконтролировать эффекты воздействия любых других контрольных переменных, которые мы в состоянии измерить. (Стоит снова подчеркнуть здесь, что статистические методы изучения причинных взаимосвязей, в отличие от экспериментальных, позволяют нам контролировать лишь те источники вариации, которые мы способны концептуализировать и измерить.) Однако еще более интересной задачей является контроль одновременного воздействия нескольких независимых на одну зависимую переменную, а также сравнение эффекта воздействия разных независимых переменных и предсказание «отклика» независимой переменной. Именно эти задачи решают методы анализа, о которых пойдет речь в данном параграфе. Наше изложение будет неполным, так как более детальное обсуждение требует дополнительной математической подготовки. Мы будем ориентироваться на сравнительно скромные цели понимания общей логики и интерпретации результатов соответствующих статистических процедур.
Уравнение множественной регрессии — это определенная модель порождения данных. Важные допущения, принимаемые в этой модели, касаются уже известного вам требования линейности, а также аддитивности суммарного эффекта независимых переменных. Последнее означает, что воздействия разных независимых переменных просто суммируются, а не, скажем, перемножаются (мультипликативный эффект, в отличие от аддитивного, имеет место тогда, когда величина воздействия одной независимой переменной на зависимую, в свою очередь, находится под влиянием другой независимой переменной, т. е. независимые переменные взаимодействуют друг с другом).
Множественная регрессия во многом аналогична простой (бивариантной) регрессии. Отличие состоит в том, что регрессия осуществляется по двум и более независимым переменным одновременно, причем каждая из них входит в регрессионное уравнение с коэффициентом, позволяющим предсказать значения зависимой переменной с минимальным количеством ошибок (критерием здесь снова является метод наименьших квадратов). Частные коэффициенты в уравнении множественной регрессии показывают, какой будет величина воздействия соответствующей независимой переменной на зависимую при контроле влияния других независимых переменных. Если воспользоваться простейшей системой обозначений, то уравнение множественной регрессии для трех независимых переменных можно записать как:
где — это предсказываемое значение зависимой переменной, X1 ... Х3— независимые переменные, а b1, ... b3 — частные коэффициенты регрессии для каждой из зависимых переменных.
Коэффициенты b могут быть интерпретированы как показатели влияния каждой из независимых переменных на зависимую при контроле всех других независимых переменных в уравнении. В отличие от коэффициентов частной корреляции коэффициенты регрессии обладают размерностью. Они показывают, на сколько единиц изменится зависимаяпеременная при увеличении независимой на одну единицу (при контролевсехостальных переменных модели). Пусть, например, мы построили уравнение множественной регрессии, описывающее зависимость дохода от интеллекта (X1) и стажа работы (Х2). Если величина b1оказалась равной 100, это означает, что каждый дополнительный балл по шкале интеллекта увеличивает доход на 100 рублей. Значение b2 = 950 говорит нам, что год стажа прибавляет 950 рублей. Однако «сырые» оценки интеллекта и стажа измерены в разных единицах. Для определения сравнительной значимости независимых переменных, входящих в уравнение множественной регрессии, мы должны подвергнуть все переменные стандартизации (т. е. перевести их в Z-оценки, см. выше). Стандартизованные коэффициенты множественной регрессии, которые удобнее всего обозначать как b* (либо греч. «бета» — b), меняются в пределах от -1,0 до +1,0. Они сохраняют свою величину при изменении масштаба шкалы: переход от измерения возраста в годах к измерению в днях не изменит соответствующий b*.
Стандартизованные коэффициенты позволяют оценить «вклад» каждой из переменных-предикторов в предсказание значений независимой переменной. Если в примере с влиянием интеллекта и стажа работы на доход окажется, что b1* = 0,25, а b2* = 0,30, то можно заключить, что сравнительная значимость «веса» интеллекта и стажа в предсказании дохода различаются незначительно. Если же для одной переменной b1* = 0,80, тогда как b2* = 0,40, мы можем сказать, что эффект воздействия второй переменной в два раза меньше эффекта первой.
Чтобы определить ожидаемые значения зависимой переменной для отдельных индивидов, достаточно подставить в уравнение множественной регрессии соответствующие значения переменных-предикторов и вычисленных коэффициентов b. Пусть, например, мы хотим рассчитать прогнозное значение величины дохода для человека, чей коэффициент интеллекта равен 110, а стаж работы — 20 годам. Если b1, как в вышеприведенном примере, составляет 100, b2 = 950, а слагаемое а = 50000, то мы получим:
ожидаемый доход = 50000 +100 х 110 + 950 х 20 = 80000 руб.
Множественную регрессию можно использовать и для предсказания средних групповых значений, например среднего дохода мужчин-врачей. Единственное различие в данном случае заключается в использовании средних значений независимых переменных для подстановки в уравнение множественной регрессии. В качестве независимой переменной множественной регрессии могут использоваться и дихотомические переменные, которым приписывают значения 0 и 1 (например, пол). Для того чтобы включить в уравнение номинальную переменную с более чем двумя категориями, нужно создать соответствующее число новых, «фиктивных» переменных, каждая из которых будет кодироваться как 0 или 1 в зависимости от наличия или отсутствия категории-признака. Скажем, состоящую из трех категорий переменную «цвет глаз» можно представить с помощью трех переменных: Х1 — «голубые глаза», Х2 — «карие глаза», Х3 — «зеленые глаза». (Человек с голубыми глазами получит 1 по X1и 0 по двум другим переменным.)
Метод множественной регрессии очень популярен среди социологов. Вот, например, как выглядели результаты его применения в исследовании Л. Бэрона и М. Строса, изучавших факторы, влияющие на статистику изнасилований[46]. Использованная в планировании этого исследования матрица данных включала в себя в качестве объектов («случаев») различные штаты США. Признаками, по которым описывались штаты, служили около десятка независимых и собственно контрольных переменных, предположительно воздействующих на зависимую переменную, — количество зарегистрированных полицией изнасилований на 100000 населения в год для данного штата (по данным ежегодных статистических отчетов ФБР). Предполагалось, что существующие различия между штатами в уровне изнасилований можно будет объяснить различиями в уровнях независимых переменных. Нужно отметить, что разброс «случаев» по зависимой переменной был весьма велик — от 71,9 на Аляске до 8,2 в Северной Дакоте (1979). Из десятка переменных, включенных в уравнение множественной регрессии, девять оказались статистически значимы. Основные результаты регрессионного анализа для семи переменных представлены в таблице 8.12.
Таблица 8.12
Множественный регрессионный анализ статистики изнасилований, 1979 г.[47]
Независимая переменная | Коэффициент b | Коэффициент b* | Р< |
Индекс совокупного тиража порнографических журналов (SMCX) | 6,99 | 0,52 | 0,001 |
Показатель числа убийств и непредумышленных убийств | 1,70 | 0,55 | 0,001 |
Показатель числа публичных оскорблений с угрозой применения физической силы | 0,04 | 0,32 | 0,001 |
Индекс положения женщин (SWX) | 0,43 | 0,27 | 0,014 |
Число грабежей | -0,03 | -0,25 | 0,052 |
Процент черного населения | -0,41 | -0,38 | 0,001 |
Процент живущих ниже федерального уровня бедности | 1,11 | 0,29 | 0,011 |
Из таблицы видно, что индекс совокупного тиража порнографических журналов (интегральный показатель, учитывающий уровни продаж восьми популярных изданий) имеет коэффициент регрессии 6,99. Это означает, что рост индекса на единицу в среднем увеличивает количество изнасилований почти на 7 случаев (в расчете на 100000 населения). Весьма значительно и влияние числа убийств, что особенно заметно при сравнении стандартизованных коэффициентов (b*), не зависящих от шкалы измерения признака. Фактически количество убийств вносит самый значительный «вклад» в предсказание значений зависимой переменной (b* = 0,55). Интересно отметить, что одна из независимых переменных в описываемом исследовании — индекс положения женщин, рассчитанный на основании 22-х политических, экономических и социальных индикаторов, — при анализе простых взаимосвязей продемонстрировала практически нулевую корреляцию с количеством изнасилований (r = 0,17), причем результаты анализа диаграмм рассеивания также не дали никаких свидетельств в пользу гипотезы о нелинейной связи.Множественная регрессия позволила уточнить первоначальные выводы:при контроле прочих переменных модели, чем выше статус женщин, тем вышеуровень изнасилований (результат, которому довольно трудно найти теоретическое объяснение). Использование девяти независимых переменных позволило объяснить 83% дисперсии в показателях количества изнасилований (квадрат коэффициента множественной корреляции r2 составил 0,83).
При интерпретации результатов множественной регрессии стандартизованные коэффициенты, как уже говорилось, используют в качестве показателей значимости, «вклада» соответствующих переменных. Эта трактовка верна лишь в определенных пределах. При нарушении некоторых условий сравнение абсолютных величин стандартизованных коэффициентов может вести к неверным выводам. Дело в том, что коэффициенты регрессии подвержены влиянию случайных ошибок измерения. Использование ненадежных индикаторов «сдвигает» регрессионные коэффициенты к нулю[48]. Иными, словами, более надежные индикаторы дают более высокие оценки коэффициентов. Пусть, например, для предсказания риска сердечно-сосудистых заболеваний использовались две независимые переменные индивидуального уровня — «ориентация на достижения» и «склонность подавлять агрессию», — причем шкала для измерения первой обладала более высоким коэффициентом надежности. Если стандартизованный коэффициент регрессии для достиженческой мотивации окажется выше, чем для подавления агрессии, это может рассматриваться как следствие таких содержательных различий между переменными, которые важны с точки зрения теории психосоциальных факторов заболеваемости. Но нельзя исключить и альтернативное объяснение, связывающее более высокий регрессионный коэффициент первой переменной с побочными эффектами методов измерения: влияние ориентации на достижения не превосходит влияния, оказываемого на риск инфаркта склонностью подавлять агрессию, а наблюдаемые различия регрессионных коэффициентов связаны лишь с ненадежностью использованных индикаторов склонности к подавлению.
Другая проблема, требующая некоторой осторожности в интерпретации коэффициентов регрессии, возникает вследствие того, что модель множественной регрессии не обязывает нас ни к каким строгим предположениям о причинных связях между независимыми переменными. Регрессионное уравнение, образно говоря, не делает никаких различий между собственно независимыми, т. е. теоретически специфицированными, переменными и дополнительными — контрольными, опосредующими и т.п.— факторами, вводимыми в модель с целью уточнения. В тех случаях, когда теоретическая гипотеза, проверяемая в ходе исследования, допускает: 1) существование взаимосвязей между независимыми переменными, 2) наличие прямых и косвенных (опосредованных) влияний, а также 3) использование нескольких индикаторов для каждого латентного фактора, могут понадобиться более совершенные статистические методы. Одна из возможностей здесь — это использование путевого анализа.
Путевой анализ — один из основных способов построения и проверки причинных моделей в социологии. Многие более продвинутые статистические техники основаны на сходной исследовательской методологии.
Важным достоинством путевого анализа является то, что он позволяет оценить параметры каузальных моделей, причем в расчет принимаются не только прямые, но и непрямые (опосредованные) влияния. Если, например, в результате корреляционного или регрессионного анализа мы обнаружили, что интеллект (измеренный как IQ) лишь умеренно влияет на доход, нам не следует торопиться с общими выводами. Мы оставили неучтенной возможность того, что интеллект может иметь существенное влияние на образование, которое, в свою очередь, воздействует на последующий доход. Таким образом, нам нужно принять во внимание то, что интеллект — помимо прямого эффекта — может иметь еще и опосредованное, непрямое влияние на доход посредством влияния на образование. Методы, рассматривавшиеся нами до сих пор, описывали только прямые эффекты.
Путевой анализ включает в себя технику представления прямых и косвенных причинных влияний при помощи специальных диаграмм (потоковых графов). Эти диаграммы часто называют просто причинными (структурными) моделями.
Последовательно «считывая» такую модель, можно легко определить все пути влияния одной переменной на другую и соответственно оценить величину чистого эффекта. Во многих разделах этой книги причинные модели уже использовались для представления сравнительно сложных причинных гипотез, поэтому общая логика их построения не требует детального обсуждения. Порядок представления переменных на диаграмме отражает предполагаемое направление причинной связи, а диапазон включенных в диаграмму переменных и отношения между ними зависят от принятых исследователем теоретических гипотез. Так называемые путевые коэффициенты, описывающие связи между переменными (связям соответствуют стрелочки на диаграмме), равны стандартизованным коэффициентам множественной регрессии (b*)[49].
Обычно путевую диаграмму рисуют слева направо — от самых «ранних» по порядку следования независимых переменных до зависимой. Путевые коэффициенты часто обозначают латинскими «p» с подстрочными индексами (р21 — это путевой коэффициент для связи между переменными Х1 ® Х2). На рисунке 24 в качестве примера изображена путевая диаграмма, отражающая гипотетические отношения между интеллектом (Х1), образованием (Х2), социально-экономическим статусом (Х3), доходом (Х4)и размерами сбережений (Х5).
Специальные правила позволяют перевести отношения, изображенные на диаграмме, в совокупность структурных уравнений, описывающих механизмы прямого и опосредованного воздействия одних переменных на другие. На рисунке 24, в частности, видно, что не существует пути для прямого воздействия интеллекта на размеры сбережений, однако общий эффект воздействия интеллекта будет включать в себя совокупность непрямых эффектов: Х1воздействует на Х5и через образование (Х2), и через достигнутый статус (Х3), и через доход (Х4). Иными словами, хотя и нельзя утверждать, что склонность откладывать деньги «в кубышку» зависит от умственных способностей, последние влияют и на возможность получения образования, и на статус, и на доход. В свою очередь, люди с определенным социальным и экономическим статусом обнаруживают склонность иметь сбережения.
Р21 Р32 Р32
|
|
|
Р41 Р43 Р34
Puc. 24. Путевая диаграмма для примера со сбережениями
В общем случае, полный эффект влияния переменной равен сумме ее непосредственного эффекта и всех косвенных эффектов влияния. Величины возмущений (е2 — е4) на рисунке позволяют оценить, насколько хорошо работает модель, показывая, какая часть дисперсии соответствующей переменной осталась необъясненной. В результате путевой анализ позволяет пересматривать и уточнять исходную теоретическую модель, сравнивать «эффективность» нескольких конкурирующих теорий для объяснения существующей совокупности эмпирических наблюдений. Существуют даже компьютерные программы, осуществляющие автоматический поиск наилучшей структурной модели, т.е. процедуру, сходную с отбором из нескольких существующих теорий такой, которая максимально соответствовала бы полученным в исследовании данным[50]. Важно, однако, осознавать, что сами по себе результаты применения регрессионных методов и причинных моделей (регрессионные коэффициенты, линии регрессии, путевые диаграммы) решают прежде всего задачу обобщенного описания уже полученных эмпирических данных. Они могут служить надежной основой для интерполяции, оценки положения гипотетических «точек» в пределах ряда наблюдавшихся значений, однако их использование в целях экстраполяции и прогноза может вести к существенным ошибкам в тех случаях, когда такой прогноз не подкреплен более широкой теорией, не сводимой к отдельной модели для конечной совокупности данных. (Достаточно указать в качестве примера на многочисленные ошибочные прогнозы в экономике — науке, где количество эмпирических данных и описывающих их структурных моделей многократно превзошло количество существующих теорий).
Путевой анализ, как и множественная регрессия, сегодня является частью большинства стандартных статистических программ для компьютера. Не стоит, однако, забывать о том, что при любом уровне прогресса в компьютерном обеспечении задать причинную модель, т.е. совокупность содержательных гипотез, подлежащих статистическому оцениванию, может только сам исследователь.
Дополнительная литература
Вайнберг Дж., Шумекер Дж. Статистика. М.: Финансы и статистика, 1979.
Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976.
Интерпретация и анализ данных в социологическом исследовании. М.: Наука, 1987.
Татарова Г.Г. Типологический анализ в социологии. М.: Наука, 1993.
Типология и классификация в социологических исследованиях. М.: Наука, 1982.
Толстова Ю.Н. Логика математического анализа социологических данных. М.: Наука, 1991.
Хейс Д. Причинный анализ в статистических исследованиях. М.: Финансы и статистика, 1981.
Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. М.: Финансы и статистка, 1989.
Ядов В.А. Социологические исследование: методология, программа, методы. 2-е изд. М.: Наука, 1987. Гл. 5.
[1] Напомним, что под индуктивным выводом обычно понимают рассуждение по схеме «от частных наблюдений — к общей эмпирической закономерности».
[2] Более детальные сведения о развитии выборочного метода можно найти, в частности, в интересной и доступной книге: Дружинин Н. К. Выборочное наблюдение и эксперимент. М.: Статистика, 1979.
[3] См.: Fisher R. A. The Design of Experiment. 3rd ed. L.: Oliver& Boyd, 1942.
[4] В дальнейшем мы будем использовать термины «случайнаявыборка» и «вероятностная выборка» как взаимозаменяемые.
[5] RouncefieldM., Holmes P. Practical Statistics. Basingstoke: Macmillan Education Ltd, 1989. P. 122.
[6] Gallup G. A. Guide to Public Opinion Polls. Princeton:Princeton University Press, 1948.
[7] Составлено на основе таблицы: Appendix С: Random Numbers // Zeller R. A., Carmines E. G. Statistical Analysis of Social Data. Chicago: Rand McNally, 1978. P. 364—367.
[8] Здесь и далее речь идет о случайной безвозвратной выборке, так как выборка с возвращением отобранной единицы в совокупность на каждом шаге отбора не очень удобна практически (хотя и обладает рядом статистических преимуществ).
[9] В отечественной литературе сравнительный анализ разных основ и их применения в конкретных исследованиях осуществлен, например, в книге: Арутюнян Ю. В., Дробижева Л. М., Кондратьев В. С., Сусоколов А. А. Этносоциология: цели, методы и некоторые результаты исследования. М.: Наука, 1984. Гл. IV.
[10] Подробнее об источниках смещений в основе выборки инекоторых способах борьбы со смещениями см.: Kish L. Survey sampling. N. Y.: J. Wiley, 1965. P. 53—59.
[11] В действительности нам понадобится как минимум 20%-й запас карточек с именами и адресами для замещения тех респондентов, которые окажутся недоступными даже 2—3 посещений. Доля «недоступных» в исследовании специфических популяций (например, зубных врачей или читателей «Вопросов литературы») может составить 40—50%, включая и длительно отсутствующих, и отказавшихся от сотрудничества и т. п. Соответственно в последнем случае «запас» должен составлять 40—50% от первоначально запланированного объема выборки.
[12] Обсуждение «послевыборочных» последствий различных процедур отбора можно найти, в частности, в книге: Henry G. T. Practical sampling (Appl. Research Methods Series. Vol. 21). Newbury Park etc.: Sage, 1990. Ch. 8.
[13] Henry G. T. Op. cit. P. 25.
[14] Подробнеесм.: Sudman S. Applied sampling. N. Y.: Academic Press, 1975. P. 126—130.
[15] Соответственно использование кластерной процедуры отбора лишено смысла при проведении почтовых опросов, централизованных телефонных интервью и локальных обследований.
[16] Sudman S. Op. cit. P. 70.
[17] В нашем случае так называемой территориальной кластерной выборки таковыми являются различия в численности населения отдельных деревень и хуторов.
[18] См.: Sudman S. Op. cit. P. 73—78.
[19] Источник: Hansen M., Hurwitz W. N., Madav W. G. SampleSurvey Methods and Theory. N. Y.: Wiley and Sons, 1953. 2 vols. (Vol. 1. P. 264. Table 3). Знаки «0» перед запятой опущены.
[20] См.:Sudman S. Op. cit. P. 78—79; Hansen M., Hurwitz W. N.. Madow W. G. Op. cit.
[21] Примером многофазной (многоступенчатой) стратифицированной выборки может служить выборка «Всесоюзного этносоциологического исследования» (рук. Ю. В. Арутюнян, 1971—1976 гг.). См. подробнее: Арутюнян Ю. В., Дробижева Л. М., Кондратьев В. С., Сусоколов А. А. Цит. соч. С. 111—123. Отметим также, что впервые в отечественной социологии многоступенчатая территориальная вероятностная выборка использовалась в исследовании читателей газеты «Правда», проводившемся В. Э. Шляпентохом в 1970-е гг.
[22] См.: Кокрен У. Методы выборочного исследования. М.: Статистика, 1976.
[23] Sudmап S. Op. cit. P. 89.
[24] В отечественной литературе примеры очень интересных исследований, основанных на целевом отборе, особенно многочисленны (причиной чему, очевидно, является хроническая недостаточность финансирования социологических исследований). Общее представление об используемых в них методах повышения качества информации можно составить, ознакомившись с несколькими хорошими работами, например: 47 пятниц. Функционирование общественного мнения в условиях города (программы и документы исследования). М.: ССА, 1969. Вып. 1.; Шубкин В. Н. Начало пути. М.: Молодая гвардия, 1919; Клявина Т. А., Хршановская С. П. В поисках зрителя (итоги опроса руководителей театров РСФСР) // Социологические исследования. 1988. № 3. С. 47—53.
[25] Henry G. Т. Op. cit. P. 21.
[26] Предвыборные опросы общественного мнения, проводившиеся различными российскими исследовательскими центрами в первой половине 1990-х гг., изобилуют столь многочисленными подтверждениями этой истины, что трудно выбрать один «негативный пример» для критического рассмотрения. Систематический анализ просчетов в организации выборки таких опросов содержится в работах: Шляпентох В. Э. Предвыборные опросы 1993 г. в России (критический анализ) // Социологические исследования. 1995. № 10. С. 3—10; Мансуров В. А., Петренко Е. С. Изучение общественного мнения в России и СССР // Социология в России. М.: На Воробьевых, 1996. Богатый эмпирический материал, относящийся к ошибочным прогнозам итогов выборов в Думу 1995 г., см. в статье: Рубинов А. Социология сказала... // Лит. газета. 1995. 13 дек.
[27] Источник данных: Личко А.Е. Шизофрения у подростков. М.: Медицина, 1989. С. 6.
[28] Доказательства этих свойство см. в книге: Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976. С. 64¾65.
[29] Для небольших выборок (N< 100) лучше делить на(N-1).
[30] Для сгруппированных данных более точной формулойдисперсии будет:
где k — количество разных значений (k< n), а
[31] Для больших выборок биномиальное распределение практически не отличается от нормального. Если Р и Q не слишком различны по величине, достаточно и не очень большой выборки.
[32] См., например, приложение 5 в книге: Дружинин Н. К. Логика оценки статистических гипотез. М.: Статистика, 1973.
[33] См.: Mueller J. H., Schuessler К. F., Costner H. L StatisticalReasoning in Sociology. 3rd ed. Boston: Haughton Mifflin Co., 1977. P. 196—205.
[34] Ibid. P. 197.
[35] Желательно не путать обсуждаемый здесь коэффициент сопряженности «тау» Гудмана-Краскела с коэффициентом ранговой корреляции «тау», предложенным Кендаллом. Отметьте также, что t = j2.
[36] См.: Stouffer S. A. et al. The American Soldier. Princeton: Princeton University Press, 1949. Vol. 1;Kendall P. L., Lazarsfeld P. F. Problems of Survey Analysis // Merton R. K., Lazarsfeld P. F. (eds.) Continuities in Social Research: Studies in the Scope and Method of the «American Soldier». N. Y.: Free Press, 1950. P. 133—196. Существенные дополнения см. в: Rosenberg M. The Logic of Survey Analysis. N. Y.: Basic Books, 1968; Ядов В. А. Социологическое исследование: методология, программа, методы. М.: Наука, 1987. С. 190—195.
[37] Это исходное взаимоотношение иногда называют отношением нулевого порядка, а модели, получаемые при введении второй, третьей и т.д. контрольных переменных, — отношениями, второго, третьего и т.д. порядка.
[38] Именно так обычно выглядит зависимость между благожелательностью установки по отношению к некоторому объекту (X) и интенсивностью установки (Y): люди, занимающие крайне благожелательную или крайне неблагожелательную позицию в каком-то вопросе, обычно оценивают свои убеждения как более выраженные и интенсивные, чем те люди, чьи установки лежат в области середины, «нейтральных» значений шкалы.
[39] Погода (Гидрометцентр Рф) //Сегодня. 1994. 23. авг.
[40] Подробный анализ можно найти в большинстве руководств по прикладной статистике. Здесь мы ограничимся обсуждением общей логики оценки объясненной дисперсии.
[41] Более детальные сведения можно найти в статистической литературе. Очень доступно проблема излагается, в частности, в кн.: Гласс Дж., Стенли Дж. Указ. соч. С. 123—141. Для тех же, кто захочет осуществить «ручную» регрессию для какого-либо из использованных примеров, просто приведем формулы для вычисления нестандартизированных коэффициентов (обозначения те же, что и выше):
[42] Легко понять, что при измерении в единицах стандартного отклонения максимальная связь (β = 1,0) соответствует ситуации, когда сдвигу от начала координат в 1 ед. стандартного отклонения по X соответствует увеличение Y также на 1 ед. стандартного отклонения. Важно заметить, что в случае стандартизированных переменных (и только в этом случае) коэффициенты регрессии Y по X и X по Y будут совпадать.
[43] Mueller J., Schuessler К., Costner H. Statistical Reasoning in Sociology. 3rd ed. Boston: Haighton Mifflin Co, 1977. P. 279—281.
[44] См.: Дружинин Н.К. Логика оценки статистических гипотез. М.: Статистика, 1973. С. 112¾114.
[45] См., в частности: Ликеш И., Ляга Й. Основные таблицы математической статистики. М.: Финансы и статистика, 1985. (Табл. 14.)
[46] Baron L, Strauss M. A. Sexual Stratification, Pornography, and Rape in the United States // Malamuth N., Donnerstein E. (eds.) Pornography and Sexual Aggression. Orlando et al.: Academic Press, 1984. P. 185—209.
[47] Таблица приводится в сокращении по источнику:Baron L, Strauss V. A. Sexual Stratification, Pornography, and Rape.
[48] Явление называют аттенюацией. Существуют специальные методы внесения поправок на аттенюацию, но здесь они обсуждаться не будут.
[49] В оценивании также используется метод наименьших квадратов.
[50] Подробнее см.: И.Ф. Девятко. Диагностическая процедура в социологии: очерк истории и теории. М.: Наука, 1993. С. 121¾136.