Решение общих проблем множественной регрессии
И данные, и сама реальность не всегда подходят для построения концептуальной модели, лежащей в основе множественного регрессионного анализа. Связи не всегда линейны, в измерениях часто бывают ошибки и т.д. К счастью, математики -статистики предусмотрели некоторые пути к тому, чтобы приспособить множественную регрессию к урегулированию подобных проблем. Мы обсудим возможности решения трех из обычно возникающих проблем, с тем чтобы вы могли (1) понять, как преодолевать такие сложности в вашем конкретном случае применения множественной регрессии, и (2) получить представление о гибкости множественной регрессии как приема статистического анализа.
Неинтервальные данные. В социальных науках важные переменные часто не могут быть измерены в интервальной шкале, нарушая, таким образом, условие об интервальном уровне измерения. Однако неинтервальные данные могут быть использованы в множественной регрессии при двух условиях.
Во-первых, если измерение является дихотомией (или может быть преобразовано в нее), его можно использовать непосредственно для регрессии, попросту придав одному значению дихотомии код 1, а другому – 0. Например, в изучении международной торговли товары можно [c.447]классифицировать как “иностранные” и “отечественные”, приписав значению “иностранный” код 1, а значению “отечественный” – код 0. При регрессионном анализе такая схема будет восприниматься как интервальная, поскольку дихотомия имеет особые математические свойства. В результате мы можем интерпретировать частный коэффициент регрессии, посчитанный для любой закодированной дихотомически переменной, так же как мы сделали бы это в случае измерения по интервальной шкале.
Неинтервальные переменные, которые имеют много категорий, могут быть приведены к виду, необходимому для множественной регрессии, путем использования системы фиктивных переменных. Рассмотрим, например, случай, где служебное положение измеряется только в категориях “высокое”, “среднее” и “низкое” в исследовании, целью которого является определение количества политических организаций, к которым принадлежит данный индивид, как функции образования (количества лет обучения) и служебного положения. Мы сможем использовать порядковые данные о профессии для множественной регрессии, если создадим две дихотомические фиктивные переменные, представляющие переменную “служебное положение”. Уравнение примет вид:
Y' = а + b1X1 + b2X2 + b3X3 +е,
где Y’ – количество политических организаций, в которых состоит участник;
Х1 – количество лет обучения;
Х2 – фиктивная переменная, принимающая значение 1, если служебное положение “низкое”, и значение 0 в остальных случаях;
Х3 – фиктивная переменная, принимающая значение 1, если служебное положение “среднее”, и значение 0 в остальных случаях.
Почему для выражения не интервальной переменной с тремя категориями используются только две фиктивные переменные? Потому что значения третьей фиктивной переменной будут точной линейной функцией двух других; таким образом, нарушится условие об отсутствии прямых мультиколлинеарных связей, и однозначный подсчет различных коэффициентов станет невозможным.[c.448]
Когда бы ни использовался принцип создания фиктивных переменных, мы должны следовать правилу создания фиктивных переменных на одну меньше, чем имеется категорий в неинтервальной переменной. Судя по практике, рекомендуется обычно не брать ту категорию, в которой наименьшее количество случаев. В нашем примере фиктивная переменная не была представлена категорией “высокое служебное положение”, потому что должностей этого уровня очень мало. Значение частного коэффициента регрессии для этой исключенной градации подсчитывается путем решения уравнения регрессии. Так, в данном примере если в каком-либо случае переменная “служебное положение принимает значение “высокое”, то значения Х1, X2должны быть равны 0 и значение частного коэффициента регрессии для категории “высокое служебное положение” будет равно значению Q5.
Эффект взаимодействия. Обычно регрессия наименьших квадратов предполагает, что воздействие различных НП на ЗП независимы друг от друга и для выяснения общего влияния комплекса переменных можно их просто просуммировать. На практике же влияния одних переменных усиливают и дополняют эффект воздействия других. В любом случае, когда воздействие одной НП зависит от значения другой НП, существует эффект взаимодействия. Возвращаясь к примеру о выборах, приведенному выше, мы могли бы оспорить тот факт, что расходы на рекламу имеют различные результаты в случае уже пребывающих в должности (они обычно хорошо известны) и претендентов (им еще предстоит убедить избирателей в своей пригодности).
Множественную регрессию можно приспособить к этой ситуации, если представить переменную “средства, вложенные в рекламу” (X1) как результат взаимодействия между ней самой и занимаемым постом. Если мы предположим, что занимаемый пост представлен фиктивной переменной (Х3), где претенденты имеют код 1, а занимающие посты – 0, новая регрессионная модель будет выглядеть так:
Y' = а + b1X1 + b3(X1X3) + b2X2 + е,
где Х1Х3 – переменная взаимодействия, образованная произведением Х1на Х3. [c.449]
Этот способ позволяет нам интерпретировать b1 как однократный вклад расходов на рекламу в распределение голосования путем прекращения суммарного воздействия рекламы и должности на b3 и получить таким образом более точные данные относительно значений Y.
Мультиколлинеарность. Регрессионный анализ требует, чтобы ни одна независимая переменная не была четко скоррелирована с любой другой независимой переменной или с любой линейной комбинацией независимых переменных. Обычно соблюсти это строгое требование легко, поскольку в социальных науках редко бывает так, что значения одной переменной точно выводятся из известных значений другой или ряда других переменных. Однако многие важные переменные действительно тесно связаны друг с другом. (Возьмите урбанизацию и индустриализацию, образование и доход или партии и идеологию в Западной Европе.) Если корреляция между НП в регрессионной модели достаточно велика, подсчеты коэффициента будут неточными и мы не сможем доверять результатам регрессионного анализа. Значимая мультиколлинеарность может вызвать такие большие колебания в значении частного коэффициента регрессии, что сравнивать реальные воздействия различных НП на ЗП станет невозможно. Вдобавок коэффициенты могут не достичь статистической значимости даже в тех случаях, когда наблюдается существенная взаимосвязь, что ведет к неверной констатации отсутствия двумерной связи.
Таким образом, очень важно, чтобы исследователи предпринимали серьезные попытки установить присутствие мультиколлинеарности и необходимые действия по ее корректировке. Мультиколлинеарность обычно определяют по одному или нескольким следующим признакам:
1. Высокий коэффициент R2 в уравнении, но статистически незначимые коэффициенты регрессии (b).
2. Очень сильные колебания в значениях коэффициентов регрессии (b) для одной переменной, если из уравнения выводятся или вводятся в него другие НП.
3. Значения коэффициентов регрессии, которые значительно больше или меньше (как в абсолютных значениях, так и по отношению к коэффициентам других НП), чем можно ожидать, исходяиз теории и результатов других подобных исследований.[c.450]
4. Коэффициенты регрессии с неверным знаком, т.е. отрицательные тогда, когда у нас есть все основания ожидать положительного знака, и положительные тогда, когда есть основания ожидать отрицательного знака.
Если хотя бы один из этих признаков появляется при регрессионном анализе, необходима проверка на мультиколлинеарность. Это делается путем регрессирования каждой НП на все другие НП. К примеру, мы хотим проверить уравнение
Y’ = а + b1X1 +b2X2 + b3X3 + е
через такие уравнения:
X1 = а + b2X2 + b3X3;
Х2 = а + b1X1 + b3X3;
Х3 = а + b1X1 + b2X2.
Если R2 для любого из этих уравнений будет выше, чем, скажем, 0,8, мы можем заключить, что имеется значимая мультиколлинеарность.
Существует несколько способов корректировки мультиколлинеарности. Если у нас есть ряд добавочных по oотношению к выборке случаев (как, например, тогда, когда мы выбираем данные из опубликованного источника и можем просто обратиться к нему еще раз и сделать довыборку), увеличение размера выборки может в какой-то степени уменьшить мультиколлинеарность. Другой путь – определить, какие именно НП особенно тесно связаны друг с другом, и объединить их в единый фактор. Если, например, средства, вложенные в радио-, теле– и печатную рекламу, измеряются в нашем исследовании сенатских выборов отдельно, а мы обнаружим, что они тесно взаимосвязаны, можно объединить их в один признак услады в средства массовой информации, с тем чтобы уменьшить дестабилизирующее воздействие мультиколлинеарности. Естественно, любое подобное комбинирование будет работать только в том случае, если оно теоретически обосновано. Нельзя, к примеру, решать проблему мультиколлинеарности путем объединения занимаемого кандидатом поста и регионального расположения штата, поскольку теоретически они относятся к вещам, не связанным друг с другом. И наконец, можно попробовать справиться с мультиколлинеарностью, отбросив одну или [c.451]несколько тесно связанных переменных. Это может привести к искажениям, но, убирая сначала одну, потому другую из связанных НП и сравнивая результаты регрессий, можно по меньшей мере составить представление о том, какой урон наносят искажения, а какой – мультиколли-неарность.
Сравнение независимых переменных. Всегда важно знать, какая из нескольких НП оказывает наибольшее влияние на зависимую переменную. Если бы мы хотели заставить людей, к примеру, пристегивать ремни, нам понадобилось бы, наверное, узнать, какие из факторов, способных вызвать такое поведение, могут сильнее всего повлиять на решение пристегиваться, и затем действовать наиболее эффективными методами. Анализ с применением множественной регрессии очень хорошо подходит для этого, поскольку предусматривает оценку влияния каждой отдельной НП на колебания ЗП одним из своих методов – частным коэффициентом регрессии. К сожалению, определение относительного влияния разных НП не тождественно простому сравнению их коэффициентов регрессии.
В тех случаях, когда НП измеряются в разных единицах (количество долларов наряду с процентом избирателей, например), коэффициенты регрессии не отражают относительного воздействия НП на ЗП. Одним из возможных путей обойти это – стандартизировать переменные так, чтобы они были измерены в одних и тех же единицах, и снова произвести подсчеты коэффициента регрессии. Стандартизация измерений достигается путем преобразования числового ряда в единицы стандартного отклонения от значения среднего геометрического переменной посредством использования следующей формулы:
где звездочка означает, что переменная стандартизована;
X – значение данного признака;
– значение среднего геометрического этой переменной для всех признаков;
SX – стандартное отклонение распределения значений переменной X (см. гл. 14). [c.452]
Когда числовые ряда заменены в уравнении регрессии на стандартизованные ряды, а выпадает, потому что стандартизация сводит его к 0, и уравнение приходит к общей формуле:
Y’ = а + β 1X1* + β 2X2* + β 3X3* +…+ β nXn* + е,
где β представляет частный коэффициент стандартизованной регрессии и называется бета-вес, или бета-коэффициент. Вес корректирует частный нестандартизованный коэффициент регрессии путем деления стандартного отклонения НП на стандартное отклонение ЗП и может быть посчитан по формуле:
Бета-вес может быть интерпретирован как среднее изменение стандартного отклонения переменной Y, связанное с измерением стандартного отклонения переменной Х при постоянном воздействии других НП. Таким образом, β со значением 0,5 означает, что изменение значения НП в одно стандартное отклонение вызовет изменение ЗП в половину стандартного отклонения.
Таким образом, стандартизация позволяет сравнивать влияние нескольких независимых переменных внутри одного массива. Если же нам нужно выяснить взаимосвязи переменных между массивами, этот способ может ввести в заблуждение. Если, например, нам захочется изучить влияние количества вложенных средств на успех кандидатов на выборах в Соединенных Штатах и Мексике, мы обнаружим, что в распределении (а следовательно и в стандартном отклонении) ключевых переменных были существенные различия, поскольку организация кампании в средствах массовой информации в Соединенных Штатах стоит больше, и результаты выборов зависят от этого в одной стране больше, чем в другой. Поскольку значение β является функцией вариации переменных (чем больше вариация, тем больше β при прочих равных условиях), мы можем ошибаться, думая, что вложение средств дает в одной стране больший эффект, чем в другой, просто потому, что таковы математические обусловленные значения β. Чтобы избежать такой ошибки, необходимо принять во внимание частный наклон [c.453]нестандатизованной регрессии в любом случае сравнения влияний НП в различных массивах, если вариация этой переменной значительно меняется от массива к массиву6. [c.454]
ПАТ-АНАЛИЗ*
Регрессионный анализ может быть достаточно полезен для проверки отдельных гипотез и изучения относительного влияния различных независимых переменных. Однако регрессия предлагает такую модель причинных связей, которая не всегда отражает всю сложность окружающего мира. Если нам захочется определить решающие факторы расовой сегрегации в системе общеобразовательных школ, например, мы можем предположить, что школьная сегрегация вызвана сегрегацией в системе расселения (поскольку большинство школ тяготеет к географическим регионам), а она в свою очередь расовыми различиями в доходах. Диаграмма причин, или модель взаимосвязей, построенная по схеме, предложенной в гл. 2, изображена на модели 1.
Модель1. X1 – расовые различия в доходах,Х2 – жилищная сегрегация и Х3– школьная сегрегация
Эта простая диаграмма – типичная модель, полученная в результате обычного регрессионного анализа; она показывает, что НП оказывают воздействие на ЗП независимо друг от друга. В реальной же социальной ситуации НП часто влияют друг на друга так же, как и на ЗП. Если вспомнить наш пример, то мало-мальские знания об объекте исследования позволят предположить, что различия в доходах влияют на жилищную сегрегацию так же, как и на школьную сегрегацию, поскольку менее дорогие и более дорогие дома обычно географически тяготеют друг к другу. Признание этого факта означало бы, что мы пересмотрели нашу модель, Можно предположить, что существует последовательное развитие, в [c.454]котором одна НП оказывает воздействие на ЗП исключительно через изменения, вызванные ею в другой НП. Это можно изобразить так:
Модель 2
Более глубокое проникновение в предмет может привести к пониманию того факта, что расовые различия в доходе влияют на школьную сегрегацию как прямо, так и через жилищную сегрегацию, поскольку более состоятельные люди могут помещать своих детей в частные школы. Эту информацию можно отразить в модели путем изображения прямых стрелок от X1 к Х3, как в модели 3.
Модель 3.
Пат-анализ – это способ статистического анализа, которым можно оценить точность таких моделей путем эмпирической оценки прямых и непрямых воздействий одной переменной на другую. Его широко применяют в социальных науках, поскольку он пригоден для решения широкого круга исследовательских задач и имеет то преимущество, что с его помощью можно проверить сразу значительную долю теории, а не проверять каждую гипотезу в отдельности. Наша цель – познакомить вас с основными процедурами пат-анализа и научить читать пат-диаграммы, которые могут встретиться вам в литературе. Мы не станем вникать во все детали, усвоение которых необходимо для более серьезного и глубокого применения этого метода, поэтому вы поступите мудро, если почитаете что-нибудь еще, прежде чем попытаетесь применить пат-анализ для решения сложных исследовательских задач.
Рекурсивные и нерекурсивные модели. Пат-анализ начинается с построения концептуальной модели, которая выделяет причинные связи, реально существующие, по мнению исследователя, в окружающем мире. Для пат-анализа модель 3 следует перестроить и представить как модель 4, где величина обозначает те колебания связанных с ними переменных, которые не могут быть объяснены колебаниями других переменных в модели. [c.455]
Модель 4
Затем модель представляется в виде математического уравнения. Однако любая модель, в которой НП независимы друг от друга (как в модели 1), не может быть представлена одним уравнением, ее следует описывать несколькими структурными уравнениями. Модель 4 будет представлена следующим набором уравнений:
X1 = р1uRu;
Х2 = p21X1 +p2vRv;
Х3 = p32X2 + p31X1b+ p3wRw.
p в этих уравнениях представляет пат-коэффициенты, которые подытоживают размер или силу воздействия, оказываемого одной переменной на другую при постоянных воздействиях других переменных. Общепринятый способ написания пат-коэффициента – pij, что обозначает направление от переменной j к переменной i. Таким образом, набор данных уравнений говорит о том, что величина X1целиком обусловлена факторами, лежащими за пределами модели, величина X2 обусловлена X1 и факторами вне модели, и величина X3 обусловлена X1, X2 и факторами вне модели. Такие переменные, как X2 и X3, которые хотя бы частично определены другими переменными данной модели, называются эндогенными, а переменные, полностью обусловленные внешними по отношению к модели факторами, называются экзогенными.
Модели подразделяются на рекурсивные и нерекурсивные. Модель рекурсивна тогда, когда все задействованные в ней переменные могут быть расположены так, что первая будет определяться только внешними факторами, вторая – только внешними факторами и первой переменной, третья – только внешними факторами и первой и второй переменными и т.д. Короче говоря, все это означает, что все причинные влияния должны осуществляться в одном направлении без “обратной связи”7. Модель 4 – это пример рекурсивной модели.
Если между любыми переменными модели существует обратная связь (взаимная причинность), то она считается [c.456]нерекурсивной. Например, мы могли добавить переменную “род занятий” (X4) к модели школьной сегрегации и заявить, что раздельное обучение ведет к расовым различиям в профессиональных достижениях, а это в свою очередь вызывает различия в доходах, так что модель уже будет выглядеть как модель 5.
Модель 5. Эта модель уже не содержит переменных, целиком обусловленных внешними по отношению к ней факторами, и является нерекурсивной. Такие модели требуют особых способов анализа, что лежит за рамками данной книги8. Впрочем, рекурсивные модели вполне можно изучать методами обычной регрессии наименьших квадратов, описанной выше. Если переменные представлены в стандартизованном виде, пат-коэффициенты можно посчитать, как коэффициенты стандартизованной регрессии, производные от регрессии.
Использование пат-анализа. Можно проверить эмпирические предположения насчет верности выдвинутых в модели предположений путем подсчета серии регрессий, где каждая эндогенная переменная регрессировала со всеми переменными, которые предположительно на нее влияют. Чтобы пример был чисто гипотетический, возьмем пятипеременную рекурсивную модель, изображенную на модели 6 (остаточное влияние убрано для простоты изображения).
Чтобы проверить эту модель, мы определим регрессию X5 на X1через X4, Х4 на X2 и X3 и X3 на X1. X1 и X3 будем считать экзогенными. Если значение любого из пат-коэффициентов (коэффициентов стандартизованной [c.457]регрессии), полученных при этих расчетах, приближается к 0 или является статистически незначимым, то это свидетельствует о том, что мы неверно построили модель, предположив в ней взаимосвязь, которой на самом деле в данных нет.
Кроме этого, можно проверить верность наших предположений относительно отсутствия взаимодействия путем вычисления регрессии между эндогенными переменными и теми, с которыми они, по нашему мнению, не связаны. Например, для проверки модели 6 нам нужно вычислить регрессию X3 на X1 и X4 на X1, чтобы выяснить, не следовало ли изобразить те стрелки, которые мы опустили. Если полученные пат-коэффициенты существенно отличны от 0 (>=0,2, например) и статистически значимы, нам придется заключить, что модель (и наша теория о тех явлениях, которые ею представлены) нуждается в пересмотре.
Одним из важнейших достоинств пат-анализа является то, что он облегчает разработку теории тем, что побуждает использовать теорию и анализ данных в плодотворном взаимодействии, где одно дополняет другое. Пат-анализ такого типа позволит судить не только о том, связаны ли переменные в нашей модели именно так, как мы предполагали, но и о том, каково относительное влияние каждой переменной на другие переменные в данной модели. Суммарное воздействие одной переменной на другую равно значению или силе прямой связи между ними плюс значение или сила непрямых связей, существующих между ними. Сила непрямой связи измеряется произведением тех прямых связей, из которых она состоит. Например, в модели 6 общее воздействие X2 на X5 равно
р52+(р42 • р54),
а общее воздействие X1 на X5 будет равно (p21 • p52) + (p21•р42• p54).
Везде, где используются коэффициенты стандартизованной регрессии, можно использовать этот способ сравнения суммарных воздействий разных переменных в рамках одной системы. Знать его крайне полезно, поскольку он может помочь как рядовым гражданам, так и руководителям направить свои усилия именно туда, где [c.458]они будут иметь наибольший эффект. Например, если мы пытаемся убедить людей в необходимости пристегивать ремни, мы можем сначала выяснить, какой из нескольких факторов, определяющих это решение, имеет наибольшее влияние, и затем направить все усилия на изменение именно этой переменной.
Пат-анализ может быть также использован для сравнения воздействия переменных в разных системах. Если вернуться к примеру о школьной сегрегации, то можно собрать данные по Антланте, Лос-Анджелесу и Детройту и проверить верность модели 4 по каждому городу. Если мы не стандартизируем данные и используем коэффициенты нестандартизованной регрессии, то мы можем сравнить, скажем, влияние жилищной сегрегации на школьную сегрегацию в каждом из этих городов, чтобы понять, как интересующие нас причинные взаимодействия изменяются от города к городу. Необходимо использовать нестандартизованные коэффициенты, поскольку стандартизация ставит значение пат-коэффициента в зависимость от вариации переменной в данном массиве. Если, например, в одном городе школьная сегрегация проявляется гораздо сильнее, чем в другом, относительный размер коэффициента стандартизованной регрессии будет отражать степень этих различий в разбросе, а не действительную разницу в относительной силе проявления этой переменной в различных городах.
Общее правило – использовать стандартизованные коэффициенты при сравнении воздействий разных переменных в рамках одного массива и нестандартизованные коэффициенты при сравнении воздействий одних и тех же переменных в различных массивах9. Считается, что именно нестандартизованные коэффициенты позволяют судить о тех “причинных законах”, которые управляют общественным развитием.[c.459]
АНАЛИЗ ВРЕМЕННЫХ РЯДОВ
Многие важные социальные и политические события иногда повторяются, а не случаются лишь единожды, а социальные и политические процессы порой тянутся на протяжении нескольких лет. В результате исследователям часто приходится изучать взаимодействия объектов, разделенных во времени. Средством для этого является [c.459] анализ временных рядов. Он используется, когда нужно объяснить, что случилось в прошлом или прогнозировать события в будущем. Способы применения временных рядов сложны и требуют основательной подготовки. Они, однако, подходят для решения настолько большого круга исследовательских задач и так часто используются в разработках важных проблем, что даже начинающие должны иметь некоторое представление об их основных принципах.
Временные ряды – это просто комплекс наблюдений, в которых одна и та же переменная измеряется повторно через определенные интервалы. Государственное агентство занятости может обнародовать цифры по уровню безработицы каждый месяц, международная организация может публиковать ежегодные отчеты об общем объеме международной торговли, маклерская контора может фиксировать индекс Доу-Джонса каждый день. Такие данные можно анализировать методами, основанными на тех принципах регрессии, которые обсуждались ранее. Мы начнем с обсуждения общих подходов к временным рядам и затем рассмотрим два варианта.
Регрессия временных рядов. Исследователям часто бывает необходимо объяснить наблюдаемые тренды (их еще называют секулярными трендами).
Они хотят знать, почему нечто увеличивается или уменьшается, почему оно возрастаетили убывает постоянно или циклически и т.д. Например, нам нужно выяснить, насколько послевоенный (имеется в виду вторая мировая война) рост расходов на вооружения в Соединенных Штатах являлся следствием военных расходов в СССР; для этого мы строим простейшую регрессионную модель:
Y = a + bXt + et,
где Y представляет данные по военным расходам США в виде временных рядов;
а – средний уровень расходов в Соединенных Штатах;
b – влияние расходов в СССР на расходы в США;
Xt – данные по военным расходам СССР в виде временных рядов;
et – погрешность, отражающая случайные влияния на расходы в США.
Можно использовать обычную регрессию наименьших квадратов для подсчета коэффициентов в этой модели и [c.460]попытаться объявить или предположить расходы США следствием расходов СССР. Однако для того, чтобы в результате этих подсчетов получить неотклоненные или точные значения коэффициентов, погрешности, соответствующие различным временным точкам, не должны коррелировать, как уже упоминалось при перечислении условий, лежащих в основе регрессионного анализа. Фактически внешние факторы, влияющие на размер расходов США в одной временной точке, вероятно, будут влиять и в другой. Если, к примеру, перспективы заключения контракта заставили Пентагон вложить средства в дорогое оружие абсолютно помимо каких-либо действий с советской стороны, то такое воздействие скорее всего будет сохраняться из года в год; точно так же, если члены конгресса пытаются сохранить в своих военных округах военные контракты и оборудование, их влияние на уровень расходов будет постоянно проявляться. Эти влияния в модели отражены погрешностью. И в результате эти погрешности с течением времени сильно коррелируют.
Эта автокорреляция (ее еще называют серийной корреляцией) нарушает одно из условий регрессионного анализа и может привести к тому, что отклонения коэффициента а и 6 при компьютерной обработке могут быть значительно недооценены. В результате статистическая значимость этих коэффициентов будет сильно вздута, и это может привести нас к мысли, что существует взаимосвязь там, где ее на самом деле нет. По этой причине очень важно проводить тест на наличие автокорреляции и, если таковая присутствует, принять меры к устранению ее воздействия, прежде чем делать какие = либо выводы по моделям, содержащим временные ряды. Существует целый ряд статистических тестов на автокорреляцию и несколько способов ее корректировки10.
Построение временных лагов. Часто обнаруживается, что одно событие влияет на другое только по прошествии некоторого времени. В нашем примере, скажем, маловероятно, что советские военные расходы за один год повлияют на расходы США в тот же год, поскольку уровень расходов планируется заранее и уровень советских военных расходов может быть неизвестен в момент принятия решения о расходах США. Следовательно, иногда необходимо учесть в модели, изображающей влияние одной [c.461]переменной на другую, временной лаг. На простейшем уровне мы можем сделать это, сравнивая расходы США с расходами СССР за предыдущий год. Наша основная модель, таким образом, будет выглядеть вот так:
Yt = a + bXt–1 + et,
где t–1 означает запаздывание в один год.
Прерванные временные ряды. Часто исследователю бывает необходимо определить влияние единичного события на поведение переменной. Например, можно попытаться измерить влияние принятия закона о необходимости пристегивать автомобильные ремни на количество смертельных исходов в автокатастрофах в определенной стране. Для этого нужно собрать данные о количестве смертельных случаев, отмеченных за каждый месяц в течение нескольких лет до принятия закона и нескольких лет после (может быть, следует фиксировать количество смертей в процентах от общего количества людей, вовлеченных в автокатастрофы за месяц, с тем чтобы обеспечить реальную почву для сравнения периодов, в течение которых количество происшествий сильно менялось). Обнаружится, однако, что выяснить влияние закона простым сравнением количества смертей до закона и после его принятия довольно сложно, поскольку мы сравниваем не единичное измерение, а комплекс измерений. Значения могут существенно изменяться как до, так и после принятия закона, так что визуальное изучение данных не даст очевидного результата.
Значения переменных в любых временных рядах могут изменяться по трем основным причинам: (1) секулярные тренды (долговременные тенденции к увеличению или уменьшению); (2) циклические отклонения или сезонность (тенденции к регулярному росту или падению в течение длительного времени) и (3) случайные отклонения (изменения, являющиеся следствием единичных событий, как, например, неожиданная метель для нашего случая, или ошибок в измерении переменной, как, например, случайное отнесение телесных повреждений к числу смертных случаев). Прежде чем мы сможем определить влияние любого конкретного события на временной ряд, необходимо исключить изменения, являющиеся следствием [c.462]трендов, сезонных и случайных факторов. Кроме того, важно осознать, что в любом временном ряду такого типа, вероятно, возникнут серьезные проблемы, связанные с автокорреляцией, поскольку погрешности в разных наблюдениях обычно сильно коррелируют, делая невозможным точный подсчет коэффициентов.
К счастью, в статистике разработан способ, с помощью которого можно приспособить регрессионный анализ к такой ситуации. Этот способ называется авторегрессивные интегрированные движущиеся средние модели (АРИМА – аббревиатура английского названия), они приспособлены к факторным трендам, сезонности и случайным воздействиям извне временных рядов и одновременно к автокорреляции так, что истинное влияние помех ясно видно11. Хотя мы здесь не располагаем достаточным местом, чтобы объяснить, как работают эти методики, исследователям следует знать об их существовании, поскольку они делают возможным использование прерванных временных рядов как форму квазиэксперимента, где вызывающие помехи события (революция, стихийное бедствие, расследование коррупции в государственном учреждении, введение новой технологии и т. д.) рассматриваются как стимул или НП, а значения ЗП выполняют функции контрольной группы12. Такие исследования могут позволить нам сделать некоторые ценные выводы относительно тех причин важных событий, которые не были предусмотрены при постановке задач исследования, и, следовательно, открыть путь к решению целого ряда исследовательских задач, которые иначе могли бы остаться вне сферы нашего внимания. [c.463]
ЗАКЛЮЧЕНИЕ
Мы закончим эту главу двумя оговорками. Во-первых, необходимо понимать, что мы обсудили лишь некоторые из многочисленных многомерных статистик, позволяющих анализировать как интервальные, так и неинтервальные данные. Каждая из этих методик приложима к решению различных аналитических задач. Среди наиболее распространенных методик, которые мы не обсудили здесь, следует упомянуть такие, как: дискриминантный анализ, определяющий статистически значимые различия в дихотомических группах и, таким образом, наилучшим [c.463]образом подходящий для экспериментальных и квазиэкспериментальных работ; анализ вариаций, который используется для проверки гипотез об отличиях средних геометрических в различных группах и может оказаться особенно полезным в определении влияний некоторых “воздействий” или помех на то, как отдельные случаи укладываются в концепцию; факторный анализ, который используется для определения тех факторов, которые отражают наличие связей между кажущимися независимыми переменными. Объяснения того, когда и как можно использовать эти и другие методики, можно найти в списке дополнительной литературы в конце этой главы.
Второе, о чем хотелось бы сказать, – это то, что вышеизложенное на самом деле не подготовит вас к выполнению сложных видов статистического анализа. К счастью, не нужно быть статистиком, для того чтобы использовать наиболее важные методы, поскольку программы статистического анализа как для микро-, так и для персонального компьютера и ЭВМ выполнят для вас все подсчеты, если, конечно, вы знаете, как верно построить анализ. Большинство этих программ имеет хорошо скомпонованные инструктирующие учебники-самоучители, которые помогут р