Непрерывности регрессии выступает

как признак экспериментального эффекта1

Основные идеи плана с нарушением непрерывности регрессии будет легче понять, если мы сначала рас-

_____________________________________________________________________________

1 В данном разделе использованы материалы, опубликованные в работах: C a m p b e l l D. T. Quasi-Experimental Desings. — In: Social Experimentation: A method for planning and evaluating social innovations. Ed. by H. W. Riecken and R. F. Boruch. N. Y., Academic Press, 1974. © Academic Press, Inc., 1974, C a m p b e l l D. T. Re­forms as Experiments. — In: Reading in evaluation research. Ed. by F. G. C a r o, N Y., Russell Sage Foundation, 1977. © Sage Publica­tions, Inc, 1977. — Прим. ред.

смотрим сильную и слабую формы одного истинного эксперимента, применимого к ситуациям того же типа, что и обсуждаемый квазиэксперимент. Напомним, что одним из непременных условий проведения социаль­ного эксперимента является невозможность предостав­ления всем желающим определенных благ, выступающих в роли экспериментальных воздействий. Это гаран­тирует, что число экспериментальных единиц (испытуе­мых, школ, городов и т. д.), готовых подвергнуться воздействию, превышает число таких единиц, которые фактически могут быть им охвачены. Данное условие, как правило, выполняется для пилотажных программ, которые применяются к подгруппам популяции, выде­ленным по принципу больших заслуг или большей нуждаемости. Если число кандидатов превышает коли­чество предусмотренных программой мест, то обеспечи­вается выполнение одного из условий для формирова­ния контрольной группы из части кандидатов.

В этих условиях лучшая стратегия состояла бы в проведении истинного эксперимента — в составлении экспериментальной и контрольной групп путем рандо­мизации, охватывающей весь ранговый ряд «достойности». Рассмотрим, например, программу профессиональ­ной подготовки полностью или частично безработных молодых людей для получения ими определенной хо­рошо оплачиваемой работы. Критерием отбора может служить (и одно время действительно служил) доход на одного члена семьи кандидата. Если число «достой­ных» кандидатов, подавших заявление о приеме, больше числа вакансий, то администратор, ориентированный на эксперимент, мог бы отобрать будущих участников из всех «достойных» случайным образом. Учитывая выбо­рочные данные эквивалентных оставшихся кандидатов для формирования из них контрольной группы, он мог бы в дальнейшем получить сведения о заработках тех, кто прошел и кто не прошел подготовку, и измерить ее эффект.

Но во многих случаях рандомизированный отбор «достойных» считается неприемлемым. При этом ссы­лаются на то, что признак, по которому производится отбор, не дихотомичен, а имеет различные степени вы­раженности. Если возможности слишком ограничены, чтобы принять всех кандидатов, то места должны быть

предоставлены наиболее нуждающимся и наиболее «достойным». Этот довод против рандомизации часто приводится, как если бы существующие процедуры распределения кандидатов действительно удовлетворя­ли требованиям равенства, в свете которых рандомиза­ция якобы оказывается несостоятельной. Тщательное изучение работы соответствующих учреждений показа­ло бы в большинстве случаев, что они не удовлетворя­ют этим требованиям. Процедура ранжирования «до­стойных» кандидатов по степени «нуждаемости», на которой основывалось бы решение о приеме, обычно отсутствует. Случайность процедур отбора и распреде­ления делает возможным то, что кандидаты могут за­числяться в значительной степени по соображениям удобства администрации или просто по знакомству. Чтобы избежать чрезмерного потока заявлений, вновь открывающимся возможностям дается минимальная огласка. Если применяется правило «первым пришел — первым обслужен», то наиболее нуждающиеся редко оказываются среди тех, кто внимательно следит за но­выми возможностями, а «пришедшие первыми» узнают о них по неофициальным каналам, еще до опубликова­ния соответствующего объявления. В отличие от суще­ствующей практики широкая огласка программы, при­водящая к избытку кандидатов, которые затем в слу­чайном порядке отбираются для участия в программе или входят в контрольную группу, представляла бы собой высокоморальную процедуру, помимо и сверх того, что она делала бы возможным экспериментальное оценивание.

Однако если нельзя преодолеть сопротивление пол­ной рандомизации, то все же можно провести слабую форму этого эксперимента, а именно эксперимент с «рандомизацией, разрывающей ранговую связку», в ко­тором особое внимание уделяется степени достойности.

Предположим, что отбор участников программы про­изводится не из всех кандидатов, а сконцентрирован на наиболее нуждающихся, причем мест хватает как раз для приема всех тех, чей недельный доход на каждого члена семьи составляет 22 доллара и ниже, плюс еще половину тех, для кого эта цифра равна 23 долларам. Теперь, не нарушая ограничения, согласно которому программа предназначается наиболее нуждающимся,

можно рандомизировать отбор из тех, кто попал в ранговую связку «23 доллара». Таким образом удается провести небольшой истинный эксперимент. Правда, это слабый эксперимент в двух отношениях. Во-первых, в нашем распоряжении оказывается очень малое число случаев, и, следовательно, различие, отражающее под­линный эффект, может оказаться статистически незна­чимым или даже иметь противоположный знак из-за флюктуаций выборочных показателей. Естественно, воз­никает желание максимально увеличить число лиц, приходящихся на пограничную ранговую связку, для чего можно расширить интервал значений критерия от­бора, внутри которого они считаются практически рав­ными. Так, в настоящем примере интервал в 2 доллара дает большее число связанных рангов, чем, скажем, ин­тервал в 50 центов, и к тому же позволяет избежать чрезмерной и бессмысленной точности в последнем случае. Другая слабость этого эксперимента состоит в том, что он исследует эффект воздействия только для узкого класса значений критерия отбора и поэтому позволяет лишь в ограниченной степени судить об эф­фекте по всему диапазону значений этого критерия (см. рис. 4). Правда, исследуемый узкий интервал вряд ли сильно отличается от соседних интервалов, которые могли бы стать граничными в случае возможного рас­ширения или сокращения программы, и, следовательно, получаемые данные существенны для принятия важных административных решений.

При рассмотрении рис. 4 возникает вопрос: какова дальнейшая судьба тех, для кого значение критерия отбора (k) слегка отличается от граничного? Считая программу подготовки эффективной, можно было бы ожидать, что полностью включенная в эксперимент категория лиц с показателем k, равным 22 долларам, будет в дальнейшем иметь доход, весьма близкий к до­ходу экспериментальной (Е) подгруппы с k = 23 долла­рам — возможно, чуть ниже, соответственно несколько меньшему начальному доходу, но все же выше, чем для контрольной группы (С) с k = 23. Аналогично дело будет обстоять и для k, равных 21, 20 и ниже. С дру­гой стороны, дальнейшие доходы лиц с k = 24 (никто из них не участвовал в эксперименте) должны быть при­мерно такими же, как и у членов контрольной группы

Непрерывности регрессии выступает - student2.ru

Недельный доход на одного члена семьи

Р и с. 4. Результат гипотетического эксперимента по плану с разрывом ранговой связки, в котором одни кандидаты с не­дельным доходом 23 доллара на одного члена семьи прини­маются в случайном порядке на курсы профессиональной под­готовки, а другие образуют контрольную группу. Все канди­даты с доходом 22 доллара и ниже проходят подготовку. Сред­ний заработок испытуемых спустя 3 года отмечен буквами Е и С соответственно для экспериментальной и контрольной

группы.

с k = 23 — чуть выше, но не как у членов эксперимен­тальной группы с k = 23 и т. д. На рис. 5 представлены гипотетические результаты такого прослеживания по­следующих доходов по всем значениям k.

Сравнение рис. 5 и 4 наводит на мысль о том, что результаты гипотетического эксперимента с рандоми­зацией ранговой связки можно вывести из анализа эф­фектов при неслучайном назначении воздействия по всему диапазону значений критерия отбора k. Так, если принятыми оказываются все лица с доходом в 22 дол­лара и ниже, а категория «23 доллара» целиком остает­ся вне воздействия, то, получив результат, изображен­ный на рис. 6, мы могли бы с полной уверенностью считать, что эксперимент с рандомизацией ранговой связ­ки привел бы к результатам, показанным на рис, 4 и

Непрерывности регрессии выступает - student2.ru

Недельный доход на одного члена семьи

Р и с. 5. Данные гипотетического эксперимента по плану с раз­рывом ранговой связки для различных категорий доходов на члена семьи (включая данные, представленные на рис. 4). Все кандидаты с доходом 22 доллара и ниже получили подго­товку на данных курсах, и никто не был

принят, если доход на одного члена семьи составлял 24 доллара и выше.

5. В то же время результаты, представленные на рис. 7, указывали бы на отсутствие эффекта воздействия.

Рис. 6 и 7 иллюстрируют использование нарушения непрерывности регрессии в качестве признака экспери­ментального эффекта1. Этот квазиэксперимент может заменить эксперимент с разрывом ранговой связки, но не с рандомизацией, распространенной на весь диапа­зон значений k. Результаты анализа не предназначены для оценки эффектов при любых значениях критерия

_____________________________________________________________________________

1 См., например, работы: T h i s t l e t h w a i t e D. L. and C a m p b e l l D. T. Regression-discontinuity analysis: An alternative to the ex post facto experiment. — «Journal of Educational Psychology», I960, v. 51, p. 309—317: C a m p b e l l D. T. Reforms as expe­riments. — «Amer. Psychologist». 1969, v. 24, p. 409—429; G o l d b e r g e r A. S. Selection bias in evaluating treatment effects: Some formal illustrations. Madison, Institute for Research on Poverty, Univ. ofWisconsin. 1972.

Непрерывности регрессии выступает - student2.ru

Р и с. 6. Гипотетические данные эксперимента по плану, в ко­тором используется нарушение непрерывности регрессии в ка­честве показателя экспериментального эффекта. Эффект кур­сов профессиональной подготовки тот же, что и на рис. 4 и 5. Рис. 6 в принципе идентичен рис. 5, с той лишь разницей, что здесь отсутствует рандомизируемая категория кандидатов и рандомизация ранговой связки. Вместо этого на курсы приня­ты те, чьи доходы составляли 22 доллара на одного

члена семьи и ниже.

отбора и лишь служат основой для экстраполяции результатов гипотетического эксперимента с разрывом ранговой связки в данной критической точке.

План 16 является квазиэкспериментальным в том смысле, что по сравнению со случаем рандомизации ранговой связки при интерпретации данных приходится делать предположения, менее доступные проверке. На­пример, необходимо предположить однородность еди­ниц измерения по обе стороны от критической точки. Требуется также сделать ряд предположений о виде функции регрессии. Предлагаемый способ статистиче­ского анализа 1состоит в подборе линий регрессии от-

_____________________________________________________________________________

1 Разработан, в частности, Д. А. Суином в диссертации, подго­товленной в Северо-Западном университете.

Непрерывности регрессии выступает - student2.ru

Р и с. 7. Гипотетический результат эксперимента по плану с на­рушением непрерывности регрессии

в условиях, аналогичных рис. 5 и 6, для случая, когда эффект воздействия полностью отсутствует.

дельно для двух сегментов, данных слева и справа от критической точки, с последующим определением вели­чины скачка путем экстраполяции каждой кривой за критическую точку. Разность между двумя экстраполи­рованными значениями, очевидно, будет зависеть от предполагаемой формы каждой кривой. В случае двух сигмоид, изображенных на рис. 6 и 7, использование линейной функции регрессии при наличии данных, пред­ставленных на рис. 7, даст псевдоэффект. Наряду с чис­ленной обработкой данных рекомендуется также пред­ставлять данные в виде графика и не доверять резуль­татам статистических расчетов, если вид его указывает на правдоподобность непрерывной функции, не имею­щей разрыва в критической точке. Нельзя, конечно, ис­ключить случайного совпадения независимого скачка линии регрессии с критической точкой. Но это малове­роятно, если обосновано предположение о равенстве интервалов шкалы измерения и частоты внутри интер­валов распределены равномерно.

Непрерывности регрессии выступает - student2.ru На рис. 8 приведены всевозможные гипотетические результаты применения плана 16, причем графики, помещенные слева, отве­чают отсутствию эф­фекта, а те, что в цент­ре и справа, — наличию положительного или отрицательного эффек­та. Словом «премия» повсюду обозначена область значений кри­терия отбора k, соот­ветствующая экспери­ментальной группе. Если премия назна­чается по принципу больших заслуг (рис. 8а, б), то сравнение показателей в области критической точки без учета регрессии дан­ных конечного тестиро­вания по k приводит к оптимистическим псев­доэффектам: на рис. 8а получившие премию в дальнейшем больше преуспевают, но не благодаря ей. Ситуа­ция помощи нуждаю­щимся обычно соответ­ствует рис. 8 г, д. Здесь,

если не принять во внимание наличие регрессии, про­грамма может показаться вредной в отсутствие эффек­та или неэффективной, если имеется реальный эффект.

План 16, разумеется, работает ничуть не хуже, если критерий отбора k статистически не связан с данными, полученными после воздействия (премии), как в при­мерах рис. 8 ж, и. В таких случаях признак, по которо­му производится отбор, является функциональным экви-

Р и с. 8. Примерные данные экспериментов типа 16.

валентом рандомизации. Очевидно, возможна и отри­цательная регрессия (рис. 8к, м). Рис. 8 н, п приведены с целью подчеркнуть тот факт, что именно скачок рег­рессии в критической точке является признаком эффек­та, тогда как различие в наклоне кривой без такого скачка еще не свидетельствует о наличии эффекта. Это становится более очевидным, если мы вспомним, что в случаях типа н эксперимент с рандомизацией ранго­вой связки показал бы отсутствие эффекта. Криволи­нейная регрессия (рис. 8 р—т) может вызвать дополни­тельные трудности в интерпретации результатов, по­скольку из-за выборочной ошибки случай, показанный на рис. 8 р, может быть принят за случай 8 б.

Следующая иллюстрация, рис. 9, содержит данные машинного эксперимента — имитированные индивиду­альные наблюдения и построенные для них линии ре­грессии — в отсутствие эффекта и представляет собой более подробный вариант рис. 8 а. Рис. 10 показы­вает наличие эффекта. Данные предварительного тести­рования генерировались путем приписывания каждому индивиду взвешенной нормальной случайной величины, игравшей роль «истинного значения», к которому добав­лялась взвешенная независимая случайная «ошибка». «Истинное значение тестового показателя» в сумме с другой независимой «ошибкой» имитировали результа­ты итогового тестирования для случаев отсутствия эф­фекта (рис. 9). Эффект воздействия имитировался вве­дением соответствующей добавки для тех «испытуемых», которые «подверглись воздействию», то есть для зна­чений k, превышающих критическое значение.

Хотя приведенные иллюстрации относятся к случаю одной зависимой и одной независимой переменной, час­то предпочтительны многомерные варианты данного эксперимента, если при этом не утрачивается четкость правила отбора. Многомерные переменные, характери­зующие последующее состояние испытуемых, можно использовать разными способами. Так, можно ввести статистические поправки для одной из зависимых пере­менных (такой, как более поздние заработки) в целях устранения дифференциальных эффектов различных социально-экономических фоновых переменных, кроме тех, которые были использованы при выработке коли­чественного критерия отбора. Вместо этого можно

Непрерывности регрессии выступает - student2.ru

Р и с. 9. Данные машинного эксперимента типа 16: эффект от­сутствует.

Непрерывности регрессии выступает - student2.ru

Р и с. 10. Данные машинного эксперимента типа 16: эффект имеет место.

представить результат в виде составной переменной и применить технику множественной регрессии.

Бросим теперь взгляд на строку табл. 3, соответ­ствующую плану 16. Ввиду синхронности эксперимен­тального и контрольного режимов фоновая стимуляция и естественное развитие находятся под контролем. Главный эффект тестирования контролируется, по­скольку оно осуществляется одинаково как в экспери­ментальной, так и в контрольной группе. Инструмен­тальные погрешности могут создать известные трудно­сти, если итоговое тестирование проводится под эгидой той же организации, которая ведала отбором кандида­тов: благодарность счастливчиков и горечь обойденных может привести к различиям в выражении ими своих установок, к различной степени преувеличения собствен­ных успехов. Этот недостаток присущ также истинному эксперименту с разрывом ранговой связки. Этот фак­тор можно проконтролировать, поручив продолжение исследования другой организации. Мы считаем, что, согласно приведенным выше соображениям, эффекты регрессии и состава групп не могут повлиять на интер­претацию результатов, даже, несмотря на неэквивалент­ность групп и наличие регрессии. Оба фактора контро­лируются путем детального представления соответству­ющих зависимостей, а не посредством уравнивания групп. Фактор выбывания будет сказываться, если по­следующее тестирование и распределение благ произ­водится одной и той же организацией: получившие премию или место на курсах будут, по всей видимости, более охотно сотрудничать, чем те, кто оказался в контрольной группе. Между прочим, похвальное в обыч­ных условиях стремление к репрезентативному опросу всей намеченной выборки может оказаться здесь дез­ориентирующим. Если, например, рассылка анкет со штампом другой организации ведет к снижению готов­ности сотрудничать с 90 до 50%, то экспериментатор может отнестись к этому отрицательно, так как он стремился к 100%-ному охвату получивших премию. Он готов забыть, что его действительная цель — полу­чить поддающиеся интерпретации данные, что никакие цифры нельзя интерпретировать изолированно и что использовать данные по премированным можно лишь при наличии сопоставимой контрольной группы. По

этой причине, а также из-за опасности инструменталь­ной погрешности привлечение независимой организации с научной точки зрения предпочтительнее, а 50%-ный возврат анкет из обеих групп лучше, чем 90%-ный из экспериментальной и 50%-ный из контрольной группы. Проблема выбывания остается в силе и для истинного эксперимента с разрывом связки. Для обоих экспери­ментальных планов угроза внутренней валидности со стороны взаимодействия состава групп и естественного развития находится под контролем. В случае квазиэкс­перимента это объясняется невозможностью отнести явный скачок регрессии на счет такого взаимодействия. Угроза внешней валидности со стороны взаимодействия между эффектом тестирования и X контролируется по­стольку, поскольку основные измерения, используемые для принятия решения об отборе кандидатов, являются частью генеральной совокупности, на которую предпо­лагается распространить выводы.

Внешняя валидность истинного эксперимента с ран­домизацией ранговой связки и нарушением непрерыв­ности регрессии особенно зависит от взаимодействия между составом групп и X. Иначе говоря, эффект де­монстрируется только для очень узкого класса значе­ний k, равных критическому. Однако в случае квази­эксперимента возможности делать заключения, по-видимому, шире.

Корреляционные планы и планы EX POST FACTO

Одним из признаков квазиэксперимента, все отчет­ливее выступавшим при обсуждении последних девяти планов, является то, насколько экспериментатор может управлять воздействием X, то есть вторгаться в нор­мальный ход событий. Разумеется, чем больше он кон­тролирует X, тем больше он приближается к осущест­влению истинного эксперимента. Это особенно справед­ливо в отношении планов 7 и 10. Планы 7, 10, 12, 13 (но не 13а) и 14 применимы как в случае естественно возникающих воздействий, так и в случае воздействий, намеренно вводимых экспериментатором. Там, где X остается вне контроля, эксперимент вызывал бы больше подозрений, и те, кто еще согласился бы назвать квази-

экспериментом его варианты с воздействием, контроли­руемым экспериментатором, не захотели бы применять этот термин к случаям неуправляемого воздействия. Не вдаваясь в обсуждение этого вопроса, подчеркнем только ценность анализа результатов неуправляемого воздействия по типу анализа экспериментальных данных по сравнению с некоторыми вводящими в за­блуждение оценочными описаниями и рассуждениями, к которым слишком часто прибегают в подобных слу­чаях.

План 15 прямо предназначен для изучения эффек­тов естественно возникающих X, но планы, обсуждае­мые в этом параграфе (их, правда, чаще именуют не планами квазиэксперимента, а планами анализа дан­ных), еще более интегрированы в естественной обста­новке. Мы начнем наше изложение с простого корреля­ционного анализа, затем перейдем к двум, в общем, при­емлемым планам, а в конце подробнее остановимся на исследованиях ex post facto, которые даже в лучшем исполнении признаются неудовлетворительными.

Наши рекомендации