Проверка наличия эффекта в различные моменты времени
В исследованиях убеждающих воздействий, которые в известном смысле сродни педагогике, Ховленд и его сотрудники неоднократно обнаруживали, что долговременные эффекты отличаются от кратковременных не только количественно, но и качественно. Долговременные эффекты более выражены для общих и слабее для специфических социальных установок (Hovland, Lumsdain, Sheffield [51]). Речь дискредитированного оратора не производит немедленного убеждающего действия на слушателей, но может давать значительный эффект месяц спустя, если только слушателям не напоминать о первоисточнике (Hovland, Janis, Kelley [50]). Эти факты предупреждают нас о том, насколько рискованно ограничиваться в оценке методики обучения немедленным или вообще однократным тестированием после введения экспериментального воздействия. Хотя это очень затрудняет проведение исследования, можно лишь рекомендовать включение в его программу тестирований, проводимых, скажем, через месяц, полгода и год. Правда, дело сводится к обычному учету (включая сюда и учет выбывших испытуемых), если в качестве итоговых показателей берутся годовые школьные оценки или результаты контрольных работ, которые все равно подлежат регистрации. Но если тестирование проводится экспериментатором, то, как считает большинство авторов, получение повторных данных на одних и тех же учениках еще опаснее, чем использование предварительного тестирования. Это мнение, разумеется, подтвердилось в исследовании памяти (см., например, Underwood [128]). Хотя Ховленд и его сотрудники, как правило, проводили предварительное тестирование (план 4), они также составляли отдельные группы — экспериментальные и контрольные — для каждого периода проведения последующего тестирования, например:
R О X О
R О О
R О X О
R O O.
Подобное дублирование групп требовалось бы и для плана 5 или 6. Отметим, что этот план не обеспечивает полного контроля, если мы хотим установить, как экспериментальный эффект зависит от времени, истекшего после введения X: наблюдаемые различия могут объясняться взаимодействием между X и определенными фоновыми событиями, которые могли произойти в промежутке между «близким» и «отдаленным» последующими тестированиями. Полный контроль этой возможности требует разработки еще более сложных планов эксперимента. Подобные исследования обходятся чрезвычайно дорого. Исключение составляют случаи, когда тестирование является составной частью обычной деятельности исследуемого института. Поэтому те, кто располагает данными таких тестирований, должны воспользоваться этой возможностью для прослеживания экспериментального эффекта в различные периоды времени.
Обобщение на другие X:
вариативность реализаций X
Цель науки предполагает распространение результатов не только на другие популяции или периоды времени, но и на другие неидентичные случаи предъявления X, то есть на те воздействия, которые в теории будто идентичны X, но в действительности отличаются от X теоретически несущественными элементами. Эта цель вступает в противоречие с часто встречающимся широким толкованием необходимости экспериментального контроля, которое выражается в стремлении к точному воспроизведению X при каждом повторении эксперимента. Так, сравнивая эффекты эмоциональных и рациональных речей, можно было бы заставить одного оратора произнести все речи перед группами слушателей каждого типа. Есть даже еще лучшая возможность: записать речь на магнитную ленту так, чтобы все группы, проходящие тестирование по этому уровню воздействия, услышали «совершенно одно и то же». Такой способ проведения эксперимента может показаться более совершенным, чем привлечение нескольких ораторов, каждый из которых произнес бы одну-единственную речь. Действительно, в последнем случае мы «точно не знали бы», какой экспериментальный стимул предъяв-
ляется той или иной группе. Но ошибочно думать, что мы в состоянии ограничить экспериментальное воздействие рамками некоей абстрактной классификации и эффективно передавать эту информацию все новым испытуемым. В случае записанного на магнитофон интервью мы каждый раз воспроизводим множество специфических иррелевантных деталей. А кто знает, может быть, эти детали, а не сознательно выбранные нами компоненты воздействия и вызвали данный эффект. Если, однако, мы воспользуемся многочисленными независимыми реализациями воздействия, то специфические иррелевантные детали не будут воспроизводиться каждый раз в том же виде и наша интерпретация источника эффектов будет иметь больше шансов оказаться правильной.
Рассмотрим, например, исследование Гецкоу, Келли и Мак-Кичи [47], в котором сравнивалась эффективность опроса учеников и дискуссии. В эксперименте участвовало восемь учителей, каждый из которых интерпретировал оба метода по-своему. В результате нам лучше известно, каковы были экспериментальные воздействия (с точки зрения составления рекомендации учителям), чем, если бы использовался только один учитель или восемь учителей, усвоивших одни и те же детали, не включенные в абстрактное описание сравниваемых методов. (Этот акцент на различные реализации X должен по возможности сопровождаться, как у Гецкоу и др., применением обоих методов всеми учителями, участвующими в эксперименте, с тем, чтобы специфические побочные компоненты урока не смешивались с конкретным воздействием. Чтобы оценить значимость взаимодействия «учитель» — «метод» при использовании целых классов, каждый учитель должен дать по два урока, применяя каждый из двух методов.)
Еще более наглядный пример: при изучении влияния пола учителя на эффективность начального обучения арифметике следует привлечь к эксперименту многих учителей обоего пола, а не по одному на тот и другой пол. Хотя это положение очевидно, ему, как отмечает Хэммонд [48], следуют не всегда. Эта проблема является одним из аспектов проблемы репрезентативности эксперимента, рассматриваемой Брунсвиком [9]. Андервуд [129, с. 281—287] по аналогичным соображениям
выступал против точной стандартизации или точного воспроизведения аппаратуры в различных экспериментах, что отнюдь не противоречит его строгому операционализму.
Обобщение на другие X:
последовательная детализация X и
Новые контрольные группы
Реальное воздействие (X) в любом эксперименте является комплексным, включающим компоненты, которые могут быть концептуализированы как различные переменные. Когда обнаруживается сильный и отчетливый эффект, логика науки требует проведения все более тонких экспериментов, выделения тех аспектов, от которых больше всего зависит эффект. Это может достигаться путем повышения четкости в определении и предъявлении воздействий или с помощью новых контрольных групп, уравненных с экспериментальной группой по все большему числу показателей, благодаря чему различия сводятся к более специфическим признакам первоначального X. В качестве примера сошлемся на введение в медицинские исследования контрольных групп пациентов, принимающих плацебо или подвергающихся инсценированной операции. Первоначальные эксперименты обнаруживали внутренне валидный эффект, который, однако, мог быть вызван тем, что пациент знал о том, что он подвергается лечению, или хирургическим шоком, а не специфическими свойствами принимаемого лекарства или удалением мозговой ткани. Отсюда и использование особых контрольных групп, назначение которых — исключить подобные предположения. Процесс обобщения на другие X — направляемая теорией поисковая экстраполяция, осуществляемая посредством проб и ошибок, и в этом процессе подобное уточнение X может играть важную роль.
Обобщение на другие О
Подобно тому, как за любым X тянется шлейф его теоретически несущественных особенностей, так и любой конкретный измерительный инструмент есть комплекс, в котором релевантное содержание связано с конкретной инструментальной формой, детали которой не имеют отношения к теоретической цели. Так, если мы
пользуемся для регистрации ответов специальными карандашами и бланками фирмы 1ВМ1, то это скорее по соображениям удобства, а не из-за того, что мы хотим включить в наши результаты дисперсию, обусловленную навыками работы с машинными бланками, знакомством с заполняемой формой, способностью следовать инструкции и т. д. Точно так же проверку знаний по пройденному материалу посредством письменных работ приходится осуществлять с учетом индивидуального стиля и лексики, и поэтому результирующие колебания показателей должны содержать дисперсию, обусловленную этими источниками, что, как правило, не входит в число наших целей. Ввиду комплексного характера любого О попытка распространить результаты на другие потенциальные О ставит нас перед проблемой: каким аспектом примененного в эксперименте О был обусловлен внутренне валидный эффект? Поскольку цель обучения — не просто подготовка к будущим сочинениям и контрольным работам, мы должны все время иметь в виду эту проблему внешней валидности, или обобщаемости результатов.
И снова с концептуальной точки зрения следует не уповать на «чистые» показатели, свободные от иррелевантных наслоений, а использовать множество разных измерений, в которых специфические средства реализации, конкретные иррелевантные детали были бы по возможности различными, а общее, существенное для нас содержание присутствовало бы в каждом из них. В рамках одного эксперимента в этом плане можно больше сделать применительно к О, чем к X, так как в один и тот же эксперимент обычно можно включить целый ряд мер эффекта (то есть зависимых переменных). В исследовании Гецкоу, Келли и Мак-Кичи [47] эффекты регистрировались не только в ходе экзаменов и проведения специальных тестов установок, но учитывались и такие последующие действия, как выбор профилирующего предмета и запись на продвинутый курс по данной проблематике. (Эти последние оказались столь же чувствительными к различиям в экспериментальных воздействиях, как и результаты тестов.)
_____________________________________________________________________________
1 1ВМ (International Business Machines) — одна из крупнейших американских фирм, производящих вычислительную аппаратуру, в частности, для школ. — Прим. перев.
Требование множественности О должно стать стандартом для любого исследования методов обучения. В простейшем случае следует сочетать результаты письменных работ и экзаменов (см. Stanley, Beeman [115]), присоединяя к ним по возможности данные относительно активности учащихся на уроке. (Распространение этого подхода на вопросы валидности тестов содержится в: Campbell, Fiske [15]; Campbell [12]).
Квазиэкспериментальные планы
Существует немало естественных социальных условий, в которых исследователь может использовать нечто вроде планирования эксперимента при сборе данных (то есть в отношении того, когда и на ком производить измерения), даже если он не полностью контролирует порядок экспериментальных воздействий (то есть когда и кому предъявляются воздействия, рандомизацию предъявления), что делает возможным подлинный эксперимент. Такие исследования в целом могут рассматриваться как квазиэксперименты. Одна из целей настоящей главы — пробудить интерес к таким квазиэкспериментам и уточнить условия, в которых возникает возможность их проведения. Но как раз из-за отсутствия полного контроля экспериментальных параметров исследователь должен отдавать себе отчет в том, какие именно переменные в его конкретном плане не поддаются контролю. Собственно говоря, список источников невалидности, приведенный в табл. 1, 2 и 3, был разработан скорее ради оценки квазиэкспериментов, чем для понимания истинного эксперимента.
Ознакомившись с предыдущим параграфом, будущий исследователь, вероятно, почувствовал, что планирование эксперимента сопряжено с более многочисленными трудностями, чем он полагал ранее. Такой итог следует приветствовать, если результатом будет планирование и проведение более совершенных экспериментов и большая осмотрительность в выводах, которые делаются на основе полученных результатов. Однако мы вовсе не хотели бы, чтобы у читателя сложилось впечатление, будто контроль параметров эксперимента все равно недостижим, и прекратил направленные на это усилия,
обратившись к еще более неформальным методам исследования. Кроме того, этот внушительный список источников невалидности может с еще большей вероятностью отпугнуть от проведения квазиэкспериментов, раз уж с самого начала, очевидно, отсутствие полного контроля за экспериментальными параметрами. Подобный итог был бы прямо противоположен нашим намерениям.
С точки зрения конечной интерпретации эксперимента и попыток вписать его в развивающуюся науку, каждый эксперимент несовершенен. Польза от списка факторов валидности могла бы состоять в том, чтобы экспериментатор лучше понимал недостатки своего плана, которые он не может устранить, и соответственно знал бы о возможной альтернативной интерпретации полученных данных. Конечно, он должен планировать самый лучший эксперимент, какой только возможен в данной ситуации. Он должен сознательно выискивать такие искусственные и естественные лаборатории, которые обеспечивают наилучшие возможности контроля. Но после этого ему нужно провести эксперимент и интерпретировать результаты, полностью сознавая, в каких пунктах эти результаты двусмысленны. Такое понимание важно и для осуществления экспериментов с «полным» контролем, однако оно абсолютно необходимо в случае квазиэкспериментов.
Осуществляя этот общий замысел, мы в этом разделе дадим обзор сильных и слабых сторон разнородных планов квазиэкспериментов, каждый из которых заслуживает использования, если применение лучшего плана невозможно. Сначала будут обсуждены три плана эксперимента с одной группой. Затем будут представлены пять общих типов экспериментов с многими группами. Отдельный параграф отводится вопросам корреляции, планам ex post facto, панельным исследованиям и т. д.
Некоторые предварительные замечания