О теории экспериментирования
Этот параграф написан, прежде всего, для специалиста в области прикладной науки, который хочет перенести свое исследование из лаборатории в «производственные» условия. Авторы не могут не сознавать, что
психологи-экспериментаторы с большим подозрением относятся к любой попытке санкционировать исследования, которые не предполагают полного контроля экспериментальных параметров. Следующие общие соображения, касающиеся роли эксперимента в науке, отчасти приводятся ради оправдания квазиэксперимента в глазах таких ревнителей чистоты исследования. Мы надеемся, что эти соображения согласуются с большинством современных воззрений в области философии науки и исходят из того, что могло бы стать в будущем общей психологией индуктивных процессов (Campbell [11]).
Наука, как и другие процессы познания, связана с выдвижением теорий, гипотез, моделей и т. д. и с принятием или отклонением их на основе некоторых внешних критериев. Экспериментирование принадлежит к этой второй фазе — к фазе прореживания, отклонения, редактирования. Мы можем предположить существование своего рода экологии науки, в которой число потенциально позитивных гипотез значительно превышает число гипотез, которые, пройдя проверку, окажутся в дальнейшем совместимыми с нашими наблюдениями. Задача сбора данных для испытания теории — это преимущественно задача отбрасывания несостоятельных гипотез. Для решения этой задачи полезен любой способ организации наблюдений, определенные результаты которых опровергают теорию, в том числе квазиэксперименты, обладающие меньшей эффективностью, чем истинные эксперименты.
Но позволительно спросить: не приведут ли такие несовершенные эксперименты к незаконному подтверждению ошибочной теории, не направят ли по ложному пути наши дальнейшие поиски и не поглотят ли напрасно в наших журналах место десятки статей, посвященных опровержению ошибочно принятой, но броско поданной гипотезы? Риск серьезный, но на него мы должны пойти. Это риск того же рода, если не в такой же степени, как и в случае «истинных» экспериментов, проводимых по планам 4, 5 и 6. Дело в том, что результаты эксперимента никогда не «подтверждают», не «доказывают» теорию. Скорее, успешная теория проверяется и избегает опровержения. Слово «доказывает» из-за его частого употребления для обозначения дедук-
тивной валидности приобрело в нашем поколении значение, не соответствующее ни его прежнему употреблению, ни его применению в индуктивных процедурах, таких, как экспериментирование. Результаты эксперимента «опробывают» (probe), а не «доказывают» теорию. Адекватная гипотеза — это гипотеза, которая выдержала неоднократно такие проверки, но она всегда может быть отвергнута новым испытанием.
Теперь уже все понимают, что «нулевая гипотеза», часто используемая как удобный способ формулировать гипотезу эксперимента, никогда не может быть «принята» в свете полученных данных. Она может быть только или «отвергнута», или «не отвергнута». Так же обстоит дело и с гипотезами в более общем плане: они формально никогда не «подтверждаются». Если мы из удобства и пользуемся этим термином, то, скорее, имеем в виду, что гипотеза была подвергнута критической проверке, но не опровергнута. Эта точка зрения согласуется со всеми положениями юмовской философии науки, которые подчеркивают невозможность дедуктивного доказательства индуктивных законов. Недавно Хэнсон, [49] и Поппер [90] особенно ясно высказались по этому вопросу. Многие массивы данных, полученные в педагогических исследованиях, мало или вообще не пригодны для проверки гипотез, а многие системы гипотез столь тесно связаны между собой, что их нельзя опровергнуть доступными нам средствами проверки. Мы не намерены ратовать за такие псевдоисследования. Обсуждаемые ниже планы экспериментов, как мы надеемся, обладают достаточной эффективностью в качестве инструмента проверки гипотез, однако ими следует пользоваться лишь в том случае, когда недоступны более эффективные средства проверки.
Мнение, что эксперимент никогда не «подтверждает» теорию, хотя и правильно, но настолько противоречит нашим установкам и опыту ученых, что является почти нетерпимым. Оно кажется особенно неудовлетворительным, когда знакомишься с изящными, поразительными подтверждениями теории, нередко встречающимися в физике и химии, где результаты эксперимента могут до мельчайших деталей совпадать в многочисленных точках измерения со сложной кривой, предсказанной теорией. И такое представление становится феноменологи-
чески неприемлемым для большинства из нас, если его распространить на индуктивные процессы зрения. Так, трудно свыкнуться с мыслью, что столы и стулья, которые мы «видим» перед собой, не «подтверждены», не «доказаны» визуальными данными, но суть «всего лишь» гипотезы относительно внешних объектов, пока еще не опровергнутые многочисленными проверками в процессе функционирования зрительной системы1. В этом нашем внутреннем противодействии есть зерно истины.
Степень «подтверждения» определяется для той или иной теории числом правдоподобных конкурентных гипотез, которые могут быть привлечены для объяснения результатов. Чем меньше остается таких правдоподобных конкурентных гипотез, тем больше степень «подтверждения». Надо полагать, на каждой стадии накопления данных, даже в случае самой развитой науки, существует множество совместимых с результатами теорий, особенно если допустить все теории, включающие сложные условные данные. Однако у «вполне установленных» теорий и теорий, полностью опробованных сложными экспериментами, остается мало или вовсе не остается серьезных конкурентов. Эпистемологически это соответствует подтверждению теории в результате изящных экспериментов. Столь же малое число конкурентных гипотез имеет место в знании, которое позитивно в феноменальном плане; очевидно, такое знание дает зрение в отличие, например, от относительной неоднозначности слепого тактильного обследования.
В этом плане список источников невалидности, контролируемых в экспериментальных моделях, можно рассматривать как перечень часто возникающих правдоподобных гипотез, конкурирующих с гипотезой об эффекте, вызванном экспериментальной переменной. План эксперимента, ставящий какой-либо побочный фактор «под контроль», просто делает соответствующую конкурентную гипотезу маловероятной, даже если при некотором стечении обстоятельств этот фактор все еще способен вызвать полученный в эксперименте эффект.
_____________________________________________________________________________
1 См. также: К э м п б е л л Д. Т. Слепые вариации и селективный отбор как главная стратегия процессов познания. — В кн.: Самоорганизующиеся системы. М., «Мир», 1964. — Прим. ред.
«Правдоподобные конкурентные гипотезы», которые делают необходимым традиционное использование особых контрольных групп, имеют статус «вполне установленных» эмпирических законов. Это эффект тренировки, требующий введения контрольной группы в план 2, внушаемость (контрольные группы здесь вводятся для приема плацебо), хирургический шок (контрольные группы пациентов, подвергаемых ложным операциям) '. Конкурентные гипотезы остаются правдоподобными, пока мы склонны приписывать им статус эмпирических законов. Если какой-либо параметр не контролируется в квазиэксперименте, необходимо при интерпретации результатов тщательно выяснить вероятность их объяснения за счет неконтролируемых факторов. Чем невероятнее такое объяснение, тем «валиднее» эксперимент.
Как отмечалось при обсуждении плана Соломона для четырех групп (план 5), чем многочисленнее и независимее способы, с помощью которых демонстрируется экспериментальный эффект, тем менее правдоподобна любая отдельно взятая гипотеза, ставящая под сомнение валидность эксперимента, и тем меньше число таких гипотез. Здесь мы обращаемся к принципу экономичности. «Валидность» эксперимента сводится к относительной вероятности конкурирующих теорий — теорий, объясняющих эффект фактором X, и теорий, приписывающих эффект действию неконтролируемых факторов. Если некоторые различия могут быть полностью объяснены единственной гипотезой о том, что эффект вызван именно X, в то время как для каждого наблюдаемого отклонения нужно каждый раз строить новые предположения о действии неконтролируемых факторов, то эффект фактора X становится наиболее убедительным. К такой логике вывода часто прибегают в обзорах литературы по экспериментам, в которых отсутствует полный контроль. Так, Уотсон [131, с. 296] нашел убедительной гипотезу об отрицательном действии длительного отсутствия матери, ибо это подкреплялось целым рядом разнородных данных, тогда как специфические неадекватные детали в этих данных были раз-
_____________________________________________________________________________
1 Этот вопрос подробнее рассматривается в работе «Научный вывод, артефакты и контроль» (см. перевод в данной книге). — Прим. ред.
личными в разных исследованиях. Гликман [40], несмотря на наличие правдоподобных конкурентных гипотез в каждом из рассмотренных им исследований, счел данные в пользу процесса консолидации убедительными именно потому, что правдоподобная конкурентная гипотеза менялась от исследования к исследованию. Этот подход, обычно применяемый при комбинировании выводов нескольких исследований, сознательно введен в некоторые планы квазиэкспериментов, особенно в «лоскутные» («patched-up») планы вроде плана 15.
Принцип экономичности не столько оправдан с дедуктивной точки зрения, сколько является общим предположением о природе мира, лежащим в основе почти всех теоретических построений в науке, даже, несмотря на его частую несостоятельность в конкретных приложениях. С ним связана другая аргументация правдоподобия, к которой мы обратимся главным образом при обсуждении широко распространенного плана 10 (хороший план кеазиэксперимента, который нередко путают с экспериментом по плану 4, принадлежащим к разряду истинных экспериментов). Эта аргументация исходит из того, что главный эффект одной переменной считается более вероятным, чем взаимодействие двух других переменных, или в более общем виде — главный эффект более вероятен, чем эффект взаимодействия. В пределе мы можем отметить, что если каждое взаимодействие высшего порядка значимо, если каждый эффект специфичен для определенных значений по всем другим потенциальным факторам, то наука невозможна. Если мы все-таки можем делать обобщения, то только потому, что множеством потенциально определяющих факторов можно пренебречь. Андервуд [129, с. 6] ссылался на это как на постулат конечной каузальной связи.
Следующие страницы посвящены экспериментам, в которых изучается одна-единственная группа. Начиная с 1920 гг. самыми распространенными планами экспериментов в психологии и педагогике стали планы с применением контрольной группы (см. планы 4, 6 и особенно план 10, о котором пойдет речь ниже). В социальных науках и полевых исследованиях планы экспериментов, включающие контрольные группы, заняли столь господствующее положение, что, похоже, сделались
для многих синонимом эксперимента вообще. В результате возникла опасность того, что ряд научных работников откажется от процедур, сходных с экспериментированием, если нельзя будет сформировать контрольные труппы, и в итоге исследование проиграет в точности больше, чем было бы необходимо. Существует, однако, несколько разновидностей квазиэкспериментальных планов, применяемых при обследовании отдельных групп, и этими планами с успехом можно пользоваться, сохраняя логику экспериментального подхода и возможность интерпретации результатов во многих случаях, когда обращение к контрольной группе невозможно. Так, эксперимент часто проходит в производственных условиях — учитель имеет в своем распоряжении собственный класс, директор средней школы может проводить периодические опросы и т. д. В таких случаях дифференцированное предъявление воздействия различным участникам обследования (что необходимо для эксперимента с использованием контрольных групп) часто невозможно по причинам административного порядка, а если даже возможно, то нежелательно из-за возникновения реакции испытуемых на эксперимент. В таких условиях стоит взвесить целесообразность ограничиться планами эксперимента с использованием одной группы испытуемых.
7. Эксперимент по плану временных серий
Суть эксперимента данного типа состоит в осуществлении серии периодических замеров на некоторой группе или индивиде с введением экспериментального воздействия посреди серии. На эффект воздействия указывает нарушение непрерывности результатов измерения, регистрируемых в этой серии. Этот план может быть представлен схематически следующим образом:
O1O 2O 3О4XO 5O 6O 7O 8.
Этот экспериментальный план типичен для многих классических исследований, проводившихся в XIX в. в физических науках и биологии. Так, если железный брусок, вес которого оставался неизменным в течение не-
скольких месяцев, окунуть в азотную кислоту, а затем вынуть из нее, то вывод, связывающий пребывание бруска в азотной кислоте и уменьшение его веса, будет основываться, в общем, на той же логике. На полке могли бы находиться «контрольные группы» брусков, вес которых оставался бы неизменным, однако вряд ли кто-нибудь счел бы нужным их взвешивать. Вероятно, этот тип эксперимента признается валидным в более успешных науках, тогда как он редко удостаивался упоминания в списках экспериментальных планов, применяемых в социальных науках (см., однако, Maxwell [73]; Underwood [129, с.133]). Различное отношение к этому типу эксперимента имеет свои основания, тщательное рассмотрение которых позволит лучше понять, когда он может осмысленно применяться в социальных науках в отсутствие более полного контроля параметров эксперимента. Данный план типичен для классических процедур, применявшихся Британской комиссией по исследованию производственного утомления при изучении факторов, влияющих на выпуск продукции (например, Farmer, Brooks, Chambers [34]).
На рис. 3 изображены некоторые возможные результаты серии периодических замеров, то есть так называемые временные ряды. Момент включения экспериментального воздействия всюду отмечен вертикальной линией X. Предположим, что исследователь будет склонен делать вывод о наличии эффекта X в случаях А, Б, а также, вероятно, в случаях В, Г и Д и не будет склонен делать его в случаях Е, Ж и 3, даже если скачок в результатах замера от O4 к О3 в них столь же велик и статистически стабилен, как и для А и Б, например. Отложив пока обсуждение статистической обработки, отметим лишь, что проблема внутренней валидности сводится к вопросу о правдоподобных конкурентных гипотезах, которые дают вероятные альтернативные объяснения сдвигу во временном ряду за счет факторов, отличных от X. Факторы, которые в оптимальных условиях контролируются рассматриваемым планом эксперимента, приводятся в табл. 2. Сильные стороны этого типа эксперимента особенно заметны на фоне плана 2, с которым он имеет внешнее сходство, выражающееся в отсутствии контрольной группы и применении тестирования до и после X.
Р и с. 3. Некоторые возможные результаты введения экспериментального воздействия в точке X для серии периодических замеров О1 — O8. За исключением случая Г, увеличение от O4 к O5 одинаково для всех временны́х рядов, хотя право мерность вывода о наличии эффекта весьма
различна: она максимальна для кривых А и Б и совершенно отсутствует в случаях Е, Ж и З.
Просматривая список источников угроз внутренней валидности в табл. 2, мы видим, что слабым местом эксперимента по плану 7 является отсутствие контроля фона. Иначе говоря, возможна конкурентная гипотеза о том, что сдвиг в результатах вызван не X, а другими
событиями, происшедшими примерно в то же самое время. Именно от правомерности устранения гипотезы о роли фона зависит достоверность интерпретации такого эксперимента. Взять, к примеру, эксперимент, предусматривающий повторные измерения для выяснения влияния документального фильма на оценку школьниками вероятности войны. Здесь отсутствие полного контроля над происходящими параллельно событиями будет иметь серьезные последствия, так как очевидно, что, помимо воздействий, контролируемых экспериментатором в классе, дети ежедневно подвергаются многим другим, потенциально имеющим отношение к вопросу войны и мира. Конечно, даже при таком изобилии неэкспериментальных воздействий, которые могут оказывать влияние на результаты опыта, возможна их правдоподобная интерпретация, оправдывающая постановку данного эксперимента. Как отмечалось выше, фактор фона порождает условия, противоположные тем, которые в физической или биологической лаборатории были бы названы экспериментальной изоляцией. Вероятность фоновых воздействий в качестве источника наблюдаемого сдвига, вроде того, что мы находим на рис. 3 (кривые А и Б), в значительной мере зависит от степени экспериментальной изоляции, которую в состоянии обеспечить экспериментатор. Павловские исследования условных рефлексов у собак, по существу являющиеся экспериментами «на одной группе» или «на одном животном», не служили бы в такой мере подтверждению его теорий, если бы опыты велись не в звуконепроницаемой лаборатории, а на оживленном перекрестке. Что конкретно понимать под экспериментальной изоляцией, зависит от изучаемой проблемы и от характера применяемой измерительной процедуры. Обеспечение экспериментальной изоляции при исследовании элементарных частиц в камере Вильсона или счетчиками сцинтилляций требует принятия более серьезных мер предосторожности, чем в воображаемом эксперименте с железным бруском, погружаемым в азотную кислоту. Во многих ситуациях, в которых применим план 7, экспериментатор мог бы с большой степенью уверенности говорить о наличии экспериментальной изоляции в том смысле, что он знал, какие конкурентные события
могли бы обусловить наблюдавшийся эффект, и сумел существенно снизить вероятность их действия.
К фону можно из соображений удобства отнести влияние погоды и времени года. Так, при исследовании производительности труда рабочих может иметь место смешивание экспериментального фактора с сезонными изменениями в освещенности, погоде и т. д. Поэтому соответствующие эксперименты обычно проводятся в различное время года.
Пожалуй, легче всего контролировать действие циклических факторов фона, связанных с институциональными обычаями в жизни группы (недельные циклы труда, выдачи зарплаты, периоды экзаменов, каникулы, школьные праздники), вызывающих периодические изменения зависимой переменной. В известном смысле эти факторы близки фактору естественного развития. При проведении серии наблюдений нужно стремиться к тому, чтобы известные циклы оставались постоянными или серия по длительности охватывала несколько таких циклов.
Продолжим анализ факторов, которые подлежат контролю. Естественное развитие, когда результаты наблюдений отвечают кривым А и Б на рис. 3, не может служить правдоподобным объяснением скачка, имевшего место между O4 и О5, но отсутствовавшего в другие периоды времени. (Однако естественное развитие не всегда бывает гладким, регулярным. Так, внезапное наступление первой менструации у школьниц способно сместить значения физиологических показателей, создавая в случае плана 7 ложный экспериментальный эффект.) Точно так же не является допустимой конкурентной гипотезой для скачка между O4 и O5 и влияние тестирования. Но, располагая, как в эксперименте по плану 2, только этими наблюдениями (в точках О4 и O5), мы не можем считать неправдоподобными эффекты естественного развития и тестирования. В этом большое преимущество данного плана перед планом 2.
Аналогично для плана 7, в отличие от рассмотренных ранее планов, возможные ссылки на инструментальную погрешность будут лишены конкретных оснований, поскольку нет причин ожидать, что ошибка прибора будет иметь место именно в этом замере. Однако вопро-
сительный знак в табл. 2 требует обратить внимание на ситуации, в которых изменение калибровки средства измерения может быть неправильно истолковано как эффект X. Если в измерительной процедуре используются оценки, даваемые лицами, знакомыми с замыслом эксперимента, то может иметь место ложное подтверждение гипотезы из-за того, что испытуемые представляют себе, каковы должны быть ожидаемые результаты. Так, экспериментальное воздействие в виде назначения нового директора школы может повлиять на регистрацию нарушений школьной дисциплины, а не на число самих нарушений. При использовании плана 7 для определения эффекта значительных изменений в административной политике необходимо избегать одновременного перехода к новой процедуре измерения. В большинстве случаев, чтобы сохранить возможность интерпретировать результаты серии замеров, лучше бывает продолжать использование устаревшей процедуры, а не переходить к новой.
Эффект регрессии обычно выражается функцией с отрицательной второй производной по времени (negatively accelerated function) и поэтому не даст правдоподобного объяснения большего эффекта O5, чем в точке O2, O3 и O4. Фактор состава экспериментальной группы как источник главного эффекта отпадает так же, как и для эксперимента типа 2, если все замеры производятся на одних и тех же лицах. Если данные по группе регистрируются в основном в индивидуальном порядке, то, как и в плане 2, отпадает фактор выбывания из групп. Однако если наблюдения относятся к группе в целом, то необходимо параллельно регистрировать изменения в составе группы, следя за тем, чтобы совпадения в изменении личного состава не давали оснований для конкурентной гипотезы.
Перейдем теперь к внешней валидности. Ясно, что экспериментальный эффект может быть характерен только для тех членов популяции, которые подвергаются повторной проверке. Это вряд ли составляет ограничение исследований в области школьного обучения, если эксперимент не включает процедуры тестирования (О), необычные для школьной обстановки. Более того, эксперимент данного типа обычно подходит для тех учреждений, в которых сбор и регистрация данных ве-
дутся постоянно и составляют естественную часть окружения. Годовые проверки уровня знаний в средних школах, отметки о болезни и т. д. обычно не сопряжены с реакцией на эксперимент в том смысле, что они типичны для генеральной совокупности, на которую хотят распространить сделанные выводы. Взаимодействие между составом группы (отбором испытуемых) и X означало бы, что полученный эффект является особенностью данной выборки и что он не типичен для изучаемой генеральной совокупности, относительно которой сформированная естественным путем экспериментальная группа была бы смещенной выборкой. Так, специфика данных может вынудить исследователя ограничиться результатами только тех учеников, которые в течение долгого времени не пропустили ни одного обследования, то есть явно отобранного подмножества. Кроме того, если использовались новые измерительные процедуры О, то повторные случаи этого могли провоцировать уклонение от обследований.
Если такие временные серии интерпретируются как эксперименты, важно, чтобы экспериментатор заранее уточнил, сколько времени должно пройти между введением экспериментальной переменной и проявлением ее эффекта. При наличии этих данных форма кривой Г на рис. 3 будет почти столь же определенно указывать на наличие эффекта, как и кривая А. Массовые обследования, в которых решения основываются на интерпретациях отсроченных эффектов, нуждаются в перекрестной валидизации. При увеличении времени отсрочки растет также вероятность появления эффектов, вызванных фактором фона.
Столь же важно, чтобы исследователь определил X еще до того, как он приступит к анализу временной серии. Попытки установить post hoc, какое X предшествовало наиболее значительному сдвигу, следует исключить на том основании, что допускаемый при этом произвол затрудняет, а то и делает вовсе невозможным проверку значимости эффектов.
Преобладание экспериментов рассматриваемого типа в более успешных науках должно внушать определенное уважение к нему. Однако нам нужно помнить, что благодаря «экспериментальной изоляции» и «постоянству условий» там имеется больше возможностей для
интерпретации результатов. Следует также иметь в виду, что там никогда не делается вывод по данным одного эксперимента. План 7 воспроизводится в самых различных условиях разными исследователями, прежде чем устанавливается закон, хотя они могут никогда не обращаться к контрольным группам. Мы также должны следовать этому правилу. Если лучший контроль невозможен, мы будем пользоваться этим планом эксперимента. Нам нужно так организовать дело, чтобы получать как можно больше временных серий, и постараться более детально, чем раньше, изучить влияние административных изменений и других внешних внезапных и случайных событий в качестве X. Но результаты не будут считаться достоверными, пока они не будут многократно воспроизведены в различных условиях1.
План с эквивалентными
Временными выборками
Эксперимент в его наиболее типичной форме предполагает использование эквивалентной выборки испытуемых, чтобы получить «базовую линию», с которой сравнивается действие экспериментальной переменной. В отличие от этого рекуррентная форма эксперимента с одной группой использует две эквивалентные выборки ситуаций, в одной из которых экспериментальное воздействие имеет место, а в другой — нет. Схема та кого эксперимента имеет следующий вид (хотя предпочтительнее случайное, а не регулярное чередование):
Х1O X0O Х1O X0O.
Этот эксперимент можно рассматривать как разновидность временной серии с повторным введением экспериментального воздействия. Достоинства такого экспери-
_________________________________________________________________________________
1 В последнее время было разработано много приемов, которые могут быть использованы для статистической обработки результатов экспериментов по этому плану. См., например: B o x G. E. P., T i a o G. C. Intervention analysis with applications to economic and environmental problems. — «Journal of Amer. Statistical Association» 1975, v. 70, p. 70—92; B o x G. E. P., T i a o G. C. A change in level of a non-stationary time series. «Biometrica», 1965, v. 52, p. 181—192.
мента наиболее очевидны, когда ожидается, что эффект воздействия будет носить преходящий или обратимый характер. Хотя этот эксперимент может трактоваться как расширенный вариант временной серии, методика статистического анализа более сходна с обработкой результатов эксперимента, использующего две группы, в котором применяется критерий значимости различий между средними двух наборов измерений. Обычно изменения точно совпадают с экспериментальными воздействиями, часто сопутствуя им, как в исследованиях научения, производительности труда, выработки условных связей, физиологических реакций и т. д. Среди ранних примеров применения этого типа эксперимента, пожалуй, самыми типичными были исследования Олпорта [1] и Сорокина [105], в которых изучалась эффективность деятельности учащихся в различных условиях, причем сравнивалось не наличие и отсутствие экспериментального воздействия, а два различных экспериментальных воздействия, то есть Х1и Х2.В большинстве случаев простое чередование условий и использование постоянных промежутков времени нежелательны, особенно если имеется опасность смешивания эффекта X с влиянием дневных, недельных или месячных циклов или когда очевидная периодичность приводит к выработке нежелательной реакции на временной интервал, что в свою очередь может усилить различие между двумя воздействиями. Так, Сорокин позаботился о том, чтобы каждое из экспериментальных воздействий имело место с одинаковой частотой в утреннее и послеобеденное время.
В большинстве экспериментов, проведенных до сих пор по данному плану, каждое экспериментальное воздействие повторялось сравнительно небольшое число раз. Однако тип обобщения теории выборочного исследования, представленный в работе Брунсвика [9], заставляет обратить внимание на необходимость применения больших, репрезентативных и эквивалентных случайных выборок временных интервалов. Керр [63], по-видимому, очень близко подошел к этому идеалу в своих исследованиях влияния музыки на производительность труда в промышленности, В каждой серии, его опытов использовалась единственная экспериментальная группа и применялись рандомизированные выборки
дней в течение каждого месячного периода. Так, в одном эксперименте он сравнил 56 «музыкальных» дней с 51 днем без музыки, а в другом — влияние трех различных видов музыкальных произведений, каждый из которых был использован в эквивалентных выборках по 14 дней.
В том виде, в каком план 8 применялся Керром, он в целом представляется внутренне валидным. Фактор фона, самое слабое место временной серии, контролируется благодаря предъявлению X в большом числе отдельных случаев, что делает крайне малоправдоподобным любое конкурентное объяснение результатов за счет одновременного действия побочных явлений. Другие источники невалидности находятся под контролем в силу тех же соображений, которые были подробно приведены для плана 7. Что касается внешней валидности, то обобщение возможно только по отношению к часто обследовавшимся популяциям. Реакция испытуемых на эксперимент, осведомленность об экспериментировании — особенно уязвимое место данного плана. Если отдельные воздействия X применяются последовательно к различным группам, то испытуемые (особенно в плане 6) могут даже не подозревать, что проводится опыт и сравниваются различные воздействия. Иное дело, если исследуется одна-единственная группа, для которой повторно создаются те или иные условия — например, применяется то один, то другой способ расчета зарплаты, как в опытах Сорокина; или то одни, то другие условия работы, как у Олпорта; или то один, то другой вид вентиляции (Wyatt, Fraser, Stock [138]; или то один, то другой музыкальный жанр (хотя Керр принял меры предосторожности, чтобы разнородная программа стала естественной составной частью рабочего окружения). Что касается взаимодействия состава групп с X, то здесь, как и обычно, существуют ограничения в распространении обнаруженного эффекта на всю популяцию.
В плане 8 кроется риск для внешней валидности. Его можно обнаружить во всех тех экспериментах, упоминаемых в данной работе, в которых на одной и той же группе испытывается действие нескольких уровней X. Этот эффект был обозначен как «межуровневая интерференция X». Эффект X1, который в простей-
шем случае сравнивается с действием Х0,может быть распространен только на условия повторного и разделённого промежутками времени предъявления Х1. Нет оснований распространять его на возможные ситуации непрерывного действия Х1или на случаи, когда Х1 появляется один-единственный раз. Кроме того, условие Хo, то есть отсутствие X, не типично для периодов отсутствия X вообще. Оно репрезентативно только для отсутствия X, перемежающегося с его наличием. Если Х1обладает некоторым последействием, распространяющимся на периоды без X, как это обычно представляется вероятным, применение плана 8 может привести к недооценке эффекта Х1в сравнении, скажем, с планом 6. Кроме того, сам факт частых изменений может увеличить значение X как стимула по сравнению с тем, что было бы при непрерывном, гомогенном воздействии. Гавайская музыка в опытах Керра могла бы совсем по-иному влиять на работу испытуемых, если бы она не перемежалась с другими жанрами, а составляла постоянный «музыкальный рацион». Эксперименты Эббингауза [32], очевидно, в основном принадлежат к этому типу, и, как отмечал Андервуд [128], установленные им законы распространяются только на тех, кто усвоил десятки других весьма сходных списков. Многие из его результатов фактически недействительны для людей, запоминающих единственный список бессмысленных слогов. Таким образом, хотя этот план эксперимента внутренне валиден, его внешняя валидность значительно ограничена некоторыми типами содержания (см. также Kempthorne [58, гл. 29]).
Отметим, однако, что действие многих факторов школьного обучения, представляющих интерес для экспериментального исследования, во всех практически важных отношениях ограничено временем фактического присутствия X. В таких случаях данная схема может оказаться весьма ценной. Предположим, что учитель стремится выяснить значение чтения вслух по сравнению с индивидуальным чтением про себя. Применяя в серии уроков то один, то другой способ, он может провести эксперимент, результаты которого поддаются интерпретации. Этим путем можно исследовать и эффект присутствия кого-либо из родителей в классе во время добровольной дискуссии учеников. Знание такого плана
сделает экспериментальную проверку альтернатив доступной для учителя. Это позволит проводить пробные испытания методик, которые в случае положительного исхода могут быть исследованы посредством более обширных и более скоординированных экспериментов.
Этот подход может быть применен в отношении выборок ситуаций при исследовании одного испытуемого. Примером может служить рекуррентный план эксперимента, реализуемый (обычно без проверки статистической значимости) в физиологических исследованиях, в которых животному повторно предъявляют стимулы, стремясь избежать какой бы то ни было периодичности стимуляции, что соответствует требованию рандомизации, следующему из логики эксперимента. Вместо простой рандомизации могут также быть использованы латинские квадраты (см., например, Cox [26]; Maxwell [73]).
Проверка значимости для плана 8
Для данного конкретного типа эксперимента нам опять необходима соответствующая процедура проверки статистической значимости экспериментального эффекта. Отметим, что предполагается два типа обобщения: по ситуациям и по испытуемым. В случае если используется лишь один испытуемый, проверка значимости эффекта, очевидно, будет ограничена обобщениями в отношении только данного индивида и будет предполагать обобщение ситуаций (реализации X). Для этой цели подходит t-критерий с числом степеней свободы, равным числу ситуаций (реализаций) минус 2. При наличии индивидуальных результатов по ряду испытуемых, которым как членам одной группы предъявлялось одно и то же экспериментальное воздействие, данные позволяют осуществить обобщение в отношении испытуемых. В этой ситуации обычно применяются две стратегии. Ошибочная стратегия состоит в получении для каждого испытуемого по одному численному результату при каждом воздействии и затем в проверке значимости различий между средними, при использо