О теории экспериментирования

Этот параграф написан, прежде всего, для специали­ста в области прикладной науки, который хочет пере­нести свое исследование из лаборатории в «производ­ственные» условия. Авторы не могут не сознавать, что

психологи-экспериментаторы с большим подозрением относятся к любой попытке санкционировать исследо­вания, которые не предполагают полного контроля экспериментальных параметров. Следующие общие со­ображения, касающиеся роли эксперимента в науке, от­части приводятся ради оправдания квазиэксперимента в глазах таких ревнителей чистоты исследования. Мы надеемся, что эти соображения согласуются с большин­ством современных воззрений в области философии науки и исходят из того, что могло бы стать в будущем общей психологией индуктивных процессов (Campbell [11]).

Наука, как и другие процессы познания, связана с выдвижением теорий, гипотез, моделей и т. д. и с при­нятием или отклонением их на основе некоторых внеш­них критериев. Экспериментирование принадлежит к этой второй фазе — к фазе прореживания, отклонения, редактирования. Мы можем предположить существова­ние своего рода экологии науки, в которой число потен­циально позитивных гипотез значительно превышает число гипотез, которые, пройдя проверку, окажутся в дальнейшем совместимыми с нашими наблюдениями. Задача сбора данных для испытания теории — это пре­имущественно задача отбрасывания несостоятельных гипотез. Для решения этой задачи полезен любой спо­соб организации наблюдений, определенные результа­ты которых опровергают теорию, в том числе квази­эксперименты, обладающие меньшей эффективностью, чем истинные эксперименты.

Но позволительно спросить: не приведут ли такие несовершенные эксперименты к незаконному подтверж­дению ошибочной теории, не направят ли по ложному пути наши дальнейшие поиски и не поглотят ли напрас­но в наших журналах место десятки статей, посвя­щенных опровержению ошибочно принятой, но броско поданной гипотезы? Риск серьезный, но на него мы должны пойти. Это риск того же рода, если не в такой же степени, как и в случае «истинных» экспериментов, проводимых по планам 4, 5 и 6. Дело в том, что резуль­таты эксперимента никогда не «подтверждают», не «доказывают» теорию. Скорее, успешная теория прове­ряется и избегает опровержения. Слово «доказывает» из-за его частого употребления для обозначения дедук-

тивной валидности приобрело в нашем поколении зна­чение, не соответствующее ни его прежнему употребле­нию, ни его применению в индуктивных процедурах, таких, как экспериментирование. Результаты экспери­мента «опробывают» (probe), а не «доказывают» теорию. Адекватная гипотеза — это гипотеза, которая выдержа­ла неоднократно такие проверки, но она всегда может быть отвергнута новым испытанием.

Теперь уже все понимают, что «нулевая гипотеза», часто используемая как удобный способ формулировать гипотезу эксперимента, никогда не может быть «приня­та» в свете полученных данных. Она может быть толь­ко или «отвергнута», или «не отвергнута». Так же об­стоит дело и с гипотезами в более общем плане: они формально никогда не «подтверждаются». Если мы из удобства и пользуемся этим термином, то, скорее, имеем в виду, что гипотеза была подвергнута критической про­верке, но не опровергнута. Эта точка зрения согласует­ся со всеми положениями юмовской философии науки, которые подчеркивают невозможность дедуктивного до­казательства индуктивных законов. Недавно Хэнсон, [49] и Поппер [90] особенно ясно высказались по этому вопросу. Многие массивы данных, полученные в педагогических исследованиях, мало или вообще не при­годны для проверки гипотез, а многие системы гипотез столь тесно связаны между собой, что их нельзя опро­вергнуть доступными нам средствами проверки. Мы не намерены ратовать за такие псевдоисследования. Об­суждаемые ниже планы экспериментов, как мы надеем­ся, обладают достаточной эффективностью в качестве инструмента проверки гипотез, однако ими следует пользоваться лишь в том случае, когда недоступны бо­лее эффективные средства проверки.

Мнение, что эксперимент никогда не «подтверждает» теорию, хотя и правильно, но настолько противоречит нашим установкам и опыту ученых, что является почти нетерпимым. Оно кажется особенно неудовлетворитель­ным, когда знакомишься с изящными, поразительными подтверждениями теории, нередко встречающимися в физике и химии, где результаты эксперимента могут до мельчайших деталей совпадать в многочисленных точ­ках измерения со сложной кривой, предсказанной тео­рией. И такое представление становится феноменологи-

чески неприемлемым для большинства из нас, если его распространить на индуктивные процессы зрения. Так, трудно свыкнуться с мыслью, что столы и стулья, кото­рые мы «видим» перед собой, не «подтверждены», не «доказаны» визуальными данными, но суть «всего лишь» гипотезы относительно внешних объектов, пока еще не опровергнутые многочисленными проверками в процессе функционирования зрительной системы1. В этом нашем внутреннем противодействии есть зерно истины.

Степень «подтверждения» определяется для той или иной теории числом правдоподобных конкурентных гипотез, которые могут быть привлечены для объясне­ния результатов. Чем меньше остается таких правдопо­добных конкурентных гипотез, тем больше степень «подтверждения». Надо полагать, на каждой стадии накопления данных, даже в случае самой развитой науки, существует множество совместимых с результа­тами теорий, особенно если допустить все теории, вклю­чающие сложные условные данные. Однако у «вполне установленных» теорий и теорий, полностью опробо­ванных сложными экспериментами, остается мало или вовсе не остается серьезных конкурентов. Эпистемологически это соответствует подтверждению теории в ре­зультате изящных экспериментов. Столь же малое чис­ло конкурентных гипотез имеет место в знании, которое позитивно в феноменальном плане; очевидно, такое знание дает зрение в отличие, например, от относитель­ной неоднозначности слепого тактильного обследования.

В этом плане список источников невалидности, конт­ролируемых в экспериментальных моделях, можно рас­сматривать как перечень часто возникающих правдопо­добных гипотез, конкурирующих с гипотезой об эффек­те, вызванном экспериментальной переменной. План эксперимента, ставящий какой-либо побочный фактор «под контроль», просто делает соответствующую конку­рентную гипотезу маловероятной, даже если при неко­тором стечении обстоятельств этот фактор все еще способен вызвать полученный в эксперименте эффект.

_____________________________________________________________________________

1 См. также: К э м п б е л л Д. Т. Слепые вариации и селектив­ный отбор как главная стратегия процессов познания. — В кн.: Са­моорганизующиеся системы. М., «Мир», 1964. — Прим. ред.

«Правдоподобные конкурентные гипотезы», которые делают необходимым традиционное использование осо­бых контрольных групп, имеют статус «вполне установ­ленных» эмпирических законов. Это эффект трениров­ки, требующий введения контрольной группы в план 2, внушаемость (контрольные группы здесь вводятся для приема плацебо), хирургический шок (контрольные группы пациентов, подвергаемых ложным операциям) '. Конкурентные гипотезы остаются правдоподобными, по­ка мы склонны приписывать им статус эмпирических за­конов. Если какой-либо параметр не контролируется в квазиэксперименте, необходимо при интерпретации ре­зультатов тщательно выяснить вероятность их объясне­ния за счет неконтролируемых факторов. Чем невероят­нее такое объяснение, тем «валиднее» эксперимент.

Как отмечалось при обсуждении плана Соломона для четырех групп (план 5), чем многочисленнее и не­зависимее способы, с помощью которых демонстрирует­ся экспериментальный эффект, тем менее правдоподоб­на любая отдельно взятая гипотеза, ставящая под со­мнение валидность эксперимента, и тем меньше число таких гипотез. Здесь мы обращаемся к принципу эко­номичности. «Валидность» эксперимента сводится к относительной вероятности конкурирующих теорий — теорий, объясняющих эффект фактором X, и теорий, приписывающих эффект действию неконтролируемых факторов. Если некоторые различия могут быть полно­стью объяснены единственной гипотезой о том, что эф­фект вызван именно X, в то время как для каждого на­блюдаемого отклонения нужно каждый раз строить но­вые предположения о действии неконтролируемых фак­торов, то эффект фактора X становится наиболее убе­дительным. К такой логике вывода часто прибегают в обзорах литературы по экспериментам, в которых отсут­ствует полный контроль. Так, Уотсон [131, с. 296] нашел убедительной гипотезу об отрицательном действии дли­тельного отсутствия матери, ибо это подкреплялось целым рядом разнородных данных, тогда как специфи­ческие неадекватные детали в этих данных были раз-

_____________________________________________________________________________

1 Этот вопрос подробнее рассматривается в работе «Научный вывод, артефакты и контроль» (см. перевод в данной книге). — Прим. ред.

личными в разных исследованиях. Гликман [40], не­смотря на наличие правдоподобных конкурентных гипотез в каждом из рассмотренных им исследований, счел данные в пользу процесса консолидации убеди­тельными именно потому, что правдоподобная конку­рентная гипотеза менялась от исследования к исследо­ванию. Этот подход, обычно применяемый при комбини­ровании выводов нескольких исследований, сознательно введен в некоторые планы квазиэкспериментов, особен­но в «лоскутные» («patched-up») планы вроде плана 15.

Принцип экономичности не столько оправдан с де­дуктивной точки зрения, сколько является общим пред­положением о природе мира, лежащим в основе почти всех теоретических построений в науке, даже, несмотря на его частую несостоятельность в конкретных прило­жениях. С ним связана другая аргументация правдо­подобия, к которой мы обратимся главным образом при обсуждении широко распространенного плана 10 (хоро­ший план кеазиэксперимента, который нередко путают с экспериментом по плану 4, принадлежащим к разряду истинных экспериментов). Эта аргументация исходит из того, что главный эффект одной переменной считается более вероятным, чем взаимодействие двух других пе­ременных, или в более общем виде — главный эффект более вероятен, чем эффект взаимодействия. В пределе мы можем отметить, что если каждое взаимодействие высшего порядка значимо, если каждый эффект специ­фичен для определенных значений по всем другим по­тенциальным факторам, то наука невозможна. Если мы все-таки можем делать обобщения, то только потому, что множеством потенциально определяющих факторов можно пренебречь. Андервуд [129, с. 6] ссылался на это как на постулат конечной каузальной связи.

Следующие страницы посвящены экспериментам, в которых изучается одна-единственная группа. Начиная с 1920 гг. самыми распространенными планами экспери­ментов в психологии и педагогике стали планы с при­менением контрольной группы (см. планы 4, 6 и осо­бенно план 10, о котором пойдет речь ниже). В соци­альных науках и полевых исследованиях планы экспе­риментов, включающие контрольные группы, заняли столь господствующее положение, что, похоже, сделались

для многих синонимом эксперимента вообще. В резуль­тате возникла опасность того, что ряд научных работ­ников откажется от процедур, сходных с экспериментированием, если нельзя будет сформировать контрольные труппы, и в итоге исследование проиграет в точности больше, чем было бы необходимо. Существует, однако, несколько разновидностей квазиэкспериментальных планов, применяемых при обследовании отдельных групп, и этими планами с успехом можно пользоваться, сохраняя логику экспериментального подхода и воз­можность интерпретации результатов во многих случа­ях, когда обращение к контрольной группе невозможно. Так, эксперимент часто проходит в производственных условиях — учитель имеет в своем распоряжении соб­ственный класс, директор средней школы может прово­дить периодические опросы и т. д. В таких случаях диф­ференцированное предъявление воздействия различным участникам обследования (что необходимо для экспе­римента с использованием контрольных групп) часто невозможно по причинам административного порядка, а если даже возможно, то нежелательно из-за возник­новения реакции испытуемых на эксперимент. В таких условиях стоит взвесить целесообразность ограничиться планами эксперимента с использованием одной группы испытуемых.

7. Эксперимент по плану временных серий

Суть эксперимента данного типа состоит в осуществ­лении серии периодических замеров на некоторой груп­пе или индивиде с введением экспериментального воз­действия посреди серии. На эффект воздействия указы­вает нарушение непрерывности результатов измерения, регистрируемых в этой серии. Этот план может быть представлен схематически следующим образом:

O1O 2O 3О4XO 5O 6O 7O 8.

Этот экспериментальный план типичен для многих клас­сических исследований, проводившихся в XIX в. в фи­зических науках и биологии. Так, если железный бру­сок, вес которого оставался неизменным в течение не-

скольких месяцев, окунуть в азотную кислоту, а затем вынуть из нее, то вывод, связывающий пребывание бруска в азотной кислоте и уменьшение его веса, будет основываться, в общем, на той же логике. На полке могли бы находиться «контрольные группы» брусков, вес которых оставался бы неизменным, однако вряд ли кто-нибудь счел бы нужным их взвешивать. Вероятно, этот тип эксперимента признается валидным в более успешных науках, тогда как он редко удостаивался упомина­ния в списках экспериментальных планов, применяемых в социальных науках (см., однако, Maxwell [73]; Underwood [129, с.133]). Различное отношение к этому типу эксперимента имеет свои основания, тщательное рас­смотрение которых позволит лучше понять, когда он мо­жет осмысленно применяться в социальных науках в отсутствие более полного контроля параметров экспери­мента. Данный план типичен для классических проце­дур, применявшихся Британской комиссией по исследо­ванию производственного утомления при изучении фак­торов, влияющих на выпуск продукции (например, Farmer, Brooks, Chambers [34]).

На рис. 3 изображены некоторые возможные резуль­таты серии периодических замеров, то есть так называе­мые временные ряды. Момент включения эксперимен­тального воздействия всюду отмечен вертикальной ли­нией X. Предположим, что исследователь будет склонен делать вывод о наличии эффекта X в случаях А, Б, а также, вероятно, в случаях В, Г и Д и не будет склонен делать его в случаях Е, Ж и 3, даже если скачок в ре­зультатах замера от O4 к О3 в них столь же велик и статистически стабилен, как и для А и Б, например. Отложив пока обсуждение статистической обработки, отметим лишь, что проблема внутренней валидности сводится к вопросу о правдоподобных конкурентных гипотезах, которые дают вероятные альтернативные объяснения сдвигу во временном ряду за счет факторов, отличных от X. Факторы, которые в оптимальных усло­виях контролируются рассматриваемым планом экспе­римента, приводятся в табл. 2. Сильные стороны этого типа эксперимента особенно заметны на фоне плана 2, с которым он имеет внешнее сходство, выражающееся в отсутствии контрольной группы и применении тести­рования до и после X.

О теории экспериментирования - student2.ru

Р и с. 3. Некоторые возможные результаты введения экспери­ментального воздействия в точке X для серии периодических замеров О1 — O8. За исключением случая Г, увеличение от O4 к O5 одинаково для всех временны́х рядов, хотя право мерность вывода о наличии эффекта весьма

различна: она максимальна для кривых А и Б и совершенно отсутствует в случаях Е, Ж и З.

Просматривая список источников угроз внутренней валидности в табл. 2, мы видим, что слабым местом эксперимента по плану 7 является отсутствие контроля фона. Иначе говоря, возможна конкурентная гипотеза о том, что сдвиг в результатах вызван не X, а другими

О теории экспериментирования - student2.ru

О теории экспериментирования - student2.ru

событиями, происшедшими примерно в то же самое время. Именно от правомерности устранения гипотезы о роли фона зависит достоверность интерпретации та­кого эксперимента. Взять, к примеру, эксперимент, пре­дусматривающий повторные измерения для выяснения влияния документального фильма на оценку школьни­ками вероятности войны. Здесь отсутствие полного конт­роля над происходящими параллельно событиями будет иметь серьезные последствия, так как очевидно, что, помимо воздействий, контролируемых экспериментато­ром в классе, дети ежедневно подвергаются многим дру­гим, потенциально имеющим отношение к вопросу вой­ны и мира. Конечно, даже при таком изобилии неэкспе­риментальных воздействий, которые могут оказывать влияние на результаты опыта, возможна их правдопо­добная интерпретация, оправдывающая постановку дан­ного эксперимента. Как отмечалось выше, фактор фона порождает условия, противоположные тем, которые в физической или биологической лаборатории были бы названы экспериментальной изоляцией. Вероятность фоновых воздействий в качестве источника наблюдае­мого сдвига, вроде того, что мы находим на рис. 3 (кри­вые А и Б), в значительной мере зависит от степени экспериментальной изоляции, которую в состоянии обеспечить экспериментатор. Павловские исследования ус­ловных рефлексов у собак, по существу являющиеся экспериментами «на одной группе» или «на одном жи­вотном», не служили бы в такой мере подтверждению его теорий, если бы опыты велись не в звуконепро­ницаемой лаборатории, а на оживленном перекрестке. Что конкретно понимать под экспериментальной изоля­цией, зависит от изучаемой проблемы и от характера применяемой измерительной процедуры. Обеспечение экспериментальной изоляции при исследовании элемен­тарных частиц в камере Вильсона или счетчиками сцин­тилляций требует принятия более серьезных мер пред­осторожности, чем в воображаемом эксперименте с железным бруском, погружаемым в азотную кислоту. Во многих ситуациях, в которых применим план 7, экспериментатор мог бы с большой степенью уверенно­сти говорить о наличии экспериментальной изоляции в том смысле, что он знал, какие конкурентные события

могли бы обусловить наблюдавшийся эффект, и сумел существенно снизить вероятность их действия.

К фону можно из соображений удобства отнести влияние погоды и времени года. Так, при исследовании производительности труда рабочих может иметь место смешивание экспериментального фактора с сезонными изменениями в освещенности, погоде и т. д. Поэтому соответствующие эксперименты обычно проводятся в различное время года.

Пожалуй, легче всего контролировать действие цик­лических факторов фона, связанных с институциональ­ными обычаями в жизни группы (недельные циклы тру­да, выдачи зарплаты, периоды экзаменов, каникулы, школьные праздники), вызывающих периодические из­менения зависимой переменной. В известном смысле эти факторы близки фактору естественного развития. При проведении серии наблюдений нужно стремиться к тому, чтобы известные циклы оставались постоянны­ми или серия по длительности охватывала несколько таких циклов.

Продолжим анализ факторов, которые подлежат контролю. Естественное развитие, когда результаты наблюдений отвечают кривым А и Б на рис. 3, не может служить правдоподобным объяснением скачка, имевше­го место между O4 и О5, но отсутствовавшего в другие периоды времени. (Однако естественное развитие не всегда бывает гладким, регулярным. Так, внезапное наступление первой менструации у школьниц способно сместить значения физиологических показателей, созда­вая в случае плана 7 ложный экспериментальный эф­фект.) Точно так же не является допустимой конку­рентной гипотезой для скачка между O4 и O5 и влия­ние тестирования. Но, располагая, как в эксперименте по плану 2, только этими наблюдениями (в точках О4 и O5), мы не можем считать неправдоподобными эффекты естественного развития и тестирования. В этом большое преимущество данного плана перед пла­ном 2.

Аналогично для плана 7, в отличие от рассмотрен­ных ранее планов, возможные ссылки на инструменталь­ную погрешность будут лишены конкретных оснований, поскольку нет причин ожидать, что ошибка прибора будет иметь место именно в этом замере. Однако вопро-

сительный знак в табл. 2 требует обратить внимание на ситуации, в которых изменение калибровки средства измерения может быть неправильно истолковано как эффект X. Если в измерительной процедуре используются оценки, даваемые лицами, знакомыми с замыслом эксперимента, то может иметь место ложное подтверждение гипотезы из-за того, что испытуемые представляют себе, каковы должны быть ожидаемые результаты. Так, экспериментальное воздействие в виде назначения но­вого директора школы может повлиять на регистрацию нарушений школьной дисциплины, а не на число самих нарушений. При использовании плана 7 для определе­ния эффекта значительных изменений в административ­ной политике необходимо избегать одновременного пе­рехода к новой процедуре измерения. В большинстве случаев, чтобы сохранить возможность интерпретиро­вать результаты серии замеров, лучше бывает продол­жать использование устаревшей процедуры, а не пере­ходить к новой.

Эффект регрессии обычно выражается функцией с отрицательной второй производной по времени (negatively accelerated function) и поэтому не даст правдопо­добного объяснения большего эффекта O5, чем в точке O2, O3 и O4. Фактор состава экспериментальной груп­пы как источник главного эффекта отпадает так же, как и для эксперимента типа 2, если все замеры произво­дятся на одних и тех же лицах. Если данные по группе регистрируются в основном в индивидуальном поряд­ке, то, как и в плане 2, отпадает фактор выбывания из групп. Однако если наблюдения относятся к группе в целом, то необходимо параллельно регистрировать из­менения в составе группы, следя за тем, чтобы совпа­дения в изменении личного состава не давали основа­ний для конкурентной гипотезы.

Перейдем теперь к внешней валидности. Ясно, что экспериментальный эффект может быть характерен только для тех членов популяции, которые подвергают­ся повторной проверке. Это вряд ли составляет ограни­чение исследований в области школьного обучения, если эксперимент не включает процедуры тестирования (О), необычные для школьной обстановки. Более того, эксперимент данного типа обычно подходит для тех учреждений, в которых сбор и регистрация данных ве-

дутся постоянно и составляют естественную часть окру­жения. Годовые проверки уровня знаний в средних шко­лах, отметки о болезни и т. д. обычно не сопряжены с реакцией на эксперимент в том смысле, что они типич­ны для генеральной совокупности, на которую хотят распространить сделанные выводы. Взаимодействие между составом группы (отбором испытуемых) и X означало бы, что полученный эффект является особен­ностью данной выборки и что он не типичен для изучаемой генеральной совокупности, относительно ко­торой сформированная естественным путем эксперимен­тальная группа была бы смещенной выборкой. Так, спе­цифика данных может вынудить исследователя ограни­читься результатами только тех учеников, которые в течение долгого времени не пропустили ни одного обсле­дования, то есть явно отобранного подмножества. Кро­ме того, если использовались новые измерительные про­цедуры О, то повторные случаи этого могли провоциро­вать уклонение от обследований.

Если такие временные серии интерпретируются как эксперименты, важно, чтобы экспериментатор заранее уточнил, сколько времени должно пройти между введе­нием экспериментальной переменной и проявлением ее эффекта. При наличии этих данных форма кривой Г на рис. 3 будет почти столь же определенно указывать на наличие эффекта, как и кривая А. Массовые обследо­вания, в которых решения основываются на интерпрета­циях отсроченных эффектов, нуждаются в перекрестной валидизации. При увеличении времени отсрочки растет также вероятность появления эффектов, вызванных фактором фона.

Столь же важно, чтобы исследователь определил X еще до того, как он приступит к анализу временной серии. Попытки установить post hoc, какое X предше­ствовало наиболее значительному сдвигу, следует иск­лючить на том основании, что допускаемый при этом произвол затрудняет, а то и делает вовсе невозможным проверку значимости эффектов.

Преобладание экспериментов рассматриваемого типа в более успешных науках должно внушать определен­ное уважение к нему. Однако нам нужно помнить, что благодаря «экспериментальной изоляции» и «постоян­ству условий» там имеется больше возможностей для

интерпретации результатов. Следует также иметь в виду, что там никогда не делается вывод по данным одного эксперимента. План 7 воспроизводится в самых различных условиях разными исследователями, прежде чем устанавливается закон, хотя они могут никогда не обращаться к контрольным группам. Мы также долж­ны следовать этому правилу. Если лучший контроль невозможен, мы будем пользоваться этим планом экс­перимента. Нам нужно так организовать дело, чтобы получать как можно больше временных серий, и поста­раться более детально, чем раньше, изучить влияние административных изменений и других внешних внезап­ных и случайных событий в качестве X. Но результаты не будут считаться достоверными, пока они не будут многократно воспроизведены в различных условиях1.

План с эквивалентными

Временными выборками

Эксперимент в его наиболее типичной форме пред­полагает использование эквивалентной выборки испы­туемых, чтобы получить «базовую линию», с которой сравнивается действие экспериментальной переменной. В отличие от этого рекуррентная форма эксперимента с одной группой использует две эквивалентные выборки ситуаций, в одной из которых экспериментальное воздействие имеет место, а в другой — нет. Схема та кого эксперимента имеет следующий вид (хотя предпоч­тительнее случайное, а не регулярное чередование):

Х1O X0O Х1O X0O.

Этот эксперимент можно рассматривать как разновид­ность временной серии с повторным введением экспери­ментального воздействия. Достоинства такого экспери-

_________________________________________________________________________________

1 В последнее время было разработано много приемов, которые могут быть использованы для статистической обработки результатов экспериментов по этому плану. См., например: B o x G. E. P., T i a o G. C. Intervention analysis with applications to economic and environmental problems. — «Journal of Amer. Statistical Association» 1975, v. 70, p. 70—92; B o x G. E. P., T i a o G. C. A change in level of a non-stationary time series. «Biometrica», 1965, v. 52, p. 181—192.

мента наиболее очевидны, когда ожидается, что эффект воздействия будет носить преходящий или обратимый характер. Хотя этот эксперимент может трактоваться как расширенный вариант временной серии, методика статистического анализа более сходна с обработкой ре­зультатов эксперимента, использующего две группы, в котором применяется критерий значимости различий между средними двух наборов измерений. Обычно из­менения точно совпадают с экспериментальными воз­действиями, часто сопутствуя им, как в исследованиях научения, производительности труда, выработки услов­ных связей, физиологических реакций и т. д. Среди ран­них примеров применения этого типа эксперимента, пожалуй, самыми типичными были исследования Олпорта [1] и Сорокина [105], в которых изучалась эффек­тивность деятельности учащихся в различных условиях, причем сравнивалось не наличие и отсутствие экспери­ментального воздействия, а два различных эксперимен­тальных воздействия, то есть Х1и Х2.В большинстве случаев простое чередование условий и использование постоянных промежутков времени нежелательны, осо­бенно если имеется опасность смешивания эффекта X с влиянием дневных, недельных или месячных циклов или когда очевидная периодичность приводит к выра­ботке нежелательной реакции на временной интервал, что в свою очередь может усилить различие между двумя воздействиями. Так, Сорокин позаботился о том, чтобы каждое из экспериментальных воздействий имело место с одинаковой частотой в утреннее и послеобеден­ное время.

В большинстве экспериментов, проведенных до сих пор по данному плану, каждое экспериментальное воз­действие повторялось сравнительно небольшое число раз. Однако тип обобщения теории выборочного иссле­дования, представленный в работе Брунсвика [9], за­ставляет обратить внимание на необходимость примене­ния больших, репрезентативных и эквивалентных случайных выборок временных интервалов. Керр [63], по-видимому, очень близко подошел к этому идеалу в своих исследованиях влияния музыки на производитель­ность труда в промышленности, В каждой серии, его опытов использовалась единственная эксперименталь­ная группа и применялись рандомизированные выборки

дней в течение каждого месячного периода. Так, в од­ном эксперименте он сравнил 56 «музыкальных» дней с 51 днем без музыки, а в другом — влияние трех раз­личных видов музыкальных произведений, каждый из которых был использован в эквивалентных выборках по 14 дней.

В том виде, в каком план 8 применялся Керром, он в целом представляется внутренне валидным. Фактор фона, самое слабое место временной серии, контроли­руется благодаря предъявлению X в большом числе отдельных случаев, что делает крайне малоправдопо­добным любое конкурентное объяснение результатов за счет одновременного действия побочных явлений. Другие источники невалидности находятся под контро­лем в силу тех же соображений, которые были подроб­но приведены для плана 7. Что касается внешней валидности, то обобщение возможно только по отношению к часто обследовавшимся популяциям. Реакция испы­туемых на эксперимент, осведомленность об экспери­ментировании — особенно уязвимое место данного плана. Если отдельные воздействия X применяются пос­ледовательно к различным группам, то испытуемые (особенно в плане 6) могут даже не подозревать, что проводится опыт и сравниваются различные воздей­ствия. Иное дело, если исследуется одна-единственная группа, для которой повторно создаются те или иные ус­ловия — например, применяется то один, то другой спо­соб расчета зарплаты, как в опытах Сорокина; или то одни, то другие условия работы, как у Олпорта; или то один, то другой вид вентиляции (Wyatt, Fraser, Stock [138]; или то один, то другой музыкальный жанр (хотя Керр принял меры предосторожности, чтобы раз­нородная программа стала естественной составной ча­стью рабочего окружения). Что касается взаимодей­ствия состава групп с X, то здесь, как и обычно, суще­ствуют ограничения в распространении обнаруженного эффекта на всю популяцию.

В плане 8 кроется риск для внешней валидности. Его можно обнаружить во всех тех экспериментах, упоминаемых в данной работе, в которых на одной и той же группе испытывается действие нескольких уров­ней X. Этот эффект был обозначен как «межуровневая интерференция X». Эффект X1, который в простей-

шем случае сравнивается с действием Х0,может быть распространен только на условия повторного и разде­лённого промежутками времени предъявления Х1. Нет оснований распространять его на возможные ситуации непрерывного действия Х1или на случаи, когда Х1 появляется один-единственный раз. Кроме того, условие Хo, то есть отсутствие X, не типично для периодов от­сутствия X вообще. Оно репрезентативно только для отсутствия X, перемежающегося с его наличием. Если Х1обладает некоторым последействием, распространяю­щимся на периоды без X, как это обычно представляет­ся вероятным, применение плана 8 может привести к недооценке эффекта Х1в сравнении, скажем, с планом 6. Кроме того, сам факт частых изменений может уве­личить значение X как стимула по сравнению с тем, что было бы при непрерывном, гомогенном воздействии. Гавайская музыка в опытах Керра могла бы совсем по-иному влиять на работу испытуемых, если бы она не перемежалась с другими жанрами, а составляла посто­янный «музыкальный рацион». Эксперименты Эббингауза [32], очевидно, в основном принадлежат к этому типу, и, как отмечал Андервуд [128], установленные им законы распространяются только на тех, кто усвоил десятки других весьма сходных списков. Многие из его результатов фактически недействительны для людей, запоминающих единственный список бессмысленных слогов. Таким образом, хотя этот план эксперимента внутренне валиден, его внешняя валидность значитель­но ограничена некоторыми типами содержания (см. также Kempthorne [58, гл. 29]).

Отметим, однако, что действие многих факторов школьного обучения, представляющих интерес для экспериментального исследования, во всех практически важных отношениях ограничено временем фактическо­го присутствия X. В таких случаях данная схема может оказаться весьма ценной. Предположим, что учитель стремится выяснить значение чтения вслух по сравне­нию с индивидуальным чтением про себя. Применяя в серии уроков то один, то другой способ, он может про­вести эксперимент, результаты которого поддаются ин­терпретации. Этим путем можно исследовать и эффект присутствия кого-либо из родителей в классе во время добровольной дискуссии учеников. Знание такого плана

сделает экспериментальную проверку альтернатив до­ступной для учителя. Это позволит проводить пробные испытания методик, которые в случае положительного исхода могут быть исследованы посредством более об­ширных и более скоординированных экспериментов.

Этот подход может быть применен в отношении вы­борок ситуаций при исследовании одного испытуемого. Примером может служить рекуррентный план экспери­мента, реализуемый (обычно без проверки статистиче­ской значимости) в физиологических исследованиях, в которых животному повторно предъявляют стимулы, стремясь избежать какой бы то ни было периодичности стимуляции, что соответствует требованию рандомиза­ции, следующему из логики эксперимента. Вместо про­стой рандомизации могут также быть использованы ла­тинские квадраты (см., например, Cox [26]; Maxwell [73]).

Проверка значимости для плана 8

Для данного конкретного типа эксперимента нам опять необходима соответствующая процедура провер­ки статистической значимости экспериментального эф­фекта. Отметим, что предполагается два типа обобще­ния: по ситуациям и по испытуемым. В случае если используется лишь один испытуемый, проверка значимости эффекта, очевидно, будет ограничена обоб­щениями в отношении только данного индивида и будет предполагать обобщение ситуаций (реализации X). Для этой цели подходит t-критерий с числом степеней сво­боды, равным числу ситуаций (реализаций) минус 2. При наличии индивидуальных результатов по ряду ис­пытуемых, которым как членам одной группы предъяв­лялось одно и то же экспериментальное воздействие, данные позволяют осуществить обобщение в отношении испытуемых. В этой ситуации обычно применяются две стратегии. Ошибочная стратегия состоит в получении для каждого испытуемого по одному численному ре­зультату при каждом воздействии и затем в проверке значимости различий между средними, при использо

Наши рекомендации