Средства контроля «внутренней валидности»
По тем или иным из приведенных выше соображений между 1900 и 1920 гг. исследователи в области психологии и педагогики начали добавлять к плану 2 контрольную группу, создав тем самым современный ортодоксальный план с контрольной группой. В работах Мак-Кола [74], Соломона [104] и Боринга [5] излагается история этого плана, а просмотр «Teacher College Record» за этот период показывает, что уже к 1912 г. контрольные группы использовались как нечто само собой разумеющееся (см., например, Pearson [88]). Эти планы вводятся в данной работе под двумя рубриками: в плане 4 уравнивание групп достигается
путем рандомизации, в квазиэкспериментальном плане 10 используются реально существующие группы без уверенности в том, что они эквивалентны. План 4 имеет следующий вид:
R О1 Х R О2
R О3 О4.
Поскольку применение этого плана дает возможность осуществить почти полный контроль за всеми семью рассмотренными до сих пор конкурентными гипотезами, необходимость контроля при его использовании обычно не эксплицируется. В традиционных исследованиях научения к признанию необходимости контрольных групп привело выявление эффектов тестирования. В педагогических исследованиях главной проблемой было естественное развитие, как в детской психологии — проблема «врожденное — приобретенное». В исследованиях изменения установок, например в ранних исследованиях влияния кино, наиболее важным является необходимость контролировать фон. Во всяком случае, полезно, видимо, кратко обсудить здесь, как или при каких условиях осуществляется контроль за этими факторами.
Фон («история») контролируется в той мере, в какой общие «исторические» события, которые могут привести к различию О1— О2, способны привести также к различию О3 — О4. Однако отметим, что во многих возможных применениях плана 4 (а также 5 или 6) не контролируются специфические события, имевшие место в группе в ходе обследования («внутригрупповая история»). Если все испытуемые экспериментальной группы, сформированной на основе рандомизации, подвергаются однократному экспериментальному воздействию и контрольная группа также исследуется однократно, то посторонние частные события, происходящие в каждой из этих групп (шутка, вызвавшая оживление, пожар на улице, предварительные замечания экспериментатора и
т. д.), могут стать конкурентными объяснениями отличия О1— О2 от О3 — О4. Эксперименты такого рода не являются истинными экспериментами, хотя они иногда и приводятся в качестве примера, как в случае с экспериментом Соломона [104] по обучению произношению. (Справедливости ради необходи-
мо сказать, что этот пример выбран с целью иллюстрации других моментов.) Если рассматривать проблему, имея в виду наши «лучшие образцы» экспериментального исследования, то может показаться, что эксперименты по такому плану — простительный грех, но наши «лучшие образцы» слишком часто невоспроизводимы, а поэтому вполне возможно, что именно внутригрупповые события и есть тот самый источник «значимых», но посторонних различий, который является дефектом нашей исследовательской практики. Кроме того, в типичном эксперименте из публикуемых в «Journal of Experimental Psychology» работ контроль внутригрупповых событий обеспечивается тем, что тестирование испытуемых проводится в индивидуальном порядке и путем случайного распределения опытов и испытуемых по экспериментальным или контрольным режимам. Тем не менее, надо отметить, что даже при индивидуальной работе фон может оказаться неконтролируемым, если вся экспериментальная группа проходит тестирование до контрольной и т. д. План 4 рассчитан на одновременное проведение исследования в экспериментальной и контрольной группах. Если же действительно проводить опыты одновременно, то необходимо использовать различных экспериментаторов, при этом различия между экспериментаторами в свою очередь становятся одним из видов внутригрупповой истории, смешиваемой с X.
Оптимальным решением является рандомизация отдельных сеансов эксперимента с учетом тех ограничений, которые связаны с необходимостью уравнивания таких важных источников смещений, как экспериментатор, время дня, день недели, начало или конец семестра, близость экзаменов и т. п. Общепринятый способ объединения испытуемых в группы вместо индивидуальной работы с каждым неприемлем, если это группирование игнорируется при статистическом анализе. (См. ниже раздел об экспериментировании с реальными группами.) Все испытуемые, участвующие в одном сеансе, подвергаются воздействию одних и тех же посторонних событий, что может оказаться отличной от X причиной сходства их реакций. Если такие сеансы будут проводиться в случайном порядке, то корректными с точки зрения статистики будут такие процедуры предъявления воздействия, которые рассматриваются
ниже при обсуждении того, как проводить экспериментальные исследования с целыми классами. (Для некоторых исследований, связанных с групповым тестированием, можно распределить экспериментальные воздействия и предъявлять их отдельным лицам внутри одной группы в случайном порядке, подобно тому, как это делается при использовании множественных форм теста, когда изучается влияние порядка трудности отдельных заданий по тесту. В таких случаях особенности «внутригрупповой истории» будут общими для обоих видов процедур и при объяснении полученных различий они не смогут стать правдоподобной конкурентной гипотезой, смешиваемой с X.)
Естественное развитие и эффект тестирования контролируются постольку, поскольку они одинаковым образом проявляются в экспериментальной и контрольной группах. В тех случаях, когда созданы условия для контроля «внутригрупповой истории», легко контролировать и инструментальную погрешность, особенно если для О используются ответы испытуемых, полученные с помощью фиксированной методики, такой, как напечатанный тест. Однако при использовании наблюдателей или интервьюеров проблема становится более сложной. В случае, когда число наблюдателей не позволяет осуществлять их рандомизированное распределение по отдельным сеансам, необходимо использовать каждого наблюдателя и в экспериментальных, и в контрольных сеансах; кроме того, для предупреждения искажения результатов наблюдений необходимо, чтобы наблюдатели не знали, каким видам воздействий подвергается каждый из испытуемых. То, что такие тенденции к смещению результатов являются частыми источниками различий, подтверждается необходимостью введения «двойного слепого эксперимента»1в медицинских исследованиях, как было показано в недавно проведенных работах (Rosenthal [94]) и в более ранних исследованиях (например, Kennedy, Uphoff [62], Stanton, Baker [117]). Регистрация группового взаимодействия облегчит контроль инструментального фактора в исследованиях поведения и взаимодействия в группах учащихся, поскольку отдельные фрагменты записи, по-
_____________________________________________________________________________
1 Эксперимент, при котором ни испытуемый, ни экспериментатор не знают, имеет место воздействие или нет. — Прим. ред.
лученные при предварительном и итоговом тестировании в экспериментальной и контрольной группах, могут предъявляться «судьям» в случайном порядке.
Эффект регрессии контролируется, когда речь идет о различиях между средними, независимо от того, насколько экстремальными были показатели группы при предварительном тестировании, если экспериментальная и контрольная группы были составлены из некоторой экстремальной совокупности на основе рандомизации. В этом случае контрольная группа имеет такую же регрессию, что и экспериментальная. Однако даже при использовании плана 4 часто возникают ошибки интерпретации из-за регрессионных артефактов. Экспериментатор может использовать контрольную группу для подтверждения группового среднего эффекта X, а затем при определении того, какие предварительные показатели подгрупп испытуемых из экспериментальной группы особенно подверглись влиянию X, оставить результаты контрольной группы без внимания. Если у экспериментальной группы в целом обнаружится улучшение результатов, то экспериментатор столкнется с поразительным явлением, состоящим в том, что у тех, кто вначале имел самые низкие показатели, это улучшение было наибольшим, в то время как у тех, кто вначале имел наивысшие показатели, не наблюдается никакого прогресса. В этих условиях такие результаты достигаются за счет того, что регрессионный артефакт способствует увеличению показателей у тех, кто имел наихудшие предварительные показатели, и нейтрализует их у тех, кто имел наилучшие предварительные показатели. (Если же в целом не наблюдается улучшения результатов, то экспериментатор может ошибочно «обнаружить», что это произошло вследствие двух взаимно компенсирующих процессов: прироста у «низких» и потери у «высоких».)
Одно из средств предупреждения такой ошибки интерпретации — проведение параллельного анализа экстремальных показателей предварительного тестирования в контрольной группе и использование этих данных при интерпретации увеличения показателей путем сравнения результатов итогового тестирования соответствующих— выделенных по данным предварительного тестирования — экспериментальных и контрольных под-
групп. (Отметим, что асимметрия распределений, получаемых при отборе подгрупп, ставит под сомнение пригодность процедур, основанных на нормальной кривой.)
Действие фактора отбора, или состава групп, в качестве объяснения различий исключается в той степени, в какой рандомизация обеспечивает эквивалентность групп в момент R. Эта степень определяется принятой нами выборочной статистикой. Поэтому уверенность в равенстве выше для большого числа случайных распределений, чем для малого. В пределах, определяемых величиной ошибки, для гипотезы об отсутствии различий это утверждение иногда оказывается неверным. В случае плана 4 это означает, что иногда могут обнаруживаться явно «значимые» различия между результатами предварительного тестирования. Поэтому, хотя простая, или стратифицированная, рандомизация и обеспечивает несмещенное распределение испытуемых по группам, она не дает абсолютной уверенности в исходной эквивалентности таких групп. Тем не менее, рандомизация — единственный существенный способ решения. Это утверждение столь категорично потому, что в течение последних 30 лет в педагогических исследованиях, наблюдается весьма распространенное ошибочное предпочтение способа попарного уравнивания групп. Мак-Кол [74] и другие способствовали этому недоразумению. Как будет более детально показано ниже, при обсуждении плана 10 и анализа ex post facto, попарное уравнивание фактически не способствует преодолению исходных групповых различий. Это не исключает применения попарного подбора в качестве дополнения к рандомизации, когда для достижения статистической точности подбирают учащихся по парам, а затем в случайном порядке одного члена каждой пары включают в экспериментальную группу, а другого — в контрольную. В статистической литературе этотприем известен как «образование блоков» (см. более подробное обсуждение этого вопроса в: Cox [27], Feldt [35], Lindquist[68]). Но применение попарного уравнивания вместо рандомизации недопустимо даже в квазиэкспериментальных планах, использующих лишь две реально существующие группы: одну — экспериментальную, другую — контрольную. Даже в этих «слабых
экспериментах» существуют лучшие, чем попарное уравнивание, способы уменьшить исходные средние значения различия в этих двух выборках.
Данные, которые можно получить с помощью плана 4, позволяют установить, может ли выбывание объяснить прирост О1— О2. Потери, выбывания и случаи, когда доступны лишь частичные данные, представляют немалые трудности, и обычно о них не упоминают. Как правило, эксперименты с методами обучения длятся в течение нескольких дней, недель или месяцев. Если предварительное и итоговое тестирования проводятся в классах, из которых составляются экспериментальная и контрольная группы, и условия эксперимента требуют присутствия испытуемых на занятиях, в то время как испытуемые контрольной группы эти занятия не посещают, то различная посещаемость на трех этапах — предварительное тестирование, экспериментальное воздействие, итоговое тестирование — ведет к выбыванию. Этот фактор может вызвать неуловимые смещения выборки. Если исключить из экспериментальной группы тех, кто первоначально был намечен для участия в ней, но не смог посещать экспериментальные занятия, это вызовет такое селективное сокращение группы, которое сделает ее несопоставимой с контрольной группой (в частности, экспериментальная группа оказывается «более добросовестной»). По-видимому, более предпочтительным было бы — хотя это редко наблюдается — использование результатов всех испытуемых контрольной и экспериментальной групп, которые подвергались предварительному и итоговому тестированию, включая в экспериментальной группе и тех, кто не подвергался воздействию X.Очевидно, при таком способе анализа эффект X выглядит ослабленным, но зато это позволяет избежать смещения выборки.
Такая процедура основывается на допущении, что нет более простых смещений вследствие выбывания; такое допущение может быть частично проверено путем анализа числа и предварительных показателей тех лиц, кто проходил предварительное тестирование, но отсутствовал при итоговом тестировании. Возможно, что некоторые X влияют скорее на степень выбывания, а не на изменение индивидуальных показателей. Конечно, даже если степень выбывания одна и та же, остается
возможность сложных взаимодействий, которые делают различным характер выбывания из экспериментальной и контрольной групп.
Проблема выбывания выступает в гораздо более острой форме в тех исследованиях компенсаторного обучения, в которых используется принцип добровольного участия. Рассмотрим пример, в котором одна выборка плохо читающих школьников приглашается для участия в добровольном порядке в исследовании по методу компенсаторного обучения, в то время как эквивалентная группа таких приглашений не получает. Возможно, что 30% из числа приглашенных примут участие в эксперименте. Показатели предварительного и итогового тестирования получают с помощью стандартных тестов успешности чтения; тестированию подвергаются все классы. Неправильно было бы сравнивать 30% добровольцев со всей контрольной группой, так как эти добровольцы представляют собой тех, кто больше всего обеспокоен своими результатами предварительного тестирования, кто, вероятно, наиболее энергично работает над собой и т. д. Но в этом случае невозможно выделить соответствующих им лиц в контрольной группе. Сравнение результатов всех приглашенных с результатами неприглашенных — хотя это и кажется несправедливым с точки зрения гипотезы о терапевтической эффективности — на самом деле является приемлемым, хотя и осторожным решением проблемы. Отметим, однако, что, возможно, само по себе приглашение, а не терапия вызывает данный эффект. В общем, неприглашенная контрольная группа должна быть столь же осведомлена о результатах предварительного тестирования, как и приглашенная. Другое решение состоит в том, чтобы приглашать всех, кто нуждается в компенсаторном обучении, и составлять из желающих две группы — настоящую экспериментальную и группу-плацебо1; но на данном уровне развития любая плацебо-терапия, которая выглядит достаточно правдоподобной, чтобы ее приняли за реальную помощь, вероятно, будет столь же хорошей терапией, что
_____________________________________________________________________________
1 Группа-плацебо (placebo — лат.) — группа, которая якобы подвергалась воздействию, но воздействие в действительности не осуществляется. (См. подробнее статью «Научный вывод, артефакты и контроль» в данной книге). — Прим. ред.
и исследуемый метод. Отметим, однако, обоснованность заключения о том, что гораздо легче провести экспериментальные проверки сравнительной эффективности двух терапевтических процедур, чем оценить абсолютную эффективность каждой из них. Единственным практическим решением является создание экспериментальной и контрольной групп из желающих пройти курс компенсаторного обучения путем манипулирования временем ожидания (см., к примеру, Rogers, Dymond [93]). Иногда это создает другие трудности, например чрезмерное выбывание из контрольной группы, для которой терапия отложена. Об успешном и, по-видимому, не вызывающем особых реакций испытуемых использовании жеребьевки для решения о немедленном или отсроченном проведении курса смотри в работе Рида [92].