Средства контроля «внутренней валидности»

По тем или иным из приведенных выше соображе­ний между 1900 и 1920 гг. исследователи в области психологии и педагогики начали добавлять к плану 2 контрольную группу, создав тем самым современный ортодоксальный план с контрольной группой. В рабо­тах Мак-Кола [74], Соломона [104] и Боринга [5] излагается история этого плана, а просмотр «Teacher College Record» за этот период показывает, что уже к 1912 г. контрольные группы использовались как нечто само собой разумеющееся (см., например, Pearson [88]). Эти планы вводятся в данной работе под двумя рубриками: в плане 4 уравнивание групп достигается

путем рандомизации, в квазиэкспериментальном плане 10 используются реально существующие группы без уверенности в том, что они эквивалентны. План 4 име­ет следующий вид:

R О1 Х R О2

R О3 О4.

Поскольку применение этого плана дает возможность осуществить почти полный контроль за всеми семью рассмотренными до сих пор конкурентными гипотеза­ми, необходимость контроля при его использовании обычно не эксплицируется. В традиционных исследова­ниях научения к признанию необходимости контроль­ных групп привело выявление эффектов тестирования. В педагогических исследованиях главной проблемой было естественное развитие, как в детской психоло­гии — проблема «врожденное — приобретенное». В ис­следованиях изменения установок, например в ранних исследованиях влияния кино, наиболее важным являет­ся необходимость контролировать фон. Во всяком слу­чае, полезно, видимо, кратко обсудить здесь, как или при каких условиях осуществляется контроль за этими факторами.

Фон («история») контролируется в той мере, в какой общие «исторические» события, которые могут привести к различию О1— О2, способны привести также к раз­личию О3 — О4. Однако отметим, что во многих воз­можных применениях плана 4 (а также 5 или 6) не контролируются специфические события, имевшие место в группе в ходе обследования («внутригрупповая история»). Если все испытуемые эксперименталь­ной группы, сформированной на основе рандомизации, подвергаются однократному экспериментальному воз­действию и контрольная группа также исследуется од­нократно, то посторонние частные события, происходя­щие в каждой из этих групп (шутка, вызвавшая ожив­ление, пожар на улице, предварительные замечания экспериментатора и

т. д.), могут стать конкурентными объяснениями отличия О1— О2 от О3 — О4. Экспери­менты такого рода не являются истинными эксперимен­тами, хотя они иногда и приводятся в качестве примера, как в случае с экспериментом Соломона [104] по обу­чению произношению. (Справедливости ради необходи-

мо сказать, что этот пример выбран с целью иллюстрации других моментов.) Если рассматривать проблему, имея в виду наши «лучшие образцы» экспериментального исследования, то может показаться, что эксперимен­ты по такому плану — простительный грех, но наши «лучшие образцы» слишком часто невоспроизводимы, а поэтому вполне возможно, что именно внутригрупповые события и есть тот самый источник «значимых», но посторонних различий, который является дефектом нашей исследовательской практики. Кроме того, в типичном эксперименте из публикуемых в «Journal of Experimental Psychology» работ контроль внутригрупповых событий обеспечивается тем, что тестирование испытуемых проводится в индивидуальном порядке и путем случайного распределения опытов и испытуемых по экспериментальным или контрольным режимам. Тем не менее, надо отметить, что даже при индивидуальной работе фон может оказаться неконтролируемым, если вся экспериментальная группа проходит тестирование до контрольной и т. д. План 4 рассчитан на одновремен­ное проведение исследования в экспериментальной и контрольной группах. Если же действительно проводить опыты одновременно, то необходимо использовать раз­личных экспериментаторов, при этом различия между экспериментаторами в свою очередь становятся одним из видов внутригрупповой истории, смешиваемой с X.

Оптимальным решением является рандомизация отдельных сеансов эксперимента с учетом тех ограни­чений, которые связаны с необходимостью уравнивания таких важных источников смещений, как эксперимента­тор, время дня, день недели, начало или конец семест­ра, близость экзаменов и т. п. Общепринятый способ объединения испытуемых в группы вместо индивидуаль­ной работы с каждым неприемлем, если это группиро­вание игнорируется при статистическом анализе. (См. ниже раздел об экспериментировании с реальными группами.) Все испытуемые, участвующие в одном се­ансе, подвергаются воздействию одних и тех же посто­ронних событий, что может оказаться отличной от X причиной сходства их реакций. Если такие сеансы бу­дут проводиться в случайном порядке, то корректными с точки зрения статистики будут такие процедуры предъявления воздействия, которые рассматриваются

ниже при обсуждении того, как проводить эксперимен­тальные исследования с целыми классами. (Для неко­торых исследований, связанных с групповым тестированием, можно распределить экспериментальные воз­действия и предъявлять их отдельным лицам внутри одной группы в случайном порядке, подобно тому, как это делается при использовании множественных форм теста, когда изучается влияние порядка трудности от­дельных заданий по тесту. В таких случаях особенно­сти «внутригрупповой истории» будут общими для обо­их видов процедур и при объяснении полученных различий они не смогут стать правдоподобной конку­рентной гипотезой, смешиваемой с X.)

Естественное развитие и эффект тестирования конт­ролируются постольку, поскольку они одинаковым об­разом проявляются в экспериментальной и контрольной группах. В тех случаях, когда созданы условия для контроля «внутригрупповой истории», легко контроли­ровать и инструментальную погрешность, особенно если для О используются ответы испытуемых, полученные с помощью фиксированной методики, такой, как напеча­танный тест. Однако при использовании наблюдателей или интервьюеров проблема становится более сложной. В случае, когда число наблюдателей не позволяет осу­ществлять их рандомизированное распределение по от­дельным сеансам, необходимо использовать каждого наблюдателя и в экспериментальных, и в контрольных сеансах; кроме того, для предупреждения искажения результатов наблюдений необходимо, чтобы наблюда­тели не знали, каким видам воздействий подвергается каждый из испытуемых. То, что такие тенденции к сме­щению результатов являются частыми источниками различий, подтверждается необходимостью введения «двойного слепого эксперимента»1в медицинских иссле­дованиях, как было показано в недавно проведенных работах (Rosenthal [94]) и в более ранних исследова­ниях (например, Kennedy, Uphoff [62], Stanton, Baker [117]). Регистрация группового взаимодействия облегчит контроль инструментального фактора в ис­следованиях поведения и взаимодействия в группах учащихся, поскольку отдельные фрагменты записи, по-

_____________________________________________________________________________

1 Эксперимент, при котором ни испытуемый, ни эксперимента­тор не знают, имеет место воздействие или нет. — Прим. ред.

лученные при предварительном и итоговом тестирова­нии в экспериментальной и контрольной группах, могут предъявляться «судьям» в случайном порядке.

Эффект регрессии контролируется, когда речь идет о различиях между средними, независимо от того, насколько экстремальными были показатели группы при предварительном тестировании, если экспериментальная и контрольная группы были составлены из некоторой экстремальной совокупности на основе рандомизации. В этом случае контрольная группа имеет такую же регрессию, что и экспериментальная. Однако даже при использовании плана 4 часто возникают ошибки интер­претации из-за регрессионных артефактов. Эксперимен­татор может использовать контрольную группу для подтверждения группового среднего эффекта X, а за­тем при определении того, какие предварительные по­казатели подгрупп испытуемых из экспериментальной группы особенно подверглись влиянию X, оставить ре­зультаты контрольной группы без внимания. Если у экспериментальной группы в целом обнаружится улуч­шение результатов, то экспериментатор столкнется с поразительным явлением, состоящим в том, что у тех, кто вначале имел самые низкие показатели, это улучше­ние было наибольшим, в то время как у тех, кто вна­чале имел наивысшие показатели, не наблюдается ни­какого прогресса. В этих условиях такие результаты достигаются за счет того, что регрессионный артефакт способствует увеличению показателей у тех, кто имел наихудшие предварительные показатели, и нейтрализу­ет их у тех, кто имел наилучшие предварительные пока­затели. (Если же в целом не наблюдается улучшения результатов, то экспериментатор может ошибочно «обнаружить», что это произошло вследствие двух взаимно компенсирующих процессов: прироста у «низ­ких» и потери у «высоких».)

Одно из средств предупреждения такой ошибки ин­терпретации — проведение параллельного анализа экст­ремальных показателей предварительного тестирования в контрольной группе и использование этих данных при интерпретации увеличения показателей путем сравне­ния результатов итогового тестирования соответствую­щих— выделенных по данным предварительного тес­тирования — экспериментальных и контрольных под-

групп. (Отметим, что асимметрия распределений, по­лучаемых при отборе подгрупп, ставит под сомнение пригодность процедур, основанных на нормальной кри­вой.)

Действие фактора отбора, или состава групп, в каче­стве объяснения различий исключается в той степени, в какой рандомизация обеспечивает эквивалентность групп в момент R. Эта степень определяется принятой нами выборочной статистикой. Поэтому уверенность в равенстве выше для большого числа случайных распре­делений, чем для малого. В пределах, определяемых ве­личиной ошибки, для гипотезы об отсутствии разли­чий это утверждение иногда оказывается неверным. В случае плана 4 это означает, что иногда могут обна­руживаться явно «значимые» различия между резуль­татами предварительного тестирования. Поэтому, хотя простая, или стратифицированная, рандомизация и обеспечивает несмещенное распределение испытуемых по группам, она не дает абсолютной уверенности в ис­ходной эквивалентности таких групп. Тем не менее, рандомизация — единственный существенный способ решения. Это утверждение столь категорично потому, что в течение последних 30 лет в педагогических иссле­дованиях, наблюдается весьма распространенное оши­бочное предпочтение способа попарного уравнивания групп. Мак-Кол [74] и другие способствовали этому недоразумению. Как будет более детально показано ниже, при обсуждении плана 10 и анализа ex post facto, попарное уравнивание фактически не способ­ствует преодолению исходных групповых различий. Это не исключает применения попарного подбора в каче­стве дополнения к рандомизации, когда для достиже­ния статистической точности подбирают учащихся по парам, а затем в случайном порядке одного члена каждой пары включают в экспериментальную группу, а другого — в контрольную. В статистической литературе этотприем известен как «образование блоков» (см. бо­лее подробное обсуждение этого вопроса в: Cox [27], Feldt [35], Lindquist[68]). Но применение попарного уравнивания вместо рандомизации недопустимо даже в квазиэкспериментальных планах, использующих лишь две реально существующие группы: одну — эксперимен­тальную, другую — контрольную. Даже в этих «слабых

экспериментах» существуют лучшие, чем попарное урав­нивание, способы уменьшить исходные средние значения различия в этих двух выборках.

Данные, которые можно получить с помощью пла­на 4, позволяют установить, может ли выбывание объяснить прирост О1— О2. Потери, выбывания и слу­чаи, когда доступны лишь частичные данные, представ­ляют немалые трудности, и обычно о них не упоминают. Как правило, эксперименты с методами обучения длят­ся в течение нескольких дней, недель или месяцев. Если предварительное и итоговое тестирования проводятся в классах, из которых составляются экспериментальная и контрольная группы, и условия эксперимента требуют присутствия испытуемых на занятиях, в то время как испытуемые контрольной группы эти занятия не посе­щают, то различная посещаемость на трех этапах — предварительное тестирование, экспериментальное воз­действие, итоговое тестирование — ведет к выбыванию. Этот фактор может вызвать неуловимые смещения вы­борки. Если исключить из экспериментальной группы тех, кто первоначально был намечен для участия в ней, но не смог посещать экспериментальные занятия, это вызовет такое селективное сокращение группы, которое сделает ее несопоставимой с контрольной группой (в частности, экспериментальная группа оказывается «более добросовестной»). По-видимому, более предпоч­тительным было бы — хотя это редко наблюдается — использование результатов всех испытуемых контроль­ной и экспериментальной групп, которые подвергались предварительному и итоговому тестированию, включая в экспериментальной группе и тех, кто не подвергался воздействию X.Очевидно, при таком способе анализа эффект X выглядит ослабленным, но зато это позво­ляет избежать смещения выборки.

Такая процедура основывается на допущении, что нет более простых смещений вследствие выбывания; такое допущение может быть частично проверено путем анализа числа и предварительных показателей тех лиц, кто проходил предварительное тестирование, но отсут­ствовал при итоговом тестировании. Возможно, что некоторые X влияют скорее на степень выбывания, а не на изменение индивидуальных показателей. Конечно, даже если степень выбывания одна и та же, остается

возможность сложных взаимодействий, которые делают различным характер выбывания из экспериментальной и контрольной групп.

Проблема выбывания выступает в гораздо более острой форме в тех исследованиях компенсаторного обучения, в которых используется принцип добровольно­го участия. Рассмотрим пример, в котором одна выбор­ка плохо читающих школьников приглашается для участия в добровольном порядке в исследовании по методу компенсаторного обучения, в то время как экви­валентная группа таких приглашений не получает. Возможно, что 30% из числа приглашенных примут участие в эксперименте. Показатели предварительного и итогового тестирования получают с помощью стан­дартных тестов успешности чтения; тестированию под­вергаются все классы. Неправильно было бы сравни­вать 30% добровольцев со всей контрольной группой, так как эти добровольцы представляют собой тех, кто больше всего обеспокоен своими результатами предва­рительного тестирования, кто, вероятно, наиболее энер­гично работает над собой и т. д. Но в этом случае невозможно выделить соответствующих им лиц в кон­трольной группе. Сравнение результатов всех пригла­шенных с результатами неприглашенных — хотя это и кажется несправедливым с точки зрения гипотезы о терапевтической эффективности — на самом деле яв­ляется приемлемым, хотя и осторожным решением проблемы. Отметим, однако, что, возможно, само по себе приглашение, а не терапия вызывает данный эф­фект. В общем, неприглашенная контрольная группа должна быть столь же осведомлена о результатах пред­варительного тестирования, как и приглашенная. Дру­гое решение состоит в том, чтобы приглашать всех, кто нуждается в компенсаторном обучении, и составлять из желающих две группы — настоящую экспериментальную и группу-плацебо1; но на данном уровне развития лю­бая плацебо-терапия, которая выглядит достаточно правдоподобной, чтобы ее приняли за реальную по­мощь, вероятно, будет столь же хорошей терапией, что

_____________________________________________________________________________

1 Группа-плацебо (placebo — лат.) — группа, которая якобы подвергалась воздействию, но воздействие в действительности не осуществляется. (См. подробнее статью «Научный вывод, артефакты и контроль» в данной книге). — Прим. ред.

и исследуемый метод. Отметим, однако, обоснованность заключения о том, что гораздо легче провести экспе­риментальные проверки сравнительной эффективности двух терапевтических процедур, чем оценить абсолют­ную эффективность каждой из них. Единственным прак­тическим решением является создание эксперименталь­ной и контрольной групп из желающих пройти курс компенсаторного обучения путем манипулирования временем ожидания (см., к примеру, Rogers, Dymond [93]). Иногда это создает другие трудности, например чрезмерное выбывание из контрольной группы, для ко­торой терапия отложена. Об успешном и, по-видимому, не вызывающем особых реакций испытуемых исполь­зовании жеребьевки для решения о немедленном или отсроченном проведении курса смотри в работе Рида [92].

Наши рекомендации