Факторы, ставящие под угрозу внешнюю валидность

Описанные выше факторы внутренней невалидности были факторами, непосредственно влияющими на данные О. И эти факторы сами по себе могли вызвать из­менения, которые можно ошибочно принять за резуль­тат действия X. Если в план эксперимента включается еще и контрольная группа, эти факторы вызывают эф­фекты, проявляющиеся и в контрольной группе: в экс­периментальной же группе их действие накладывается на действие X. В терминах дисперсионного анализа фон («история»), естественное развитие, эффект тестирова­ния и т. д. могут быть представлены как главные эф­фекты и как таковые они могут контролироваться в эксперименте по типу плана 4, обеспечивая ему внутреннюю валидность. С другой стороны, угрозы внешней валидности могут быть отнесены к эффектам взаимо­действия X с некоторыми другими переменными. Тем самым они представляют собой потенциальные ограни­чения эффектов X некоторой нежелательно узкой сово­купностью условий.

Забегая вперед, отметим, что в плане 4, как изве­стно, наблюдаемые эффекты действия X могут прояв­ляться только в группах, «подготовленных» предвари­тельным тестированием. Логически мы не имеем права распространять эти результаты на ту большую, пред-

варительно не обследованную популяцию, о которой мы хотели бы говорить.

В этом разделе мы обсудим несколько таких угроз обобщаемости и способы их уменьшения. Так, посколь­ку существуют валидные планы, в которых не использу­ется предварительное тестирование, и поскольку во многих ситуациях (не обязательно в исследованиях обучения) хотят распространить результаты на группы, не подвергавшиеся предварительному тестированию, такие планы более предпочтительны, так как обеспе­чивают большую внешнюю валидность или возможность обобщения. В области обучения, часто высказываемые сомнения по поводу возможности применения резуль­татов крайне искусственных экспериментов к реальной практике являются суждениями о внешней валидности. Поэтому учет таких соображений при обсуждении оп­тимальных экспериментальных планов встретит одобре­ние тех практических работников, которые правильно понимают, что такие соображения безосновательно иг­норируются в обычных формальных курсах по экспери­ментальной методологии. В дальнейшем мы покажем несколько путей повышения внешней валидности экспе­риментов, создания более подходящих условий для обоб­щения их результатов и применения их в практике обучения без утраты внутренней валидности.

Прежде чем перейти к обсуждению этих вопросов, необходимо сделать несколько предостережений. Они касаются некоторых острых в учении об индукции проб­лем. Они являются таковыми вследствие периодически повторяющегося вынужденного признания трюизма Юма о том, что индукция или обобщение никогда не могут быть полностью логически обоснованы. В то вре­мя как проблемы внутренней валидности разрешимы в рамках логики вероятностной статистики, проблемы внешней валидности логически не разрешимы никаким ясным, убедительным способом. Оказывается, что обоб­щение всегда связано с экстраполяцией в области, не представленные в некоторой выборке. Такая экстрапо­ляция осуществляется посредством предположения о знании релевантных закономерностей. Так, если имеет­ся внутренне валидный план 4, то эффект продемон­стрирован только для тех конкретных условий, которые оказались общими для экспериментальной и контроль-

ной групп, то есть только для предварительно обследованных групп, включающих лиц определенного возрас­та, интеллекта, социально-экономического статуса, географического региона, взятых в определенный исторический момент, при данной ориентации светил, определенном атмосферном давлении, уровне гамма-из­лучения и т. д.

Логически мы не имеем права выходить за эти пределы, то есть, не имеем права вообще обобщать. Но в действительности мы пытаемся делать обобщения, устанавливая закономерности и отбрасывая некоторые из этих обобщений в других столь же конкретных, но отличных условиях. Изучая историю науки, мы узнаем о «подтверждении» обобщения посредством накопления опыта обобщения, но это не логическое обобщение, выводимое из данных исходного эксперимента. Столк­нувшись с этим, мы при обобщении высказываем пред­положения о пока еще не доказанных закономерностях, включая и такие, которые совсем не исследовались. Так, при изучении преподавания мы полностью прини­маем предположение о том, что ориентация в магнит­ном поле не оказывает влияния на результаты. Но на основе отдельных исследований мы знаем, что предва­рительное тестирование часто влияет на результаты исследования, и поэтому его как ограничение для обоб­щения следует устранить. Если же мы изучаем желез­ные бруски, то по опыту знаем, что процедура предва­рительного взвешивания не оказывает никакого влияния на результаты последующих замеров, но ориентация в магнитном поле, если она систематически не контролируется, может в значительной степени ограни­чить обобщение результатов наших исследований. Таким образом, источники внешней невалидности явля­ются предположениями об общих законах науки о нау­ке,— предположениями о том, какие факторы законо­мерно взаимодействуют с нашими независимыми пере­менными, и предположениями о том, чем можно пренебречь.

Помимо этого, существует общая эмпирическая за­кономерность, которую мы признаем наряду со всеми учеными. Речь идет о современной трактовке постулата Милля о законообразности природы. В своей современ­ной, более мягкой трактовке он выступает как утверж-

дение о «склеенности» («stickiness») природы: мы пред­полагаем, что, чем ближе два события в пространстве и во времени, а также по измеренным значениям по некоторым или по всем параметрам, тем в большей сте­пени они будут следовать одним и тем же законам. Чем больше экспериментальные условия отличаются от тех, на которые хотелось бы распространить результаты, тем в большей степени следует ожидать сложных взаи­модействий и криволинейных зависимостей, затрудняю­щих обобщение. Поэтому наш призыв к достижению большей внешней валидности есть призыв к достиже­нию максимального сходства экспериментальных усло­вий с условиями применения при сохранении внутрен­ней валидности.

Подчеркивая это, мы должны иметь в виду, что та­кие «успешные» науки, как физика и химия, развива­ются, не обращая никакого внимания на репрезента­тивность (зато придавая большое значение воспроизво­димости результатов независимыми исследователями). Искусственная лабораторная наука, создаваемая в баш­нях из слоновой кости, имеет ценность, даже если она и нерепрезентативна, а искусственность часто бывает необходимой при аналитическом вычленении перемен­ных, что в свою очередь является очень важным для достижений во многих науках. Но, несомненно, и то, что весьма важным, особенно для таких прикладных дис­циплин, как педагогика, является достижение внешней валидности, когда это не препятствует внутренней ва­лидности или аналитической работе.

Взаимодействие тестирования и X. Если ограничи­ваться только работами по планированию эксперимен­тов как таковых, то приоритет в выделении угрозы внешней валидности со стороны предварительного тес­тирования принадлежит Соломону [104], хотя еще раньше аналогичные соображения привели отдельных экспериментаторов к использованию плана 6, в котором нет предварительного тестирования. Особенно отчетли­во эта проблема предстает в исследованиях по измене­нию установок, где тесты для измерения последних со­держат много весьма необычного материала (например, редко можно встретить в печатном тексте столько враж­дебных заявлений, сколько их содержится в типичном тесте на национальные предрассудки), и вполне веро-

ятно, что предварительное тестирование оказывает влияние на установки личности и ее подверженность убеж­дению. Психолог будет серьезно сомневаться в возмож­ности сравнивать киноаудиторию, видевшую фильм «Джентльменское соглашение», направленный против предрассудков, сразу после ответов на 100 пунктов тес­та на антисемитизм, с другой аудиторией, видевшей фильм без предварительного тестирования. Эти сомне­ния касаются не только основного влияния предвари­тельного тестирования, но также и реакции на убежда­ющее воздействие. Предположим, что замысел фильма реализован настолько приглушенно, что некоторые зри­тели могут с интересом посмотреть его, уделив внима­ние какой-то одной линии, не осознав тех социальных проблем, которых он касается. Такие люди, возможно, не войдут в группу, подвергавшуюся предварительному тестированию. Если сделать аудиторию сензитивной посредством предварительного тестирования, то мо­жет возрасти обучающее влияние X, так как внимание аудитории будет определенным образом сфокусиро­вано. Понятно, что такое воздействие X может быть эффективно лишь для предварительно тестируемой группы.

Хотя сензитивные влияния такого рода часто приво­дятся в качестве иллюстрации эффекта, данные не­скольких публикаций указывают либо на отсутствие та­кого эффекта (см., например, Anderson [3], Duncan et al. [31], Glock [42], Lana [64, 65], Lana, King [66], Piers [89], Sobol [103], Zeisel [139]), либо на озада­чивающий эффект взаимодействия. Так, Соломон [104] установил, что проведение предварительного тестирова­ния снижало эффективность экспериментального обуче­ния чтению, а Ховленд, Ламздейн и Шеффилд [51] пред­положили, что предварительное тестирование уменьша­ет убеждающее воздействие фильмов. Таких эффектов взаимодействия следует избегать, даже если они не столь обманчивы, как сенсибилизация (так как благо­даря избытку опубликованных открытий ложные под­тверждения являются более серьезной проблемой в на­шей литературе, чем ложные опровержения. См. Campbell [11, с. 168—170]).

Снижение внешней валидности, обусловленное влия­нием предварительного тестирования на X, конечно, за-

висит от того, в какой степени повторяющиеся обследования характерны для той популяции, на которую хотят распространить выводы. Исследовательские интервью и процедуры измерения установок совсем нетипичны для сферы массовой коммуникации. Но когда мы хотим обобщить данные исследований в области педагогики, мы сталкиваемся с условиями, в которых тестирова­ние — обычное явление, особенно если экспериментатор в качестве тестирования использует обычные опросы в классе. Но, возможно, нежелательное взаимодействие тестирования с X не возникает и тогда, когда экспери­ментальное тестирование О будет сходно с тем, которое всегда применяется в этой области. В тех же случаях, когда тестирование осуществляется с помощью необыч­ных процедур или связано с маскировкой цели иссле­дования, перестройкой восприятия и мышления, удив­лением, стрессом и т. д., желательно, а возможно, и необходимо применять планы экспериментов с предва­рительно не тестируемыми группами.

Взаимодействие отбора (состава группы) и X. Так как в плане 4 контролируется влияние отбора только при интерпретации различий между экспериментальной и контрольной группами, остается опасность того, что полученные результаты валидны лишь для той популя­ции, из которой были составлены экспериментальная и контрольная группы. Такая возможность тем вероят­ней, чем больше трудностей мы встречаем при поиске испытуемых для эксперимента. Рассмотрим ситуацию, когда от экспериментирования с преподаванием отказа­лись девять школ и только десятая согласилась участ­вовать в эксперименте. Почти наверняка эта десятая школа отличается по многим показателям от девяти других и от основной массы школ, на которую мы хо­тим распространить полученные данные. Эта школа, таким образом, нерепрезентативна. Скорее всего, ее штат обладает более высокими моральными качества­ми, в ней меньше опасаются проверок, больше стремят­ся к совершенствованию, чем в обычных «средних» шко­лах. И хотя полученные результаты и будут обладать внутренней валидностью, они справедливы только для школ такого рода. Чтобы выносить суждения по этим вопросам, в отчет об исследовании следует включать данные о том, сколько и каких школ и классов были

приглашены сотрудничать, и отказались от проведения эксперимента; в таком случае читатель сможет оценить степень возможных смещений выборки. Вообще говоря, чем больше было попыток наладить сотрудничество, чем в большей мере нарушается сложившаяся практика и чем выше процент отказов от экспериментирова­ния, тем больше вероятность наличия эффекта специ­фичности отбора.

Рассмотрим более подробно, что означает «взаимо­действие фактора отбора (состава группы) и X». Если мы намерены проводить исследование в рамках одной школы, которая выразила готовность сотрудничать, то при случайном распределении испытуемых в экспери­ментальную и контрольную группы мы можем не забо­титься об «основном эффекте» школы как таковой. Если средние результаты экспериментальной и контрольной групп лишь в равной мере улучшены посредством та­кого исследования, то этому не стоит придавать значе­ния. Если же окажется, что особенности этой школы способствуют большей (по сравнению с той совокуп­ностью, на которую собираются распространить дан­ные) эффективности экспериментального курса, то это обстоятельство может быть серьезным. Надо убедиться в незначительности взаимодействия характеристик шко­лы (связанных, вероятно, с готовностью сотрудничать) с экспериментальным воздействием. Некоторые экспе­риментальные переменные могут быть довольно чувст­вительны к характеристикам школы (взаимодействовать с ними), другие — нечувствительны. Такие взаимодейст­вия могут возникать при использовании в исследовании школ со сходными средними IQ и могут отсутствовать, если значения IQ сильно отличаются друг от друга. Однако мы должны ожидать, что взаимодействия будут более вероятны тогда, когда школы сильно отличаются друг от друга по различным признакам, а не тогда, ко­гда они сходны.

Часто значительные смещения выборки возникают из-за инерции экспериментаторов, которые не предусмо­трели того, что более репрезентативная выборка школ может отказаться от участия в эксперименте. Вследст­вие этого большинство педагогических исследований осуществляется в школах, где обучается непропорцио­нально большой процент детей университетских препо-

давателей. Хотя достижение выборочной репрезентатив­ности в полной мере невозможно и хотя такой подход почти полностью отрицается во многих науках (напри­мер, в большинстве публикаций на страницах «Journal of Experimental Psychology»), репрезентативность мо­жет и должна считаться желательной в педагогических исследованиях. Одним из путей повышения репрезента­тивности является уменьшение числа испытуемых или классов из одной школы или класса и увеличение чис­ла школ и классов, в которых проводятся эксперимен­ты. Конечно, мы никогда не достигнем того, чтобы экс­перименты проводились на выборке, репрезентативной для всех школьных классов в США или всего мира. Мы можем лишь шаг за шагом, путем проб и ошибок узнавать, сколь далеко мы можем экстраполировать, как широко обобщать внутренне валидные результаты. Но такая работа будет более успешной, если уже в ис­ходном эксперименте мы будем наблюдать явление в широком диапазоне условий.

Если обратиться к «плюсам» и «минусам» табл. 1, то, очевидно, нельзя сказать ничего определенного о соответствующей колонке этого плана. Однако эта ко­лонка включена в таблицу, так как требования, связан­ные с некоторыми планами эксперимента, заостряют или смягчают основную проблему. При использовании плана 4 в исследованиях социальных установок требу­ется настолько большая готовность к сотрудничеству со стороны части испытуемых или респондентов, что это вынуждает ограничить проведение исследований только подконтрольной аудиторией, отличающейся от обычных граждан, о которых хотели бы говорить на основании данных исследования. В такого рода исследованиях план 4 следует расценивать как план, имеющий «ми­нус» по фактору отбора. Однако в педагогических ис­следованиях объектом внимания является подконтроль­ная популяция, и поэтому при использовании плана 4 могут быть получены высокорепрезентативные резуль­таты.

Другие взаимодействия с X. Аналогичным образом взаимодействия X с другими факторами могут рассма­триваться как угрозы внешней валидности. Дифферен­цированное выбывание является, видимо, следствием X, а не фактором, взаимодействующим с ним. Взаимодей-

ствие фактора инструментальной погрешности с X уже рассматривалось при обсуждении внутренней валидности, так как специфическое влияние этого фактора при предъявлении X бывает имитацией истинного влияния X (например, когда наблюдатель, который дает оценку, знает гипотезу и знает, кто из учащихся подвергался воздействию X). Угрозой внешней валидности является вероятность эффектов, характерных для конкретных средств (тестов, наблюдателей, счетчиков), используе­мых в этом исследовании. Если в исследовании исполь­зуется несколько наблюдателей или интервьюеров, то такие взаимодействия могут быть изучены непосредст­венно (Stanley [111]). Регрессия не выступает как фак­тор, взаимодействующий с X.

Действие фактора естественного развития связано с проблемой отбора испытуемых: результаты могут ока­заться действительными только для данного возраста, данной степени утомления и т. д. Взаимодействие X с фоном означало бы, что эффект наблюдается только в данных условиях эксперимента, и, хотя для этого фона результаты валидны, они не будут получены в других условиях. Так, если эксперимент проводился во время войны или, скажем, сразу же после неудачной забастов­ки учителей, то он мог бы выявить повышенную реак­цию на X, которая не обнаружилась бы в других обстоятельствах. Следуя принципам выборочного иссле­дования, мы должны были бы воспроизвести наш экспе­римент на случайной выборке прошлых и будущих си­туаций, что, конечно, невозможно. Кроме того, в нашей области, как и в других науках, мы руководствуемся эмпирическим допущением, согласно которому не су­ществует действительно зависящих от времени законов, и обнаруживаемые эффекты фона, обусловленные кон­кретными сочетаниями условий ст.имуляции в данный момент, в конечном счете, должны быть учтены в еди­ном, не зависящем от времени законе (Neyman [85]). (Применительно к космологическим теориям «расширя­ющейся Вселенной» это утверждение необходимо снаб­дить оговорками, но не в контексте данного обсужде­ния.) Тем не менее, успешное воспроизведение резуль­татов в разное время и в различных условиях повышает нашу уверенность в проводимом обобщении, уменьшая вероятность взаимодействия фона и X.

Эти несколько факторов не включены в табл. 1, ибо они не дают основании для различения альтернативных типов экспериментов.

Реакция испытуемых на эксперимент. Весьма серь­езным источником нерепрезентативности обычного пси­хологического эксперимента и даже педагогического ис­следования является пресловутая искусственность экспериментальной обстановки и знание испытуемого о том, что он участвует в эксперименте. Для испытуемого создается проблемная ситуация повышенной слож­ности, а процедуры и экспериментальное воздействие на которые он реагирует, имеют не только значение стимулов, но играют роль ключевых признаков, исполь­зуемых испытуемым с целью разгадать намерения экс­периментатора. В такой обстановке для испытуемого характерно актерство, настороженность, установка на угадывание, он ощущает себя подопытным кроликом и т. д. Все это нетипично для нормальных школьных ус­ловий и, примешиваясь к эффекту X, сильно затрудняем обобщение результатов. Хотя подобные реакции неиз­бежны, внутренне валидные эксперименты этого типа все равно следует проводить. Но нужно предупреждать по возможности реакцию испытуемых на эксперимент. Тут мы должны отчасти согласиться с критикой экспе­риментов некоторыми административными работниками в сфере образования и педагогов, говорящих о тщет­ности «всех этих исследований». Но наша позиция бо­лее умеренна: мы призываем не прекратить, а усовер­шенствовать исследования. Ниже приводятся наши кон­кретные предложения.

Реакцию на эксперимент может вызвать любой ас­пект экспериментальной процедуры. Это относится и к процедуре предварительного тестирования (независимо от его содержания), и к его взаимодействию с X. Воз­можно, оказывает влияние и содержательная сторона процесса тестирования. Процедура рандомизации и рас­пределения испытуемых по режимам эксперимента так­же может вызывать такую реакцию. Представьте себе, как подействует на класс то, что случайно отобранную половину учеников вдруг отправляют в отдельное поме­щение (Solomon [104]). Это, да еще появление незна­комых «учителей», конечно, должны вызвать у детей ожидание чего-то необычайного, активное желание

узнать, что же затевается. Аналогичную реакцию может вызвать введение какого-либо экстраординарного X. Предположительно в эксперименте по плану 6 с одним лишь итоговым тестированием подобный эффект может возникнуть при итоговом тестировании, причем вероят­ность эффекта тем больше, чем очевиднее связь между экспериментальным воздействием и характером тести­рования.

Изучая перемены в общественном мнении, очень трудно избежать таких реакций. Но при изучении мето­дов преподавания ученики могут и не подозревать, что идет какой-то эксперимент. (Хорошо было бы, если бы об этом ничего не знали также и учителя, как в слу­чае с двойным слепым экспериментом в медицине, но обычно это неосуществимо.) Эксперимент можно замас­кировать следующими приемами. Если Х-ы — это вари­анты обычных мероприятий в классе, проводимых в со­ответствующее время и предусмотренных школьной про­граммой, то уже многого можно достигнуть, не опове­щая о введении экспериментальных воздействий. Далее, О можно проводить под видом регулярных контрольных работ, и тогда второе требование будет соблюдено. Если X предусматривает индивидуальное общение с испытуемым, то для рандомизированного разбиения класса на эквивалентные подгруппы вовсе не обязатель­но разводить их по разным комнатам и т. д.

Незаметное осуществление рандомизации является наиболее часто возникающей проблемой. Иногда можно воспользоваться тем, что в колледжах и больших сред­них школах учащиеся записываются на факультатив­ные курсы, читаемые в разных помещениях в одни и те же часы. Контроль за процессом записи позволяет со­ставлять рандомизированные эквивалентные группы. (Siegel, Siegel [100] показали возможность нетрадици­онного использования процесса естественной рандоми­зации.) Правда, ввиду того, что в каждой группе скла­дываются свои особые условия, группы со временем становятся все менее эквивалентными.

Решением проблемы во всех отношениях является использование в качестве единиц рандомизации целых классов,так что экспериментальная и контрольная груп­пы в результате состоят из случайным образом отобран­ных классов (см. Lindquist [67, 68]). Обычно — но это

не столь существенно — вначале подбираются классы на основе таких признаков, как школа, учитель (когда один учитель ведет несколько классов), предмет, время дня, средний уровень умственного развития и т. д., а затем эти классы случайным образом распределяются по различным режимам эксперимента. Подобных иссле­дований пока немного, но скоро они должны стать нор­мой. При проверке значимости эффекта в этом случае нельзя объединять данные по всем учащимся, посколь­ку не они подлежали рандомизации. Подробно это бу­дет рассмотрено в следующем параграфе.

Наблюдая работу ряда экспериментаторов, которые настолько не ориентированы в жизни школы, что полу­ченные ими результаты прямо-таки вводят в заблужде­ние, мы постепенно пришли к убеждению, что экспери­ментальные исследования в школе должны по возмож­ности проводиться силами школьного персонала, особен­но когда предполагается распространить полученные результаты на другие аналогичные ситуации.

В настоящее время в школе, видимо, практикуются два вида «экспериментов»: 1) исследования, «навязан­ные» школе людьми извне, которые преследуют свои собственные цели и не намерены сразу же предлагать школе какой-либо определенной программы действий, и 2) исследования, организованные «инициативными людьми», старающимися сделать так, чтобы сами учи­теля выступали в роли «экспериментаторов» в широком смысле этого слова. Результаты первого типа исследо­ваний могут быть строгими, но не находят применения. Во втором случае результаты непосредственно связаны с практикой, но, вероятно, не «верны», поскольку они получены в условиях полного отсутствия эксперимен­тальной строгости. Альтернативный подход состоял бы в следующем: идеи школьного эксперимента должны исходить от учителей и других работников школы, за­тем схема исследования, направленного на верифика­цию этих идей, вырабатывается в ходе их совместной работы со специалистами в области методологии экс­перимента, а основная экспериментальная работа про­водится самими авторами идей. Соответствующий ста­тистический анализ данных осуществляется специалис­том-методологом, который возвращает результаты иссле­довательской группе через компетентного посредника

(учителя-методиста, руководителя исследований в сис­теме школ и т. д.), постоянно исполняющего эту функцию. Такие результаты будут и нужными, и «пра­вильными». Проблема в том, как направить основные исследования по такому руслу. При наличии компетент­ного посредника они отошли бы тогда от решения мелких злободневных проблем и приобрели бы боль­шую теоретическую направленность.

Хотя обзор хороших и плохих примеров из литера­туры не входит в наши намерения, недавнее исследова­ние Пейджа [87] настолько удачно выполнено с точки зрения предотвращения реакции испытуемых на экспе­римент, достижения репрезентативности выборок и ис­ключения взаимодействия между тестированием и X, что оно заслуживает упоминания в качестве конкретной иллюстрации оптимальной практики. В этом исследова­нии показано, что если учитель, проверяя контрольные работы, пишет на полях краткие замечания, то его уче­ники лучше справляются с такими заданиями в даль­нейшем. Этот результат был продемонстрирован на 74 учителях в 12 школьных системах по 6 старшим классам для 5 уровней выполнения (A, B, С, D, F) за­дания и на самых различных испытуемых. Учителя и классы отбирались в случайном порядке. В качестве пред­варительных данных использовались результаты самой первой из регулярных контрольных работ, проводивших­ся в каждом классе. Решение о том, писать свои замеча­ния или нет, учитель принимал в зависимости от ре­зультатов бросания особым образом размеченной иг­ральной кости. Следующая по расписанию контрольная работа выполняла роль итогового тестирования. На­сколько можно было заключить из дальнейших бесед, ни один из 2139 учеников не знал о проведении экспе­римента. Лишь немногие школьные процедуры подда­ются такой не вызывающей подозрения рандомизации, так как в классе обычно применяется устная речь, ко­торая адресуется сразу всему классу, а не отдельным ученикам. (Письменное общение обеспечивает возмож­ность рандомизации учеников по различным экспери­ментальным воздействиям, хотя остается проблемой, что ученики могут обнаружить варьирование воздейст­вия.) Тем не менее, имея в виду сказанное выше, ис­следователи смогут предупреждать нежелательные

реакции испытуемых на эксперимент в большей мере, чем в настоящее время.

Проверка значимости эффекта в плане 4

Хороший экспериментальный план независим от способа статистической обработки результатов. Плани­рование эксперимента представляет собой искусство по­лучения поддающихся интерпретации сравнений и как таковое необходимо и тогда, когда конечные результа­ты выражаются в виде процентных диаграмм, парал­лельного описания случаев, фотографий испытуемых, занятых выполнением задания, и т. д. Возможность ис­толкования результатов во всех этих случаях зависит от контроля рассмотренных нами факторов валидности. Если сравнение поддается интерпретации, мы обра­щаемся к статистической проверке значимости, по­зволяющей установить, превышает ли наблюдавшееся различие уровень случайных флюктуации, которых можно ожидать для выборок данного объема при от­сутствии подлинного различия. Применение этой стати­стической процедуры предполагает, но не доказывает и не гарантирует сопоставимости сравниваемых групп или возможности истолковать обнаруженное различие.

Нам хотелось бы научить строить план эксперимен­та на основе здравого смысла и соображений немате­матического характера. Надеемся, что большая часть этой книги доступна исследователям, не прошедшим курса подготовки в области математической статистики. Но поскольку вопрос статистической обработки данных тесно связан с планированием эксперимента, мы выска­жем некоторые соображения по этому поводу. (См. так­же Green, Tukey [45], Каisег [56], Nunallу [86], Rozeboom [96].)1.

Распространенные ошибки статистической обработ­ки. Хотя план 4 является стандартным и широко рас­пространенным, даже в этом случае часто применяются неправильные, неполные или не соответствующие задаче статистические процедуры. Применяя обычный критерий

__________________________________________________________________

1 См. также работы по планированию эксперимента и процеду­рам проверки статистической значимости:

Х и к с Ч. Основные принципы планирования эксперимента. М., «Мир», 1967; Г л а с с Дж., С т э н л и Дж. Статистические методы в педагогике и психологии. М., «Прогресс», 1976. — Прим. ред.

Стьюдента (t-критерий), многие подсчитывают два зна­чения t: одно — для различия в показателях предвари­тельного и итогового тестирования по эксперименталь­ной группе, а другое — для аналогичных результатов по контрольной группе. Если первое значение статистиче­ски значимо, а второе нет, то делается вывод о нали­чии эффекта X без прямого статистического сравнения экспериментальной и контрольной групп. Во многих та­ких случаях применение более адекватного критерия не обнаружило бы значимого различия между группами (например, когда значение t-критерия чуть выше кри­тического в экспериментальной и почти достигает его в контрольной группе). Уиндл [135] и Кантор [18] по­казали, насколько распространена эта ошибка.

Использование приращений и ковариационный ана­лиз. Наиболее широко используемая и приемлемая про­цедура состоит в определении для каждой группы при­ращения показателей от предварительного тестирования к конечному и вычислении t-критерия для приращений, наблюдавшихся в экспериментальной и контрольной группах. В большинстве случаев, однако, следует пред­почесть ковариационный анализ, в котором показатели предварительного тестирования берутся в качестве со­путствующих переменных и которому предшествует про­цедура формирования рандомизированных блоков или «распределение по уровням» показателей предваритель­ного тестирования. Использование этого более точного анализа представляется весьма желательным. По срав­нению с трудом, затраченным на проведение экспери­мента, усилия, связанные с надлежащим анализом, про­сто ничтожны. Детали обработки можно найти в стан­дартных примерах анализа данных по Фишеру. (См. также Cox [27, 28], Feldt [35], Lindquist [68].)

Статистики для рандомизированного распределения целых групп по режимам эксперимента. Обычные ста­тистики применимы только тогда, когда назначение оп­ределенного режима производится в случайном порядке для каждого ученика в отдельности. Когда же режим определяется сразу для целого класса, ошибка, вычис­ленная согласно этим моделям, будет занижена, так как при рандомизации использовались более крупные единицы и выборка наблюдений содержала меньшее число случайных событий. Линдквист [68, с. 172—189]

предложил обоснование и формулы анализа, адекватно­го данной ситуации. В качестве исходных данных здесь используются средние значения класса, и эффект X дол­жен быть выделен из колебаний именно этих величин. Они же должны фигурировать в роли сопутствующих переменных при проведении ковариационного анализа.

Статистики достижения внутренней валидности. Пер­вые три пункта этого параграфа выражают ортодок­сальную для статистиков установку в отношении пла­нирования эксперимента. В данном разделе делается попытка расширить или скорректировать эту установку, при этом различение внешней и внутренней валидности распространяется на сферу статистики выборочного ис­следования. Все обсуждавшиеся выше статистики пред­полагают выборки из бесконечно большой популяции, что больше соответствует изучению общественного мне­ния, чем обычному лабораторному эксперименту. Лишь в редких случаях (как, например, в работе Пейджа [87]) выборки действительно берутся из большой, за­ранее определенной популяции, что делает пригодными обычные формулы. Диаметрально противоположны это­му лабораторные эксперименты, описываемые, скажем, в «Journal of Experimental Psyhology», в которых при­нимается во внимание только внутренняя валидность и в которых все члены уникальной малой популяции вхо­дят в экспериментальные и контрольные группы. В та­ких экспериментах большое значение придается рандо­мизации, но не в целях обеспечения репрезентативности в отношении более широкой популяции. Вместо этого рандомизация служит единственной цели уравнивания экспериментальной и контрольной групп. Таким обра­зом, рандомизация проводится в пределах весьма малой конечной популяции, которая, собственно говоря, есть сумма экспериментальных и контрольных групп.

Эта крайняя позиция в вопросе формирования вы­борки оправданна применительно к лабораторным про­цедурам такого типа: приглашаются добровольцы за вознаграждение — за деньги, за оценки, за зачетные очки по данному курсу — или без него, в порядке вы­полнения обязательных требований, которые рано или поздно все равно пришлось бы выполнить. Эти добро­вольцы в случайном порядке распределяются по груп­пам, которые по-разному участвуют в эксперименте.

Как только обследовано определенное число испытуе­мых, эксперимент прекращается. Отсутствует даже слу­чайный отбор из гораздо более длинного списка добро­вольцев. Первые добровольцы образуют смещенную выборку, а вся популяция, из которой комплектуется выборка, меняется изо дня в день, и требуется все больше усилий, чтобы набрать новых добровольцев, и т. д. В какой-то момент, когда все члены популяции уже использованы в том или ином режиме, процедуру прекращают. Отметим, что смещенность выборок здесь никак не влияет на случайную эквивалентность групп, а сказывается лишь на их репрезентативности.

В целом очевидно, что главная цель рандомизации в лабораторном эксперименте — это внутренняя, а не внешняя валидность. В связи с этим следует пользо­ваться меньшими значениями ошибки, отвечающими меньшим популяциям. Вслед за Кемпторном [59], а также Уилком и Кемпторном [132] мы считаем, что данной задаче соответствует не извлечение случайных выборок из какой-то бесконечной популяции, а модель урновой рандомизации. В данном случае возможна бо­лее подходящая, более точная непараметрическая мо­дель, согласно которой берутся полученные показатели экспериментальной и контрольной групп и многократно распределяются в случайном порядке по двум «урнам». При этом эмпирически (или математически) генерирует­ся распределение средних различий, возникающее целиком за счет случайного расклада этих конкретных показателей. Это распределение является критерием, с которым следует сравн

Наши рекомендации