Факторы, ставящие под угрозу внешнюю валидность
Описанные выше факторы внутренней невалидности были факторами, непосредственно влияющими на данные О. И эти факторы сами по себе могли вызвать изменения, которые можно ошибочно принять за результат действия X. Если в план эксперимента включается еще и контрольная группа, эти факторы вызывают эффекты, проявляющиеся и в контрольной группе: в экспериментальной же группе их действие накладывается на действие X. В терминах дисперсионного анализа фон («история»), естественное развитие, эффект тестирования и т. д. могут быть представлены как главные эффекты и как таковые они могут контролироваться в эксперименте по типу плана 4, обеспечивая ему внутреннюю валидность. С другой стороны, угрозы внешней валидности могут быть отнесены к эффектам взаимодействия X с некоторыми другими переменными. Тем самым они представляют собой потенциальные ограничения эффектов X некоторой нежелательно узкой совокупностью условий.
Забегая вперед, отметим, что в плане 4, как известно, наблюдаемые эффекты действия X могут проявляться только в группах, «подготовленных» предварительным тестированием. Логически мы не имеем права распространять эти результаты на ту большую, пред-
варительно не обследованную популяцию, о которой мы хотели бы говорить.
В этом разделе мы обсудим несколько таких угроз обобщаемости и способы их уменьшения. Так, поскольку существуют валидные планы, в которых не используется предварительное тестирование, и поскольку во многих ситуациях (не обязательно в исследованиях обучения) хотят распространить результаты на группы, не подвергавшиеся предварительному тестированию, такие планы более предпочтительны, так как обеспечивают большую внешнюю валидность или возможность обобщения. В области обучения, часто высказываемые сомнения по поводу возможности применения результатов крайне искусственных экспериментов к реальной практике являются суждениями о внешней валидности. Поэтому учет таких соображений при обсуждении оптимальных экспериментальных планов встретит одобрение тех практических работников, которые правильно понимают, что такие соображения безосновательно игнорируются в обычных формальных курсах по экспериментальной методологии. В дальнейшем мы покажем несколько путей повышения внешней валидности экспериментов, создания более подходящих условий для обобщения их результатов и применения их в практике обучения без утраты внутренней валидности.
Прежде чем перейти к обсуждению этих вопросов, необходимо сделать несколько предостережений. Они касаются некоторых острых в учении об индукции проблем. Они являются таковыми вследствие периодически повторяющегося вынужденного признания трюизма Юма о том, что индукция или обобщение никогда не могут быть полностью логически обоснованы. В то время как проблемы внутренней валидности разрешимы в рамках логики вероятностной статистики, проблемы внешней валидности логически не разрешимы никаким ясным, убедительным способом. Оказывается, что обобщение всегда связано с экстраполяцией в области, не представленные в некоторой выборке. Такая экстраполяция осуществляется посредством предположения о знании релевантных закономерностей. Так, если имеется внутренне валидный план 4, то эффект продемонстрирован только для тех конкретных условий, которые оказались общими для экспериментальной и контроль-
ной групп, то есть только для предварительно обследованных групп, включающих лиц определенного возраста, интеллекта, социально-экономического статуса, географического региона, взятых в определенный исторический момент, при данной ориентации светил, определенном атмосферном давлении, уровне гамма-излучения и т. д.
Логически мы не имеем права выходить за эти пределы, то есть, не имеем права вообще обобщать. Но в действительности мы пытаемся делать обобщения, устанавливая закономерности и отбрасывая некоторые из этих обобщений в других столь же конкретных, но отличных условиях. Изучая историю науки, мы узнаем о «подтверждении» обобщения посредством накопления опыта обобщения, но это не логическое обобщение, выводимое из данных исходного эксперимента. Столкнувшись с этим, мы при обобщении высказываем предположения о пока еще не доказанных закономерностях, включая и такие, которые совсем не исследовались. Так, при изучении преподавания мы полностью принимаем предположение о том, что ориентация в магнитном поле не оказывает влияния на результаты. Но на основе отдельных исследований мы знаем, что предварительное тестирование часто влияет на результаты исследования, и поэтому его как ограничение для обобщения следует устранить. Если же мы изучаем железные бруски, то по опыту знаем, что процедура предварительного взвешивания не оказывает никакого влияния на результаты последующих замеров, но ориентация в магнитном поле, если она систематически не контролируется, может в значительной степени ограничить обобщение результатов наших исследований. Таким образом, источники внешней невалидности являются предположениями об общих законах науки о науке,— предположениями о том, какие факторы закономерно взаимодействуют с нашими независимыми переменными, и предположениями о том, чем можно пренебречь.
Помимо этого, существует общая эмпирическая закономерность, которую мы признаем наряду со всеми учеными. Речь идет о современной трактовке постулата Милля о законообразности природы. В своей современной, более мягкой трактовке он выступает как утверж-
дение о «склеенности» («stickiness») природы: мы предполагаем, что, чем ближе два события в пространстве и во времени, а также по измеренным значениям по некоторым или по всем параметрам, тем в большей степени они будут следовать одним и тем же законам. Чем больше экспериментальные условия отличаются от тех, на которые хотелось бы распространить результаты, тем в большей степени следует ожидать сложных взаимодействий и криволинейных зависимостей, затрудняющих обобщение. Поэтому наш призыв к достижению большей внешней валидности есть призыв к достижению максимального сходства экспериментальных условий с условиями применения при сохранении внутренней валидности.
Подчеркивая это, мы должны иметь в виду, что такие «успешные» науки, как физика и химия, развиваются, не обращая никакого внимания на репрезентативность (зато придавая большое значение воспроизводимости результатов независимыми исследователями). Искусственная лабораторная наука, создаваемая в башнях из слоновой кости, имеет ценность, даже если она и нерепрезентативна, а искусственность часто бывает необходимой при аналитическом вычленении переменных, что в свою очередь является очень важным для достижений во многих науках. Но, несомненно, и то, что весьма важным, особенно для таких прикладных дисциплин, как педагогика, является достижение внешней валидности, когда это не препятствует внутренней валидности или аналитической работе.
Взаимодействие тестирования и X. Если ограничиваться только работами по планированию экспериментов как таковых, то приоритет в выделении угрозы внешней валидности со стороны предварительного тестирования принадлежит Соломону [104], хотя еще раньше аналогичные соображения привели отдельных экспериментаторов к использованию плана 6, в котором нет предварительного тестирования. Особенно отчетливо эта проблема предстает в исследованиях по изменению установок, где тесты для измерения последних содержат много весьма необычного материала (например, редко можно встретить в печатном тексте столько враждебных заявлений, сколько их содержится в типичном тесте на национальные предрассудки), и вполне веро-
ятно, что предварительное тестирование оказывает влияние на установки личности и ее подверженность убеждению. Психолог будет серьезно сомневаться в возможности сравнивать киноаудиторию, видевшую фильм «Джентльменское соглашение», направленный против предрассудков, сразу после ответов на 100 пунктов теста на антисемитизм, с другой аудиторией, видевшей фильм без предварительного тестирования. Эти сомнения касаются не только основного влияния предварительного тестирования, но также и реакции на убеждающее воздействие. Предположим, что замысел фильма реализован настолько приглушенно, что некоторые зрители могут с интересом посмотреть его, уделив внимание какой-то одной линии, не осознав тех социальных проблем, которых он касается. Такие люди, возможно, не войдут в группу, подвергавшуюся предварительному тестированию. Если сделать аудиторию сензитивной посредством предварительного тестирования, то может возрасти обучающее влияние X, так как внимание аудитории будет определенным образом сфокусировано. Понятно, что такое воздействие X может быть эффективно лишь для предварительно тестируемой группы.
Хотя сензитивные влияния такого рода часто приводятся в качестве иллюстрации эффекта, данные нескольких публикаций указывают либо на отсутствие такого эффекта (см., например, Anderson [3], Duncan et al. [31], Glock [42], Lana [64, 65], Lana, King [66], Piers [89], Sobol [103], Zeisel [139]), либо на озадачивающий эффект взаимодействия. Так, Соломон [104] установил, что проведение предварительного тестирования снижало эффективность экспериментального обучения чтению, а Ховленд, Ламздейн и Шеффилд [51] предположили, что предварительное тестирование уменьшает убеждающее воздействие фильмов. Таких эффектов взаимодействия следует избегать, даже если они не столь обманчивы, как сенсибилизация (так как благодаря избытку опубликованных открытий ложные подтверждения являются более серьезной проблемой в нашей литературе, чем ложные опровержения. См. Campbell [11, с. 168—170]).
Снижение внешней валидности, обусловленное влиянием предварительного тестирования на X, конечно, за-
висит от того, в какой степени повторяющиеся обследования характерны для той популяции, на которую хотят распространить выводы. Исследовательские интервью и процедуры измерения установок совсем нетипичны для сферы массовой коммуникации. Но когда мы хотим обобщить данные исследований в области педагогики, мы сталкиваемся с условиями, в которых тестирование — обычное явление, особенно если экспериментатор в качестве тестирования использует обычные опросы в классе. Но, возможно, нежелательное взаимодействие тестирования с X не возникает и тогда, когда экспериментальное тестирование О будет сходно с тем, которое всегда применяется в этой области. В тех же случаях, когда тестирование осуществляется с помощью необычных процедур или связано с маскировкой цели исследования, перестройкой восприятия и мышления, удивлением, стрессом и т. д., желательно, а возможно, и необходимо применять планы экспериментов с предварительно не тестируемыми группами.
Взаимодействие отбора (состава группы) и X. Так как в плане 4 контролируется влияние отбора только при интерпретации различий между экспериментальной и контрольной группами, остается опасность того, что полученные результаты валидны лишь для той популяции, из которой были составлены экспериментальная и контрольная группы. Такая возможность тем вероятней, чем больше трудностей мы встречаем при поиске испытуемых для эксперимента. Рассмотрим ситуацию, когда от экспериментирования с преподаванием отказались девять школ и только десятая согласилась участвовать в эксперименте. Почти наверняка эта десятая школа отличается по многим показателям от девяти других и от основной массы школ, на которую мы хотим распространить полученные данные. Эта школа, таким образом, нерепрезентативна. Скорее всего, ее штат обладает более высокими моральными качествами, в ней меньше опасаются проверок, больше стремятся к совершенствованию, чем в обычных «средних» школах. И хотя полученные результаты и будут обладать внутренней валидностью, они справедливы только для школ такого рода. Чтобы выносить суждения по этим вопросам, в отчет об исследовании следует включать данные о том, сколько и каких школ и классов были
приглашены сотрудничать, и отказались от проведения эксперимента; в таком случае читатель сможет оценить степень возможных смещений выборки. Вообще говоря, чем больше было попыток наладить сотрудничество, чем в большей мере нарушается сложившаяся практика и чем выше процент отказов от экспериментирования, тем больше вероятность наличия эффекта специфичности отбора.
Рассмотрим более подробно, что означает «взаимодействие фактора отбора (состава группы) и X». Если мы намерены проводить исследование в рамках одной школы, которая выразила готовность сотрудничать, то при случайном распределении испытуемых в экспериментальную и контрольную группы мы можем не заботиться об «основном эффекте» школы как таковой. Если средние результаты экспериментальной и контрольной групп лишь в равной мере улучшены посредством такого исследования, то этому не стоит придавать значения. Если же окажется, что особенности этой школы способствуют большей (по сравнению с той совокупностью, на которую собираются распространить данные) эффективности экспериментального курса, то это обстоятельство может быть серьезным. Надо убедиться в незначительности взаимодействия характеристик школы (связанных, вероятно, с готовностью сотрудничать) с экспериментальным воздействием. Некоторые экспериментальные переменные могут быть довольно чувствительны к характеристикам школы (взаимодействовать с ними), другие — нечувствительны. Такие взаимодействия могут возникать при использовании в исследовании школ со сходными средними IQ и могут отсутствовать, если значения IQ сильно отличаются друг от друга. Однако мы должны ожидать, что взаимодействия будут более вероятны тогда, когда школы сильно отличаются друг от друга по различным признакам, а не тогда, когда они сходны.
Часто значительные смещения выборки возникают из-за инерции экспериментаторов, которые не предусмотрели того, что более репрезентативная выборка школ может отказаться от участия в эксперименте. Вследствие этого большинство педагогических исследований осуществляется в школах, где обучается непропорционально большой процент детей университетских препо-
давателей. Хотя достижение выборочной репрезентативности в полной мере невозможно и хотя такой подход почти полностью отрицается во многих науках (например, в большинстве публикаций на страницах «Journal of Experimental Psychology»), репрезентативность может и должна считаться желательной в педагогических исследованиях. Одним из путей повышения репрезентативности является уменьшение числа испытуемых или классов из одной школы или класса и увеличение числа школ и классов, в которых проводятся эксперименты. Конечно, мы никогда не достигнем того, чтобы эксперименты проводились на выборке, репрезентативной для всех школьных классов в США или всего мира. Мы можем лишь шаг за шагом, путем проб и ошибок узнавать, сколь далеко мы можем экстраполировать, как широко обобщать внутренне валидные результаты. Но такая работа будет более успешной, если уже в исходном эксперименте мы будем наблюдать явление в широком диапазоне условий.
Если обратиться к «плюсам» и «минусам» табл. 1, то, очевидно, нельзя сказать ничего определенного о соответствующей колонке этого плана. Однако эта колонка включена в таблицу, так как требования, связанные с некоторыми планами эксперимента, заостряют или смягчают основную проблему. При использовании плана 4 в исследованиях социальных установок требуется настолько большая готовность к сотрудничеству со стороны части испытуемых или респондентов, что это вынуждает ограничить проведение исследований только подконтрольной аудиторией, отличающейся от обычных граждан, о которых хотели бы говорить на основании данных исследования. В такого рода исследованиях план 4 следует расценивать как план, имеющий «минус» по фактору отбора. Однако в педагогических исследованиях объектом внимания является подконтрольная популяция, и поэтому при использовании плана 4 могут быть получены высокорепрезентативные результаты.
Другие взаимодействия с X. Аналогичным образом взаимодействия X с другими факторами могут рассматриваться как угрозы внешней валидности. Дифференцированное выбывание является, видимо, следствием X, а не фактором, взаимодействующим с ним. Взаимодей-
ствие фактора инструментальной погрешности с X уже рассматривалось при обсуждении внутренней валидности, так как специфическое влияние этого фактора при предъявлении X бывает имитацией истинного влияния X (например, когда наблюдатель, который дает оценку, знает гипотезу и знает, кто из учащихся подвергался воздействию X). Угрозой внешней валидности является вероятность эффектов, характерных для конкретных средств (тестов, наблюдателей, счетчиков), используемых в этом исследовании. Если в исследовании используется несколько наблюдателей или интервьюеров, то такие взаимодействия могут быть изучены непосредственно (Stanley [111]). Регрессия не выступает как фактор, взаимодействующий с X.
Действие фактора естественного развития связано с проблемой отбора испытуемых: результаты могут оказаться действительными только для данного возраста, данной степени утомления и т. д. Взаимодействие X с фоном означало бы, что эффект наблюдается только в данных условиях эксперимента, и, хотя для этого фона результаты валидны, они не будут получены в других условиях. Так, если эксперимент проводился во время войны или, скажем, сразу же после неудачной забастовки учителей, то он мог бы выявить повышенную реакцию на X, которая не обнаружилась бы в других обстоятельствах. Следуя принципам выборочного исследования, мы должны были бы воспроизвести наш эксперимент на случайной выборке прошлых и будущих ситуаций, что, конечно, невозможно. Кроме того, в нашей области, как и в других науках, мы руководствуемся эмпирическим допущением, согласно которому не существует действительно зависящих от времени законов, и обнаруживаемые эффекты фона, обусловленные конкретными сочетаниями условий ст.имуляции в данный момент, в конечном счете, должны быть учтены в едином, не зависящем от времени законе (Neyman [85]). (Применительно к космологическим теориям «расширяющейся Вселенной» это утверждение необходимо снабдить оговорками, но не в контексте данного обсуждения.) Тем не менее, успешное воспроизведение результатов в разное время и в различных условиях повышает нашу уверенность в проводимом обобщении, уменьшая вероятность взаимодействия фона и X.
Эти несколько факторов не включены в табл. 1, ибо они не дают основании для различения альтернативных типов экспериментов.
Реакция испытуемых на эксперимент. Весьма серьезным источником нерепрезентативности обычного психологического эксперимента и даже педагогического исследования является пресловутая искусственность экспериментальной обстановки и знание испытуемого о том, что он участвует в эксперименте. Для испытуемого создается проблемная ситуация повышенной сложности, а процедуры и экспериментальное воздействие на которые он реагирует, имеют не только значение стимулов, но играют роль ключевых признаков, используемых испытуемым с целью разгадать намерения экспериментатора. В такой обстановке для испытуемого характерно актерство, настороженность, установка на угадывание, он ощущает себя подопытным кроликом и т. д. Все это нетипично для нормальных школьных условий и, примешиваясь к эффекту X, сильно затрудняем обобщение результатов. Хотя подобные реакции неизбежны, внутренне валидные эксперименты этого типа все равно следует проводить. Но нужно предупреждать по возможности реакцию испытуемых на эксперимент. Тут мы должны отчасти согласиться с критикой экспериментов некоторыми административными работниками в сфере образования и педагогов, говорящих о тщетности «всех этих исследований». Но наша позиция более умеренна: мы призываем не прекратить, а усовершенствовать исследования. Ниже приводятся наши конкретные предложения.
Реакцию на эксперимент может вызвать любой аспект экспериментальной процедуры. Это относится и к процедуре предварительного тестирования (независимо от его содержания), и к его взаимодействию с X. Возможно, оказывает влияние и содержательная сторона процесса тестирования. Процедура рандомизации и распределения испытуемых по режимам эксперимента также может вызывать такую реакцию. Представьте себе, как подействует на класс то, что случайно отобранную половину учеников вдруг отправляют в отдельное помещение (Solomon [104]). Это, да еще появление незнакомых «учителей», конечно, должны вызвать у детей ожидание чего-то необычайного, активное желание
узнать, что же затевается. Аналогичную реакцию может вызвать введение какого-либо экстраординарного X. Предположительно в эксперименте по плану 6 с одним лишь итоговым тестированием подобный эффект может возникнуть при итоговом тестировании, причем вероятность эффекта тем больше, чем очевиднее связь между экспериментальным воздействием и характером тестирования.
Изучая перемены в общественном мнении, очень трудно избежать таких реакций. Но при изучении методов преподавания ученики могут и не подозревать, что идет какой-то эксперимент. (Хорошо было бы, если бы об этом ничего не знали также и учителя, как в случае с двойным слепым экспериментом в медицине, но обычно это неосуществимо.) Эксперимент можно замаскировать следующими приемами. Если Х-ы — это варианты обычных мероприятий в классе, проводимых в соответствующее время и предусмотренных школьной программой, то уже многого можно достигнуть, не оповещая о введении экспериментальных воздействий. Далее, О можно проводить под видом регулярных контрольных работ, и тогда второе требование будет соблюдено. Если X предусматривает индивидуальное общение с испытуемым, то для рандомизированного разбиения класса на эквивалентные подгруппы вовсе не обязательно разводить их по разным комнатам и т. д.
Незаметное осуществление рандомизации является наиболее часто возникающей проблемой. Иногда можно воспользоваться тем, что в колледжах и больших средних школах учащиеся записываются на факультативные курсы, читаемые в разных помещениях в одни и те же часы. Контроль за процессом записи позволяет составлять рандомизированные эквивалентные группы. (Siegel, Siegel [100] показали возможность нетрадиционного использования процесса естественной рандомизации.) Правда, ввиду того, что в каждой группе складываются свои особые условия, группы со временем становятся все менее эквивалентными.
Решением проблемы во всех отношениях является использование в качестве единиц рандомизации целых классов,так что экспериментальная и контрольная группы в результате состоят из случайным образом отобранных классов (см. Lindquist [67, 68]). Обычно — но это
не столь существенно — вначале подбираются классы на основе таких признаков, как школа, учитель (когда один учитель ведет несколько классов), предмет, время дня, средний уровень умственного развития и т. д., а затем эти классы случайным образом распределяются по различным режимам эксперимента. Подобных исследований пока немного, но скоро они должны стать нормой. При проверке значимости эффекта в этом случае нельзя объединять данные по всем учащимся, поскольку не они подлежали рандомизации. Подробно это будет рассмотрено в следующем параграфе.
Наблюдая работу ряда экспериментаторов, которые настолько не ориентированы в жизни школы, что полученные ими результаты прямо-таки вводят в заблуждение, мы постепенно пришли к убеждению, что экспериментальные исследования в школе должны по возможности проводиться силами школьного персонала, особенно когда предполагается распространить полученные результаты на другие аналогичные ситуации.
В настоящее время в школе, видимо, практикуются два вида «экспериментов»: 1) исследования, «навязанные» школе людьми извне, которые преследуют свои собственные цели и не намерены сразу же предлагать школе какой-либо определенной программы действий, и 2) исследования, организованные «инициативными людьми», старающимися сделать так, чтобы сами учителя выступали в роли «экспериментаторов» в широком смысле этого слова. Результаты первого типа исследований могут быть строгими, но не находят применения. Во втором случае результаты непосредственно связаны с практикой, но, вероятно, не «верны», поскольку они получены в условиях полного отсутствия экспериментальной строгости. Альтернативный подход состоял бы в следующем: идеи школьного эксперимента должны исходить от учителей и других работников школы, затем схема исследования, направленного на верификацию этих идей, вырабатывается в ходе их совместной работы со специалистами в области методологии эксперимента, а основная экспериментальная работа проводится самими авторами идей. Соответствующий статистический анализ данных осуществляется специалистом-методологом, который возвращает результаты исследовательской группе через компетентного посредника
(учителя-методиста, руководителя исследований в системе школ и т. д.), постоянно исполняющего эту функцию. Такие результаты будут и нужными, и «правильными». Проблема в том, как направить основные исследования по такому руслу. При наличии компетентного посредника они отошли бы тогда от решения мелких злободневных проблем и приобрели бы большую теоретическую направленность.
Хотя обзор хороших и плохих примеров из литературы не входит в наши намерения, недавнее исследование Пейджа [87] настолько удачно выполнено с точки зрения предотвращения реакции испытуемых на эксперимент, достижения репрезентативности выборок и исключения взаимодействия между тестированием и X, что оно заслуживает упоминания в качестве конкретной иллюстрации оптимальной практики. В этом исследовании показано, что если учитель, проверяя контрольные работы, пишет на полях краткие замечания, то его ученики лучше справляются с такими заданиями в дальнейшем. Этот результат был продемонстрирован на 74 учителях в 12 школьных системах по 6 старшим классам для 5 уровней выполнения (A, B, С, D, F) задания и на самых различных испытуемых. Учителя и классы отбирались в случайном порядке. В качестве предварительных данных использовались результаты самой первой из регулярных контрольных работ, проводившихся в каждом классе. Решение о том, писать свои замечания или нет, учитель принимал в зависимости от результатов бросания особым образом размеченной игральной кости. Следующая по расписанию контрольная работа выполняла роль итогового тестирования. Насколько можно было заключить из дальнейших бесед, ни один из 2139 учеников не знал о проведении эксперимента. Лишь немногие школьные процедуры поддаются такой не вызывающей подозрения рандомизации, так как в классе обычно применяется устная речь, которая адресуется сразу всему классу, а не отдельным ученикам. (Письменное общение обеспечивает возможность рандомизации учеников по различным экспериментальным воздействиям, хотя остается проблемой, что ученики могут обнаружить варьирование воздействия.) Тем не менее, имея в виду сказанное выше, исследователи смогут предупреждать нежелательные
реакции испытуемых на эксперимент в большей мере, чем в настоящее время.
Проверка значимости эффекта в плане 4
Хороший экспериментальный план независим от способа статистической обработки результатов. Планирование эксперимента представляет собой искусство получения поддающихся интерпретации сравнений и как таковое необходимо и тогда, когда конечные результаты выражаются в виде процентных диаграмм, параллельного описания случаев, фотографий испытуемых, занятых выполнением задания, и т. д. Возможность истолкования результатов во всех этих случаях зависит от контроля рассмотренных нами факторов валидности. Если сравнение поддается интерпретации, мы обращаемся к статистической проверке значимости, позволяющей установить, превышает ли наблюдавшееся различие уровень случайных флюктуации, которых можно ожидать для выборок данного объема при отсутствии подлинного различия. Применение этой статистической процедуры предполагает, но не доказывает и не гарантирует сопоставимости сравниваемых групп или возможности истолковать обнаруженное различие.
Нам хотелось бы научить строить план эксперимента на основе здравого смысла и соображений нематематического характера. Надеемся, что большая часть этой книги доступна исследователям, не прошедшим курса подготовки в области математической статистики. Но поскольку вопрос статистической обработки данных тесно связан с планированием эксперимента, мы выскажем некоторые соображения по этому поводу. (См. также Green, Tukey [45], Каisег [56], Nunallу [86], Rozeboom [96].)1.
Распространенные ошибки статистической обработки. Хотя план 4 является стандартным и широко распространенным, даже в этом случае часто применяются неправильные, неполные или не соответствующие задаче статистические процедуры. Применяя обычный критерий
__________________________________________________________________
1 См. также работы по планированию эксперимента и процедурам проверки статистической значимости:
Х и к с Ч. Основные принципы планирования эксперимента. М., «Мир», 1967; Г л а с с Дж., С т э н л и Дж. Статистические методы в педагогике и психологии. М., «Прогресс», 1976. — Прим. ред.
Стьюдента (t-критерий), многие подсчитывают два значения t: одно — для различия в показателях предварительного и итогового тестирования по экспериментальной группе, а другое — для аналогичных результатов по контрольной группе. Если первое значение статистически значимо, а второе нет, то делается вывод о наличии эффекта X без прямого статистического сравнения экспериментальной и контрольной групп. Во многих таких случаях применение более адекватного критерия не обнаружило бы значимого различия между группами (например, когда значение t-критерия чуть выше критического в экспериментальной и почти достигает его в контрольной группе). Уиндл [135] и Кантор [18] показали, насколько распространена эта ошибка.
Использование приращений и ковариационный анализ. Наиболее широко используемая и приемлемая процедура состоит в определении для каждой группы приращения показателей от предварительного тестирования к конечному и вычислении t-критерия для приращений, наблюдавшихся в экспериментальной и контрольной группах. В большинстве случаев, однако, следует предпочесть ковариационный анализ, в котором показатели предварительного тестирования берутся в качестве сопутствующих переменных и которому предшествует процедура формирования рандомизированных блоков или «распределение по уровням» показателей предварительного тестирования. Использование этого более точного анализа представляется весьма желательным. По сравнению с трудом, затраченным на проведение эксперимента, усилия, связанные с надлежащим анализом, просто ничтожны. Детали обработки можно найти в стандартных примерах анализа данных по Фишеру. (См. также Cox [27, 28], Feldt [35], Lindquist [68].)
Статистики для рандомизированного распределения целых групп по режимам эксперимента. Обычные статистики применимы только тогда, когда назначение определенного режима производится в случайном порядке для каждого ученика в отдельности. Когда же режим определяется сразу для целого класса, ошибка, вычисленная согласно этим моделям, будет занижена, так как при рандомизации использовались более крупные единицы и выборка наблюдений содержала меньшее число случайных событий. Линдквист [68, с. 172—189]
предложил обоснование и формулы анализа, адекватного данной ситуации. В качестве исходных данных здесь используются средние значения класса, и эффект X должен быть выделен из колебаний именно этих величин. Они же должны фигурировать в роли сопутствующих переменных при проведении ковариационного анализа.
Статистики достижения внутренней валидности. Первые три пункта этого параграфа выражают ортодоксальную для статистиков установку в отношении планирования эксперимента. В данном разделе делается попытка расширить или скорректировать эту установку, при этом различение внешней и внутренней валидности распространяется на сферу статистики выборочного исследования. Все обсуждавшиеся выше статистики предполагают выборки из бесконечно большой популяции, что больше соответствует изучению общественного мнения, чем обычному лабораторному эксперименту. Лишь в редких случаях (как, например, в работе Пейджа [87]) выборки действительно берутся из большой, заранее определенной популяции, что делает пригодными обычные формулы. Диаметрально противоположны этому лабораторные эксперименты, описываемые, скажем, в «Journal of Experimental Psyhology», в которых принимается во внимание только внутренняя валидность и в которых все члены уникальной малой популяции входят в экспериментальные и контрольные группы. В таких экспериментах большое значение придается рандомизации, но не в целях обеспечения репрезентативности в отношении более широкой популяции. Вместо этого рандомизация служит единственной цели уравнивания экспериментальной и контрольной групп. Таким образом, рандомизация проводится в пределах весьма малой конечной популяции, которая, собственно говоря, есть сумма экспериментальных и контрольных групп.
Эта крайняя позиция в вопросе формирования выборки оправданна применительно к лабораторным процедурам такого типа: приглашаются добровольцы за вознаграждение — за деньги, за оценки, за зачетные очки по данному курсу — или без него, в порядке выполнения обязательных требований, которые рано или поздно все равно пришлось бы выполнить. Эти добровольцы в случайном порядке распределяются по группам, которые по-разному участвуют в эксперименте.
Как только обследовано определенное число испытуемых, эксперимент прекращается. Отсутствует даже случайный отбор из гораздо более длинного списка добровольцев. Первые добровольцы образуют смещенную выборку, а вся популяция, из которой комплектуется выборка, меняется изо дня в день, и требуется все больше усилий, чтобы набрать новых добровольцев, и т. д. В какой-то момент, когда все члены популяции уже использованы в том или ином режиме, процедуру прекращают. Отметим, что смещенность выборок здесь никак не влияет на случайную эквивалентность групп, а сказывается лишь на их репрезентативности.
В целом очевидно, что главная цель рандомизации в лабораторном эксперименте — это внутренняя, а не внешняя валидность. В связи с этим следует пользоваться меньшими значениями ошибки, отвечающими меньшим популяциям. Вслед за Кемпторном [59], а также Уилком и Кемпторном [132] мы считаем, что данной задаче соответствует не извлечение случайных выборок из какой-то бесконечной популяции, а модель урновой рандомизации. В данном случае возможна более подходящая, более точная непараметрическая модель, согласно которой берутся полученные показатели экспериментальной и контрольной групп и многократно распределяются в случайном порядке по двум «урнам». При этом эмпирически (или математически) генерируется распределение средних различий, возникающее целиком за счет случайного расклада этих конкретных показателей. Это распределение является критерием, с которым следует сравн