Тестированием на одной группе
Хотя этот план все еще находит широкое применение в педагогических исследованиях и считается лучше, чем план 1, в тех случаях, когда нет ничего лучшего (см. далее обсуждение квазиэкспериментальных планов), здесь он приводится в качестве «дурного примера» для иллюстрации некоторых примешивающихся к X посторонних факторов, которые могут поставить под угрозу внутреннюю валидность. Эти факторы дают основание для правдоподобных гипотез, объясняющих различие между О1и О2и конкурирующих с гипотезой о том, что причиной этого различия является X:
О1 X О2.
Первой из этих неконтролируемых конкурентных гипотез является фон. Помимо экспериментального воздействия X, между О1и О2может происходить множество других событий, вызывающих изменения. Если предварительное (О1) и итоговое (О2) тестирования проводятся в разные дни, то причиной различия между ними могут оказаться некоторые события, происшедшие в промежутке между тестированиями. Чтобы стать правдоподобной конкурентной гипотезой, такое событие
должно произойти с большинством испытуемых экспериментальной группы, например, в часы совместных занятий или вследствие широко распространившихся известий. В исследовании Колльера [23] (проведенном в 1940 г., а опубликованном в 1944 г.) в то время, когда студенты изучали материалы по нацистской пропаганде. пала Франция, и наблюдавшееся изменение в установках явилось, по-видимому, следствием скорее этого события, чем знакомства с самой по себе пропагандой 1. Чем больше промежуток времени между О1 и О2, тем вероятнее, что фон является правдоподобным конкурентным объяснением зарегистрированного изменения. Когда же эксперимент длится всего один или два часа, можно считать, что его роль незначительна, хотя и в этом случае надо следить за возможными посторонними воздействиями, например возникновением смеха, отвлекающих внимание событий, и т.д. К этой переменной (фону) имеет отношение такое явление, как экспериментальная изоляция, которая достигается во многих физических лабораториях в такой мере, что позволяет считать план 2 приемлемым для значительной части исследований в физике. Столь эффективная экспериментальная изоляция почти никогда не возможна при исследовании, например, методов обучения. Поэтому в табл. 1, в колонке «фон» для плана 2 стоит знак «минус». Мы относим к фону возможные влияния времени года или событий, возникающих на институциональном уровне, хотя такие влияния можно относить и к естественному развитию. Так, оптимизм может зависеть от времени года, а тревожность — быть связана с приближением экзаменационной сессии (см., например, Сrооk [29]; Windlе [135]). Влияние таких событий на изменение результатов от О1 к О2 может быть ошибочно принято за действие X.
Второй конкурентный фактор или класс факторов обозначен как естественное развитие. Здесь этот термин используется для обозначения всех тех биологических или психологических процессов, которые независимо от конкретных внешних событий систематически изменяются с течением времени. Так, например, в промежутке
_____________________________________________________________________________________
1 В действительности Колльер использовал более адекватный план, обозначенный в данной системе как план 10.
Примечание: В таблицах «минус» означает безусловную слабость плана, «плюс» указывает на то, что фактор находится под контролем, вопросительный знак — на возможность некоторых осложнений, а пробел — на иррелевантность фактора.
Мы приводим эти таблицы весьма неохотно, поскольку они могут оказаться «слишком полезными» и применяться вместо более сложного и квалифицированного анализа. Ни один «плюс» или «минус» не должен браться на вооружение, пока читатель не поймет, почему поставлен данный знак. Мы не хотели бы, чтобы эти таблицы вызывали у читателя безотчетный страх перед теми или иными планами или, наоборот, доверие к ним.
между О1 и О2 испытуемые могли стать старше, проголодаться, устать, их может одолеть скука и т. д., и полученное различие может оказаться следствием этих процессов, а не действия X. При компенсаторном обучении, которому подвергаются исключительно лица
с явными нарушениями развития, за эффект корректирующего X может быть ошибочно принят процесс «спонтанной ремиссии», аналогичный затягиванию раны. (Не приходится и говорить, что такую ремиссию нельзя считать «спонтанной» в каком-либо каузальном смысле, точнее, эта ремиссия представляет собой кумулятивный эффект процессов обучения и влияния среды, который проявился бы и без применения X).
Третьим возможным объяснением, могущим быть источником погрешности, является эффект тестирования, то есть влияние предшествующего обследования на результаты последующих. При тестировании интеллекта или уровня знаний испытуемые обычно показывают лучшие результаты при повторном выполнении того же теста или его альтернативной формы по сравнению с лицами, впервые подвергающимися испытанию (см., например, Anastasi [2, с. 190—191]; Cane, Heim, [17]). Для нетренированных испытуемых такое улучшение в среднем на 3—5 единиц по шкале умственного развития (IQ) происходит без каких-либо указаний или инструкций по поводу тех пунктов, в которых первый раз была допущена ошибка. Сходное явление отмечено и в исследованиях с применением личностных тестов — повторное использование теста обычно выявляет лучшую приспособленность, хотя иногда наблюдается и весьма значительный обратный эффект (Windle [135]). Применение повторного теста при изучении отношений к национальным меньшинствам может обнаружить большую степень предубежденности, хотя этот эффект выражен незначительно (Rankin, Campbell [91]). Очевидно, на характер результатов оказывают влияние условия анонимности обследования, возрастающая осведомленность о том, какой ответ более социально приемлем, и т. д., При исследованиях предрассудков в условиях анонимности уровень адаптации, создаваемый предъявляемыми суждениями, выражающими враждебность, может изменить представления испытуемых о приемлемых установках в сторону большей враждебности. При применении неанонимных вопросников для изучения личностных характеристик и приспособленности первое тестирование приобретает характер проблемной ситуации, в которой испытуемый пытается выявить скрытую роль теста. Когда ему это удается (или после обсужде-
ния со своими друзьями их ответов на некоторые «странные» вопросы), он лучше понимает, как показать себя во второй раз в более выгодном свете.
С проблемой эффекта тестирования связана проблема различных способов измерения реактивности испытуемого. Эта тема весьма важна для данной работы, и поэтому мы всегда будем подчеркивать желательность применения нереактивных в этом смысле измерений1. В социальных науках давно уже известно, что процесс измерения может сам по себе изменять то, что измеряется. Увеличение показателей от предварительного тестирования к итоговому является важным аспектом таких изменений. (Другой аспект — взаимодействие между измерением и X — будет обсуждаться ниже в связи с планом 4. Кроме того, важно избегать возможной реактивности на начальное тестирование даже в тех случаях, когда процедура измерения оказывает различное воздействие на разных испытуемых.) Реактивности можно ожидать во всех тех случаях, когда процесс тестирования сам по себе является скорее стимулом к изменению, чем пассивной регистрацией поведения. Так, например, начальное взвешивание в экспериментах с регулированием веса само по себе, даже без терапевтического воздействия, может служить стимулом для уменьшения веса. Аналогично этому появление в классе наблюдателя для предварительной оценки умений преподавателя устанавливать и поддерживать межличностные отношения может само по себе изменить стиль поведения преподавателя. Вид подключенного микрофона может изменить характер группового взаимодействия и т. д. В целом можно ожидать, что, чем более мотивирующим и привлекающим внимание будет процесс измерения, тем значительнее могут быть побочные реакции.
Термин инструментальная погрешность, или «дефект инструмента» (Campbell [10]), используется для обозначения четвертой неконтролируемой конкурентной гипотезы. Он относится к автономным изменениям в
_____________________________________________________________________________
1 Проблеме нереактивных измерений в социальных исследованиях посвящена работа: W e b b E. J.,
C a m p b e l l D. T., S c h w a r t z R. D., S e c h r e s t L. Unobtrusive measures: Nonreactive research in the social sciences. Chicago, Rand McNally, 1966. — Прим. ред.
измерительных инструментах, которые могут привести к различиям между О1 и О2. Эти изменения аналогичны растяжению или потере упругости в пружинных весах, конденсации в камере Вильсона и т. д. При использовании для получения значений О1 и О2наблюдателей их утомление, научение и т. д. приведут к различиям между О1 и О2. При выставлении оценок за сочинения могут измениться эталоны оценивания при переходе от О1 и О2. (Можно преодолеть этот недостаток, если оценивать сочинения из О1 и О2 в один прием так, чтобы не было известно, какие написаны раньше.) При обследовании школьных занятий наблюдатели могут стать более опытными или более пресыщенными к моменту повторного тестирования. Если проводится интервьюирование родителей, то причиной отличий данных первого интервью от данных второго может быть лучшее знакомство интервьюера с порядком проведения интервью и с опрашиваемыми. Изменения самого наблюдателя, происшедшие между О1 и О2, могут привести к различиям в результатах наблюдений.
Пятым фактором, примешивающимся к X в некоторых случаях использования плана 2, является эффект статистической регрессии. Так, если для экспериментов с корректирующим обучением учащиеся выбираются потому, что они показали наихудшие результаты в тестах достижений (и эти результаты будут для них О1), то последующее тестирование с использованием того же теста или аналогичной его формы покажет, что О2 для этой группы испытуемых почти наверняка будет в среднем выше, чем О1.Этот несомненный результат не обусловлен каким-либо подлинным эффектом X, обучением в ходе тестирования и т. д. Скорее всего, это проявление отсутствия 100%-ной корреляции между О1 и О2. Поскольку ошибки, возникающие вследствие недооценки эффекта регрессии, столь опасны в педагогических исследованиях, поскольку понимания сущности этого эффекта нет даже у студентов, прошедших более сложный курс современной статистики, и в дальнейшем обсуждении (например, плана 10 и анализа ex post facto1) предполагается знание этого вопроса, мы изложим здесь эту проблему, хотя и в несколько упрощенной и традиционной форме. На рис. 1 представлены некоторые гипо-
_____________________________________________________________________________
1 После того, как факт произошел (лат).
Р и с. 1. Регрессия для предсказания результатов итогового тестирования по данным предварительного тестирования, и наоборот. 1а. Разброс результатов итогового тестирования для
каждого класса результатов предварительного тестирования, и наоборот.
тетические данные, где коэффициент корреляции между результатами предварительного и итогового тестирования для всей популяции равен 0,50 при одном и том же среднем и одинаковой дисперсии по группе. (Данные подобраны таким образом, чтобы расположение значений по столбцам и строкам было легко обозримым. Значение коэффициента 0,50 также выбрано по соображениям удобства.) В этом гипотетическом примере нет подлинного изменения, но, как обычно, ретестная корреляция показателей теста значительно меньше единицы. Если, как в приведенном примере, мы будем сравнивать с данными итогового тестирования только результаты тех учащихся, которые получили при первом тестировании самые низкие оценки — к примеру 7,— то обнаружим, что, хотя результаты этих учеников имеют определенный разброс, в целом они выше и в среднем «приблизились» к среднегрупповым данным на половину отрезка, отделявшего их от среднего по группе (поскольку коэффициент регрессии или корреляции составляет 0,50), и равны теперь 8,5. Однако это вовсе не свидетельствует о реальном прогрессе, а является лишь тавтологическим, хотя и специфическим, подтверждением факта отсутствия полной корреляции.
Поскольку между первым и вторым тестированием прошло определенное время, и произошли некоторые события, возникает искушение связать это изменение с естественным течением времени. Но ведь в данном случае возможно и рассуждение в обратном направлении: выделим тех, кто при втором тестировании получил 7 очков, и посмотрим на их результаты при начальном тестировании. Мы обнаружим, что показатели вначале были более высокими. К наибольшим ошибкам при попытках определения причинных связей ведет представление данных, показанное на рис. 16 (это относится как к верхней, так и к нижней части рис. 1б). Здесь все выглядит так, будто умные стали глупее, а глупые — умнее, что могло бы быть результатом действия институциональных факторов, приводящих к нивелированию и гомогенизации. Если бы такое представление соответствовало фактическому положению, то разброс данных последующего тестирования был бы ниже, чем предварительного, но в действительности он в обоих случаях одинаков. Более того, если бы мы нача-
ли свой анализ с подгруппы, однородной в отношении результатов последующего тестирования, например с линии регрессии с и рис. 1в, то пришли бы к противоположному выводу. Как отмечал Мак-Нимар [75], для предупреждения такого рода ошибок интерпретации полезно провести реверсивный контрольный анализ и обратиться непосредственно к данным об изменениях вариабельности в популяции.
Мы можем рассматривать регрессию в направлении средних значений и несколько по-другому. Чем сильнее отклоняется оценка от среднего значения, тем больше вероятность того, что она связана с ошибкой измерения. Так, как правило, получающему самые высокие оценки в некотором смысле необычайно «везет» (большая позитивная ошибка), а получающему самые низкие оценки «не везет» (большая негативная ошибка). Но везение — вещь капризная, и мы вправе ожидать, что при последующем тестировании показатели тех, кто получил высокие оценки, несколько сдвинутся к среднему по группе, а получившие низкие оценки улучшат свои позиции. (Та же логика действительна и в том случае, если мы начнем с анализа данных итогового тестирования и обратимся затем к данным предварительного тестирования.)
Регрессия в направлении среднего — широко распространенное явление, и она связана не только с исследованиями, в которых тест применяется повторно (или используются его эквивалентные формы). Директор, который обнаружит, что учащиеся с самыми высокими показателями IQ получают не самые высокие (хотя и достаточно высокие) оценки в тестах достижений, тогда как учащиеся с наиболее низким коэффициентом умственного развития обычно обнаруживают не самые низкие (хотя и довольно низкие) результаты в тестах достижений, и на этом основании решит, что в его школе недооценивают наиболее способных учеников и переоценивают неспособных, был бы введен в заблуждение именно этим фактом регрессии. Столь же нелогичным был бы и противоположный вывод, основанный на сравнении показателей групп учащихся, подобранных на основе наивысших и самых низких оценок в тестах достижения, с их показателями в тесте умственного развития.
Хотя проблемы регрессии обсуждались здесь в связи с ошибками измерения, в более широком плане эффект регрессии является функцией степени корреляции: чем ниже корреляция, тем в большей степени выражена регрессия к среднему. Отсутствие полной корреляции данных может быть вызвано как «ошибками», так и систематическими источниками дисперсии, характерными для того или иного количественного показателя.
Поэтому для групп, подобранных на основе крайних показателей, неполная корреляция результатов предварительного и итогового тестирования неизбежно сопровождается эффектами регрессии. Однако эти эффекты возникают не всегда, когда мы встречаемся с экстремальными показателями. Если средний показатель группы, сформированной по независимым основаниям, окажется экстремальным, то в этом случае меньше априорных оснований ожидать, что среднее группы будет регрессировать при повторном измерении, так как случайные или посторонние источники дисперсии могут вызывать смещение исходных показателей в обоих направлениях. Другое дело, если группа подобрана на основании крайних показателей по переменной, подверженной ошибкам. Ее экстремальность является артефактом, и она регрессирует в сторону среднего той популяции, из которой была выбрана данная группа.
Более косвенные эффекты регрессии могут быть вызваны отбором по другим экстремальным показателям, а не по данным предварительного тестирования. Рассмотрим случай, когда учащиеся, которые «провалились» на контрольной, отбираются в группу экспериментального обучения. Начальное тестирование проводилось с помощью «Формы А» стандартного теста достижений, а при повторном тестировании применяется «Форма В». Вполне вероятно, что результаты контрольной имеют более высокую корреляцию с результатами почти одновременно используемой «Формы А», чем с результатами, полученными при предъявлении после трехмесячного перерыва «Формы В» (если тест предлагается каждый раз всему классу). Чем выше степень корреляции, тем меньше регрессия к среднему. Таким образом, при проведении предварительного тестирования оценки неудачников смещаются к среднему в меньшей степени, чем при проведении итогового тестирования,
что может создать ошибочное впечатление успешного влияния корректирующего обучения. (Для более детального изучения этой проблемы см.: Lord [70, 71]; McNemar [77]; R. L. Thorndike [125]).
На этом мы закончим перечень недостатков плана 2, которые уместно рассмотреть на данном этапе. Если обратиться к табл. 1, то можно обнаружить еще один минус, относящийся к внутренней валидности и связанный с фактором, который мы будем рассматривать при обсуждении плана 10 в разделе о квазиэкспериментальных планах, и два недостатка, относящиеся к внешней валидности, которые будут рассмотрены при обсуждении плана 4.
Сравнение статических групп
Третий доэкспериментальный план, который мы используем при обсуждении источников невалидности,— это сравнение статических групп. Это план, где для установления эффекта X группа, подвергающаяся воздействию X, сравнивается с группой, не испытавшей такого воздействия:
X О1 .
О2
Примерами такого рода исследований могут служить сравнение школ, в которых от преподавателя требуется наличие степени бакалавра (X), с теми школами, где не предъявляется такое требование; сравнение учащихся, прошедших курс обучения скоростному чтению, с теми, кто не проходил такого курса; сравнение тех, кто смотрел определенную телевизионную программу, с теми, кто не смотрел ее, и т. д. В отличие от «истинного» эксперимента, представленного планом 6, в этих примерах использования плана 3 отсутствуют какие-либо формальные средства, удостоверяющие, что сравниваемые группы были бы эквивалентными без X. Отсутствие эквивалентности обозначается на схеме пунктирной линией, разделяющей две группы, и говорит о том, что необходим контроль за фактором отбора, или состава группы. Если О1 и О2 различны, это различие может быть обусловлено различием способов отбора
испытуемых в группы: группы могли бы, так или иначе, отличаться и при отсутствии X. Как будет показано ниже (при анализе плана ex post facto), попарное уравнивание на основе характеристик, отличных от О, не дает желательных результатов, оно обычно неэффективно и вводит в заблуждение, особенно в тех случаях, когда испытуемые «экспериментальной группы» стремятся подвергнуться воздействию X.
Последняя соперничающая переменная может быть обозначена как выбывание. Она связана с возникновением различий О1 — О2 в группах в результате различного выбывания испытуемых из сравниваемых групп. Так, даже если бы в плане 3 две группы и были когда-то эквивалентны, к моменту проведения сравнения они могут отличаться, но не по причине каких-либо изменений, происшедших с членами групп, а по причине селективного выбывания испытуемых из одной группы. В педагогических исследованиях с этой проблемой чаще всего сталкиваются в работах, цель которых — установить влияние обучения в колледже путем сравнения характеристик новичков, не подвергавшихся воздействию X, ивыпускников, подвергавшихся такому воздействию. Если в подобных исследованиях устанавливается, что, к примеру, вновь поступившие девушки более красивы, чем выпускницы, то мы воздержимся от вывода, что наш суровый способ обучения пагубно влияет на красоту, а скорее осмелимся утверждать, что красивые девушки чаще выбывают из колледжа до завершения обучения в связи с замужеством. Это явление обозначается здесь как экспериментальное выбывание. (Конечно, если бы мы сравнивали тех же самых девушек, когда они поступили и когда они окончили колледж, такая проблема не возникла бы, и мы имели бы дело с планом 2.)
ТРИ ИСТИННЫХ ЭКСПЕРИМЕНТАЛЬНЫХ ПЛАНА
Три основных плана, которые будут рассматриваться в данном разделе, обычно и рекомендуются в методологической литературе. Мы также рекомендуем использовать в первую очередь именно эти планы, хотя это связано со многими конкретными ограничениями, налагае-
мыми обычной практикой, и хотя эти планы не всегда обеспечивают внешнюю валидность (см. табл. 1). Чаще всего используется план 4, поэтому ему и уделено наибольшее внимание. Надо отметить, что все три плана представлены так, как будто отдельное воздействие X уравнивается с отсутствием X. Планы, которые в соответствии с фишеровской традицией многофакторного планирования эксперимента предполагают несколько независимых переменных, не имеют прямого отношения к основной теме данного раздела и будут обсуждаться в оконце раздела после рассмотрения плана 6. Но в связи с этим необходимо отметить здесь, что сравнение X сбез X является очень сильным упрощением. Фактически всегда проводится сравнение экспериментальной группы, которая подвергается воздействию X, с контрольной группой, которая в это время осуществляет какую-то конкретную деятельность. А это значит, что можно говорить скорее о сравнении Х1и Хc,или Х1и Х0,или Х1и Х2. Такая деятельность контрольной группы часто является не установленным точно дополнением и создает неопределенность при интерпретации воздействия X. Имея это в виду, мы, тем не менее, и в дальнейшем изложении будем пользоваться обозначением без X для контрольной группы.
4. План с предварительным
И итоговым тестированиями
И контрольной группой