Тестированием на одной группе

Хотя этот план все еще находит широкое примене­ние в педагогических исследованиях и считается лучше, чем план 1, в тех случаях, когда нет ничего лучшего (см. далее обсуждение квазиэкспериментальных пла­нов), здесь он приводится в качестве «дурного приме­ра» для иллюстрации некоторых примешивающихся к X посторонних факторов, которые могут поставить под угрозу внутреннюю валидность. Эти факторы дают ос­нование для правдоподобных гипотез, объясняющих различие между О1и О2и конкурирующих с гипотезой о том, что причиной этого различия является X:

О1 X О2.

Первой из этих неконтролируемых конкурентных гипотез является фон. Помимо экспериментального воздействия X, между О1и О2может происходить мно­жество других событий, вызывающих изменения. Если предварительное (О1) и итоговое (О2) тестирования проводятся в разные дни, то причиной различия между ними могут оказаться некоторые события, происшедшие в промежутке между тестированиями. Чтобы стать правдоподобной конкурентной гипотезой, такое событие

должно произойти с большинством испытуемых экспериментальной группы, например, в часы совместных занятий или вследствие широко распространившихся известий. В исследовании Колльера [23] (проведенном в 1940 г., а опубликованном в 1944 г.) в то время, когда студенты изучали материалы по нацистской пропаганде. пала Франция, и наблюдавшееся изменение в установках явилось, по-видимому, следствием скорее этого события, чем знакомства с самой по себе пропагандой 1. Чем больше промежуток времени между О1 и О2, тем вероятнее, что фон является правдоподобным конку­рентным объяснением зарегистрированного изменения. Когда же эксперимент длится всего один или два часа, можно считать, что его роль незначительна, хотя и в этом случае надо следить за возможными посторон­ними воздействиями, например возникновением смеха, отвлекающих внимание событий, и т.д. К этой перемен­ной (фону) имеет отношение такое явление, как экспе­риментальная изоляция, которая достигается во многих физических лабораториях в такой мере, что позволяет считать план 2 приемлемым для значительной части исследований в физике. Столь эффективная экспери­ментальная изоляция почти никогда не возможна при исследовании, например, методов обучения. Поэтому в табл. 1, в колонке «фон» для плана 2 стоит знак «ми­нус». Мы относим к фону возможные влияния времени года или событий, возникающих на институциональном уровне, хотя такие влияния можно относить и к есте­ственному развитию. Так, оптимизм может зависеть от времени года, а тревожность — быть связана с прибли­жением экзаменационной сессии (см., например, Сrооk [29]; Windlе [135]). Влияние таких событий на изменение результатов от О1 к О2 может быть ошибоч­но принято за действие X.

Второй конкурентный фактор или класс факторов обозначен как естественное развитие. Здесь этот термин используется для обозначения всех тех биологических или психологических процессов, которые независимо от конкретных внешних событий систематически изменя­ются с течением времени. Так, например, в промежутке

_____________________________________________________________________________________

1 В действительности Колльер использовал более адекватный план, обозначенный в данной системе как план 10.

Тестированием на одной группе - student2.ru

Тестированием на одной группе - student2.ru

Примечание: В таблицах «минус» означает безусловную слабость плана, «плюс» указывает на то, что фактор находится под контролем, вопросительный знак — на возможность некоторых осложнений, а пробел — на иррелевантность фактора.

Мы приводим эти таблицы весьма неохотно, поскольку они могут оказаться «слишком полезными» и применяться вместо более сложного и квалифициро­ванного анализа. Ни один «плюс» или «минус» не должен браться на вооруже­ние, пока читатель не поймет, почему поставлен данный знак. Мы не хотели бы, чтобы эти таблицы вызывали у читателя безотчетный страх перед теми или иными планами или, наоборот, доверие к ним.

между О1 и О2 испытуемые могли стать старше, про­голодаться, устать, их может одолеть скука и т. д., и полученное различие может оказаться следствием этих процессов, а не действия X. При компенсаторном обучении, которому подвергаются исключительно лица

с явными нарушениями развития, за эффект корректи­рующего X может быть ошибочно принят процесс «спон­танной ремиссии», аналогичный затягиванию раны. (Не приходится и говорить, что такую ремиссию нельзя считать «спонтанной» в каком-либо каузальном смысле, точнее, эта ремиссия представляет собой кумулятивный эффект процессов обучения и влияния среды, который проявился бы и без применения X).

Третьим возможным объяснением, могущим быть ис­точником погрешности, является эффект тестирования, то есть влияние предшествующего обследования на результаты последующих. При тестировании интеллекта или уровня знаний испытуемые обычно показывают лучшие результаты при повторном выполнении того же теста или его альтернативной формы по сравнению с лицами, впервые подвергающимися испытанию (см., на­пример, Anastasi [2, с. 190—191]; Cane, Heim, [17]). Для нетренированных испытуемых такое улучшение в среднем на 3—5 единиц по шкале умственного развития (IQ) происходит без каких-либо указаний или инструк­ций по поводу тех пунктов, в которых первый раз была допущена ошибка. Сходное явление отмечено и в иссле­дованиях с применением личностных тестов — повтор­ное использование теста обычно выявляет лучшую при­способленность, хотя иногда наблюдается и весьма значительный обратный эффект (Windle [135]). Применение повторного теста при изучении отношений к национальным меньшинствам может обнаружить большую степень предубежденности, хотя этот эффект выражен незначительно (Rankin, Campbell [91]). Очевидно, на характер результатов оказывают влияние условия анонимности обследования, возрастающая осве­домленность о том, какой ответ более социально прием­лем, и т. д., При исследованиях предрассудков в условиях анонимности уровень адаптации, создаваемый предъявляемыми суждениями, выражающими враждебность, может изменить представления испытуемых о приемлемых установках в сторону большей враждебности. При применении неанонимных вопросников для изучения личностных характеристик и приспособленности первое тестирование приобретает характер проблемной ситуации, в которой испытуемый пытается выявить скрытую роль теста. Когда ему это удается (или после обсужде-

ния со своими друзьями их ответов на некоторые «странные» вопросы), он лучше понимает, как показать себя во второй раз в более выгодном свете.

С проблемой эффекта тестирования связана пробле­ма различных способов измерения реактивности испы­туемого. Эта тема весьма важна для данной работы, и поэтому мы всегда будем подчеркивать желательность применения нереактивных в этом смысле измерений1. В социальных науках давно уже известно, что процесс измерения может сам по себе изменять то, что изме­ряется. Увеличение показателей от предварительного тестирования к итоговому является важным аспектом таких изменений. (Другой аспект — взаимодействие между измерением и X — будет обсуждаться ниже в связи с планом 4. Кроме того, важно избегать возмож­ной реактивности на начальное тестирование даже в тех случаях, когда процедура измерения оказывает различ­ное воздействие на разных испытуемых.) Реактивности можно ожидать во всех тех случаях, когда процесс тестирования сам по себе является скорее стимулом к изменению, чем пассивной регистрацией поведения. Так, например, начальное взвешивание в экспериментах с регулированием веса само по себе, даже без терапев­тического воздействия, может служить стимулом для уменьшения веса. Аналогично этому появление в классе наблюдателя для предварительной оценки умений преподавателя устанавливать и поддерживать межлич­ностные отношения может само по себе изменить стиль поведения преподавателя. Вид подключенного микро­фона может изменить характер группового взаимодей­ствия и т. д. В целом можно ожидать, что, чем более мотивирующим и привлекающим внимание будет про­цесс измерения, тем значительнее могут быть побочные реакции.

Термин инструментальная погрешность, или «дефект инструмента» (Campbell [10]), используется для обозначения четвертой неконтролируемой конкурентной гипотезы. Он относится к автономным изменениям в

_____________________________________________________________________________

1 Проблеме нереактивных измерений в социальных исследова­ниях посвящена работа: W e b b E. J.,

C a m p b e l l D. T., S c h w a r t z R. D., S e c h r e s t L. Unobtrusive measures: Nonreactive research in the social sciences. Chicago, Rand McNally, 1966. — Прим. ред.

измерительных инструментах, которые могут привести к различиям между О1 и О2. Эти изменения аналогичны растяжению или потере упругости в пружинных весах, конденсации в камере Вильсона и т. д. При использова­нии для получения значений О1 и О2наблюдателей их утомление, научение и т. д. приведут к различиям меж­ду О1 и О2. При выставлении оценок за сочинения могут измениться эталоны оценивания при переходе от О1 и О2. (Можно преодолеть этот недостаток, если оценивать сочинения из О1 и О2 в один прием так, что­бы не было известно, какие написаны раньше.) При об­следовании школьных занятий наблюдатели могут стать более опытными или более пресыщенными к моменту повторного тестирования. Если проводится интервьюирование родителей, то причиной отличий дан­ных первого интервью от данных второго может быть лучшее знакомство интервьюера с порядком проведения интервью и с опрашиваемыми. Изменения самого на­блюдателя, происшедшие между О1 и О2, могут при­вести к различиям в результатах наблюдений.

Пятым фактором, примешивающимся к X в некото­рых случаях использования плана 2, является эффект статистической регрессии. Так, если для экспериментов с корректирующим обучением учащиеся выбираются потому, что они показали наихудшие результаты в те­стах достижений (и эти результаты будут для них О1), то последующее тестирование с использованием того же теста или аналогичной его формы покажет, что О2 для этой группы испытуемых почти наверняка будет в сред­нем выше, чем О1.Этот несомненный результат не обу­словлен каким-либо подлинным эффектом X, обучением в ходе тестирования и т. д. Скорее всего, это проявление отсутствия 100%-ной корреляции между О1 и О2. По­скольку ошибки, возникающие вследствие недооценки эффекта регрессии, столь опасны в педагогических ис­следованиях, поскольку понимания сущности этого эф­фекта нет даже у студентов, прошедших более сложный курс современной статистики, и в дальнейшем обсужде­нии (например, плана 10 и анализа ex post facto1) пред­полагается знание этого вопроса, мы изложим здесь эту проблему, хотя и в несколько упрощенной и традиционной форме. На рис. 1 представлены некоторые гипо-

_____________________________________________________________________________

1 После того, как факт произошел (лат).

Тестированием на одной группе - student2.ru

Р и с. 1. Регрессия для предсказания результатов итогового тестирования по данным предварительного тестирования, и на­оборот. 1а. Разброс результатов итогового тестирования для

каждого класса результатов предварительного тестирования, и наоборот.

тетические данные, где коэффициент корреляции между результатами предварительного и итогового тестирова­ния для всей популяции равен 0,50 при одном и том же среднем и одинаковой дисперсии по группе. (Данные подобраны таким образом, чтобы расположение значе­ний по столбцам и строкам было легко обозримым. Зна­чение коэффициента 0,50 также выбрано по соображе­ниям удобства.) В этом гипотетическом примере нет подлинного изменения, но, как обычно, ретестная корре­ляция показателей теста значительно меньше единицы. Если, как в приведенном примере, мы будем сравнивать с данными итогового тестирования только результаты тех учащихся, которые получили при первом тестирова­нии самые низкие оценки — к примеру 7,— то обнару­жим, что, хотя результаты этих учеников имеют опреде­ленный разброс, в целом они выше и в среднем «приб­лизились» к среднегрупповым данным на половину отрез­ка, отделявшего их от среднего по группе (поскольку коэффициент регрессии или корреляции составляет 0,50), и равны теперь 8,5. Однако это вовсе не свиде­тельствует о реальном прогрессе, а является лишь тав­тологическим, хотя и специфическим, подтверждением факта отсутствия полной корреляции.

Поскольку между первым и вторым тестированием прошло определенное время, и произошли некоторые события, возникает искушение связать это изменение с естественным течением времени. Но ведь в данном случае возможно и рассуждение в обратном направле­нии: выделим тех, кто при втором тестировании полу­чил 7 очков, и посмотрим на их результаты при началь­ном тестировании. Мы обнаружим, что показатели вна­чале были более высокими. К наибольшим ошибкам при попытках определения причинных связей ведет представление данных, показанное на рис. 16 (это отно­сится как к верхней, так и к нижней части рис. 1б). Здесь все выглядит так, будто умные стали глупее, а глупые — умнее, что могло бы быть результатом дей­ствия институциональных факторов, приводящих к ни­велированию и гомогенизации. Если бы такое представ­ление соответствовало фактическому положению, то разброс данных последующего тестирования был бы ниже, чем предварительного, но в действительности он в обоих случаях одинаков. Более того, если бы мы нача-

ли свой анализ с подгруппы, однородной в отношении результатов последующего тестирования, например с линии регрессии с и рис. 1в, то пришли бы к противоположному выводу. Как отмечал Мак-Нимар [75], для предупреждения такого рода ошибок интерпретации полезно провести реверсивный контрольный анализ и обратиться непосредственно к данным об изменениях вариабельности в популяции.

Мы можем рассматривать регрессию в направлении средних значений и несколько по-другому. Чем сильнее отклоняется оценка от среднего значения, тем больше вероятность того, что она связана с ошибкой измерения. Так, как правило, получающему самые высокие оценки в некотором смысле необычайно «везет» (большая по­зитивная ошибка), а получающему самые низкие оценки «не везет» (большая негативная ошибка). Но везение — вещь капризная, и мы вправе ожидать, что при последующем тестировании показатели тех, кто получил высокие оценки, несколько сдвинутся к средне­му по группе, а получившие низкие оценки улучшат свои позиции. (Та же логика действительна и в том случае, если мы начнем с анализа данных итогового тестирова­ния и обратимся затем к данным предварительного тестирования.)

Регрессия в направлении среднего — широко распро­страненное явление, и она связана не только с исследо­ваниями, в которых тест применяется повторно (или используются его эквивалентные формы). Директор, ко­торый обнаружит, что учащиеся с самыми высокими показателями IQ получают не самые высокие (хотя и достаточно высокие) оценки в тестах достижений, тогда как учащиеся с наиболее низким коэффициентом умст­венного развития обычно обнаруживают не самые низ­кие (хотя и довольно низкие) результаты в тестах до­стижений, и на этом основании решит, что в его школе недооценивают наиболее способных учеников и пере­оценивают неспособных, был бы введен в заблуждение именно этим фактом регрессии. Столь же нелогичным был бы и противоположный вывод, основанный на сравнении показателей групп учащихся, подобранных на основе наивысших и самых низких оценок в тестах достижения, с их показателями в тесте умственного раз­вития.

Хотя проблемы регрессии обсуждались здесь в связи с ошибками измерения, в более широком плане эффект регрессии является функцией степени корреляции: чем ниже корреляция, тем в большей степени выражена регрессия к среднему. Отсутствие полной корреляции данных может быть вызвано как «ошибками», так и систематическими источниками дисперсии, характерны­ми для того или иного количественного показателя.

Поэтому для групп, подобранных на основе крайних показателей, неполная корреляция результатов предва­рительного и итогового тестирования неизбежно сопро­вождается эффектами регрессии. Однако эти эффекты возникают не всегда, когда мы встречаемся с экстре­мальными показателями. Если средний показатель груп­пы, сформированной по независимым основаниям, ока­жется экстремальным, то в этом случае меньше априор­ных оснований ожидать, что среднее группы будет регрессировать при повторном измерении, так как слу­чайные или посторонние источники дисперсии могут вызывать смещение исходных показателей в обоих направлениях. Другое дело, если группа подобрана на основании крайних показателей по переменной, подвер­женной ошибкам. Ее экстремальность является арте­фактом, и она регрессирует в сторону среднего той по­пуляции, из которой была выбрана данная группа.

Более косвенные эффекты регрессии могут быть вы­званы отбором по другим экстремальным показателям, а не по данным предварительного тестирования. Рас­смотрим случай, когда учащиеся, которые «провалились» на контрольной, отбираются в группу эксперименталь­ного обучения. Начальное тестирование проводилось с помощью «Формы А» стандартного теста достижений, а при повторном тестировании применяется «Форма В». Вполне вероятно, что результаты контрольной имеют более высокую корреляцию с результатами почти од­новременно используемой «Формы А», чем с результа­тами, полученными при предъявлении после трехме­сячного перерыва «Формы В» (если тест предлагается каждый раз всему классу). Чем выше степень корре­ляции, тем меньше регрессия к среднему. Таким обра­зом, при проведении предварительного тестирования оценки неудачников смещаются к среднему в меньшей степени, чем при проведении итогового тестирования,

что может создать ошибочное впечатление успешного влияния корректирующего обучения. (Для более деталь­ного изучения этой проблемы см.: Lord [70, 71]; McNemar [77]; R. L. Thorndike [125]).

На этом мы закончим перечень недостатков плана 2, которые уместно рассмотреть на данном этапе. Если обратиться к табл. 1, то можно обнаружить еще один минус, относящийся к внутренней валидности и связан­ный с фактором, который мы будем рассматривать при обсуждении плана 10 в разделе о квазиэксперименталь­ных планах, и два недостатка, относящиеся к внешней валидности, которые будут рассмотрены при обсужде­нии плана 4.

Сравнение статических групп

Третий доэкспериментальный план, который мы ис­пользуем при обсуждении источников невалидности,— это сравнение статических групп. Это план, где для установления эффекта X группа, подвергающаяся воз­действию X, сравнивается с группой, не испытавшей такого воздействия:

X О1 .

О2

Примерами такого рода исследований могут служить сравнение школ, в которых от преподавателя требуется наличие степени бакалавра (X), с теми школами, где не предъявляется такое требование; сравнение учащих­ся, прошедших курс обучения скоростному чтению, с теми, кто не проходил такого курса; сравнение тех, кто смотрел определенную телевизионную программу, с теми, кто не смотрел ее, и т. д. В отличие от «истин­ного» эксперимента, представленного планом 6, в этих примерах использования плана 3 отсутствуют какие-ли­бо формальные средства, удостоверяющие, что сравни­ваемые группы были бы эквивалентными без X. Отсутствие эквивалентности обозначается на схеме пунктирной линией, разделяющей две группы, и говорит о том, что необходим контроль за фактором отбора, или состава группы. Если О1 и О2 различны, это различие может быть обусловлено различием способов отбора

испытуемых в группы: группы могли бы, так или иначе, отличаться и при отсутствии X. Как будет показано ниже (при анализе плана ex post facto), попарное уравнивание на основе характеристик, отличных от О, не дает желательных результатов, оно обычно неэффек­тивно и вводит в заблуждение, особенно в тех случаях, когда испытуемые «экспериментальной группы» стре­мятся подвергнуться воздействию X.

Последняя соперничающая переменная может быть обозначена как выбывание. Она связана с возникнове­нием различий О1 — О2 в группах в результате различ­ного выбывания испытуемых из сравниваемых групп. Так, даже если бы в плане 3 две группы и были когда-то эквивалентны, к моменту проведения сравнения они могут отличаться, но не по причине каких-либо измене­ний, происшедших с членами групп, а по причине се­лективного выбывания испытуемых из одной группы. В педагогических исследованиях с этой проблемой чаще всего сталкиваются в работах, цель которых — устано­вить влияние обучения в колледже путем сравнения характеристик новичков, не подвергавшихся воздей­ствию X, ивыпускников, подвергавшихся такому воз­действию. Если в подобных исследованиях устанавли­вается, что, к примеру, вновь поступившие девушки более красивы, чем выпускницы, то мы воздержимся от вывода, что наш суровый способ обучения пагубно влияет на красоту, а скорее осмелимся утверждать, что красивые девушки чаще выбывают из колледжа до завершения обучения в связи с замужеством. Это явле­ние обозначается здесь как экспериментальное выбыва­ние. (Конечно, если бы мы сравнивали тех же самых девушек, когда они поступили и когда они окончили колледж, такая проблема не возникла бы, и мы имели бы дело с планом 2.)

ТРИ ИСТИННЫХ ЭКСПЕРИМЕНТАЛЬНЫХ ПЛАНА

Три основных плана, которые будут рассматриваться в данном разделе, обычно и рекомендуются в методоло­гической литературе. Мы также рекомендуем использо­вать в первую очередь именно эти планы, хотя это свя­зано со многими конкретными ограничениями, налагае-

мыми обычной практикой, и хотя эти планы не всегда обеспечивают внешнюю валидность (см. табл. 1). Чаще всего используется план 4, поэтому ему и уделено наи­большее внимание. Надо отметить, что все три плана представлены так, как будто отдельное воздействие X уравнивается с отсутствием X. Планы, которые в соот­ветствии с фишеровской традицией многофакторного планирования эксперимента предполагают несколько не­зависимых переменных, не имеют прямого отношения к основной теме данного раздела и будут обсуждаться в оконце раздела после рассмотрения плана 6. Но в связи с этим необходимо отметить здесь, что сравнение X сбез X является очень сильным упрощением. Фактически всегда проводится сравнение экспериментальной груп­пы, которая подвергается воздействию X, с контрольной группой, которая в это время осуществляет какую-то конкретную деятельность. А это значит, что можно гово­рить скорее о сравнении Х1и Хc,или Х1и Х0,или Х1и Х2. Такая деятельность контрольной группы часто является не установленным точно дополнением и создает неопре­деленность при интерпретации воздействия X. Имея это в виду, мы, тем не менее, и в дальнейшем изложении бу­дем пользоваться обозначением без X для контрольной группы.

4. План с предварительным

И итоговым тестированиями

И контрольной группой

Наши рекомендации