И тестирования, осуществляемого
Только после воздействия
Хотя идея предварительного тестирования глубоко проникла в сознание исследователей, работающих в области педагогики и психологии, оно не является неотъемлемой частью истинного эксперимента. По причинам психологического порядка трудно отказаться от того,
чтобы удостовериться в «равенстве» экспериментальной и контрольной групп до введения дифференцированного режима эксперимента. Тем не менее, наиболее адекватной во всех отношениях гарантией отсутствия изначального смещения между группами является рандомизация. В рамках доверительных пределов, устанавливаемых статистической моделью, рандомизации достаточно и без предварительного тестирования. Фактически почти все агробиологические эксперименты, выдержанные в традициях работ Фишера [37, 38], выполнены без предварительного тестирования. Проводя педагогические исследования, особенно в младших классах, часто приходится испытывать методы изложения ученикам совершенно нового учебного материала, и в этой обстановке предварительное тестирование в обычном смысле слова невозможно. Точно так же при исследовании влияния доводов адвокатов на решение присяжных неуместно определять априорные оценки виновности или невиновности подсудимого. Схема 6 годится для этих случаев, а также для тех, в которых можно было бы применить планы 4 или 5, позволяющие производить подлинную рандомизацию. Вот как выглядит план 6:
R X O1
R O2.
Хотя этот план применялся еще в 20-х годах, он не рекомендуется большинством руководств по методам исследования в педагогике. Причина этого отчасти в неумении отличить его от плана 3, а отчасти в недоверии к рандомизации как средству уравнивания. Этот план представляет собой как бы половину плана Соломона, и, как нетрудно видеть, в нем контролируется как главный эффект тестирования, так и его взаимодействие с X, но в отличие от плана 5 они не измеряются. Однако такое измерение несущественно для решения центрального вопроса о наличии эффекта X. Таким образом, хотя план 5 предпочтительнее плана 6 по упомянутым причинам, выигрыш от плана 5 может не стоить большого труда, затрачиваемого на его реализацию. Аналогично план 6 обычно лучше плана 4, если только нет оснований сомневаться в подлинности рандомизации. Эксперимент типа 6 слишком редко применяется в педагогике и психологии.
Если, как это часто бывает при проведении педагогических исследований, доступны данные, полученные до введения X, ими, разумеется, следует воспользоваться формирования блоков, определения факторных уровней или как сопутствующими переменными. Этот совет основан на двух соображениях. Во-первых, статистические модели, соответствующие плану 4, обладают большей мощностью, чем те, которые применимы для плана 6. Хотя значительные усилия, необходимые для реализации плана 4, в большинстве ситуаций делают подобный выигрыш неоправданным, положение меняется, когда нужные исходные показатели «лежат на поверхности». Во-вторых, доступность таких показателей позволяет проверить наличие взаимодействия X сначальным уровнем и тем самым составить более полное представление о возможности обобщения результатов. Правда, нечто подобное может быть выполнено и в рамках плана 6, если вместо предварительного тестирования воспользоваться другими имеющимися данными. Кроме того, для генеральной совокупности, на которую предполагается распространять выводы педагогического исследования, характерно частое тестирование. Последние два обстоятельства могут изменить ситуацию, делая план 6 предпочтительнее плана 4. Отметим также, что при заметном выбывании испытуемых между R и итоговым тестированием исходные данные в плане 4 обеспечивают больше возможностей для отклонения гипотезы о влиянии на эффект неравномерности выбывания из экспериментальной и контрольной групп.
Как бы то ни было, существует ряд проблем, применительно к которым предварительное тестирование невозможно, неуместно или легко провоцирует нежелательную реакцию испытуемых; для исследования этих проблем более приемлем план 6. Кроме упомянутого ранее изучения способов подачи нового учебного материала, можно привести много примеров, когда: 1) Х и итоговое тестирование О могут быть предъявлены учащимся или группам естественным образом в единой композиции и 2) предварительное тестирование нельзя провести должным образом. Такие ситуации часто возникают при исследовании самой процедуры тестирования — например, при сравнении эффективности различ-
ных инструкций, бланков для регистрации ответов и т. д. Это относится и к сравнению эффективности обращений о наборе добровольцев и т. д. Когда необходимо сохранить анонимность респондентов, удобнее других оказывается план 6. В таких случаях рандомизация достигается путем перетасовки материалов, подлежащих распределению среди респондентов.
Статистические модели для плана 6
Простейший способ обработки — это применение t-критерия. План 6, пожалуй, единственный, для которого он оптимален. Однако ковариационный анализ и формирование блоков по таким исходным показателям испытуемых (Underwood [129]), как успеваемость, оценки в тестах, профессия родителей и т. д., позволяют повысить мощность статистической процедуры примерно до того же уровня, что и при использовании предварительного тестирования. Идентичность предварительного и итогового тестов несущественна. Часто это различные формы «одного и того же» теста, и, следовательно, они менее идентичны, чем буквальное повторение предварительного теста. Точность возрастает с увеличением степени ковариации, и, хотя она обычно выше для эквивалентных форм «одного и того же» теста, чем для «различных» тестов, это чисто количественное различие, причем такой надежный комплексный показатель, как, скажем, средний балл успеваемости ученика, может оказаться лучше короткого предварительного тестирования. Отметим, однако, что использование среднего баллав качестве итогового показателя обычно нежелательно из-за его вероятной нечувствительности к X в сравнении с показателями, имеющими более тесную связь с содержанием и временем тестирования.
Неважно, как трактовать этот план с предварительным псевдотестированием — как план 6 или как план 4. Он обладает достоинствами плана 6, избавляя экспериментатора от проведения настоящего предварительного тестирования, от повторного применения идентичного или весьма сходного по содержанию необычного материала (как при изучении изменений социальных установок). По этим причинам оценка плана 6 в отношении реакции на эксперимент будет несколько выше, чем для
планов 4 и 5. В социальных науках в целом это преимущество еще важнее, чем в педагогических исследованиях.
Факторные планы
На концептуальной основе трех последних планов, особенно планов 4 и 6, добавляя к ним новые группы с новыми X, можно построить сложные факторные планы, типичные для фишеровской традиции. В обычном однофакторном дисперсионном анализе мы будем иметь несколько «уровней» воздействия (Х1, Х2, Х3и т. д., а также, возможно, Х0«без X»). Если отсутствие X считать одним из уровней («режимов») эксперимента Х0, то в планах 4 и 6 будет по одной группе на каждый уровень. По плану 5 мы будем иметь две группы (прошедшую и не прошедшую предварительное тестирование) для каждого режима, так что можно провести двухфакторный дисперсионный анализ. Нам неизвестно о применении более чем двухуровневых планов, аналогичных плану 5.
Обычно, если интерес представляет влияние предварительного тестирования, применяется план 6, так как иначе требуется большое число групп. Очень часто используются две и более независимых экспериментальных переменных, каждая из которых реализуется на нескольких «уровнях», для чего требуется ряд групп: Хa1Хb1, Хa1Хь2, Ха1Хь3… Ха2 Хь1и т. д.
Разработка соответствующих планов, сопровождаемая попытками экономить, устраняя из них некоторые из возможных перестановок из Ха и Хь, породила пугающие тайны факторного планирования (рандомизированные блоки, расщепленные делянки, греко-латинские квадраты, дробные реплики, смешивание и т. п.). В результате возникла пропасть между передовыми и традиционными методами педагогического исследования. Мы надеемся перебросить мост через эту пропасть, сохраняя непрерывную связь с традиционными методами и уповая на присущий каждому здравый смысл. По-видимому, большинство идей, необходимых для понимания планирования эксперимента, легче всего понять, если рассмотреть их на материале
планов с двумя экспериментальными режимами без дополнительных усложнений. Вместе с тем полное изложение проблем традиционного характера позволит достичь понимания необходимости и роли современных подходов. Уже в связи с поисками наиболее эффективного способа обработки результатов всеми признанного старого эксперимента по плану 4 мы познакомились с необходимостью ковариационного анализа, который пока почти не использовался в этих условиях. Точно так же при обсуждении плана 5, когда в связи с необходимостью контроля за некоторыми факторами мы столкнулись с задачей двух режимов, мы отказались от t-критерия в пользу соответствующей модели дисперсионного анализа.
Здесь мы не можем вдаваться в детали статистического анализа факторных планов или хотя бы привести их примеры. Элементарные аспекты этих методов с ориентацией на исследователей в области педагогики изложены Эдвардсом [33], Фергюсоном [36], Джонсоном и Джексоном [54] и Линдквистом [68]. Надо надеяться, однако, что следующие несколько разделов позволят читателю составить себе известное представление о некоторых возможностях и трудностях, связанных с обсуждаемыми в этой главе вопросами планирования эксперимента. Мы не станем рассматривать обычные соображения по поводу использования латинских квадратов и многих других неполных планов, где ради экономии в жертву приносится информация о факторных взаимодействиях. (Однако применение латинских квадратов взамен контрольных групп, когда невозможна рандомизация, будет рассмотрено ниже — см. квазиэкспериментальный план 11.) Причина, по которой мы решили не обсуждать неполные планы, состоит в том, что подробная информация о взаимодействиях имеет прямое отношение к проблеме внешней валидности, особенно в науке, где возникают трудности с воспроизведением результатов в разных условиях (см. Wilk, Kempthorne [132]). Мы хотели бы рассмотреть в этом разделе следующие понятия: взаимодействие, нестинг и перекрестная классификация, а также конечные, фиксированные, рандомизированные и смешанные факторные модели.
Взаимодействие
Выше мы уже пользовались этим понятием, надеясь на то, что неподготовленный читатель поймет его значение из контекста. Как и ранее, мы делаем упор на то, как взаимодействие может отразиться на возможности обобщения результатов эксперимента.
Посмотрим, как выглядят на графике (рис. 2) пять возможных исходов эксперимента с тремя уровнями воздействий Ха и Хb,которые мы обозначим А и В.(Здесь мы пользуемся лишь одним из ряда возможных двумерных представлений задачи, в которой фигурируют три измерения А, В и О).На рис. 2а представлен случай, когда имеются значимые главные эффекты А и В,но отсутствует их взаимодействие. (Разумеется, происходит суммирование эффектов с максимумом для А3 В3, но без взаимодействия, ибо эффекты аддитивны.) Во всех остальных случаях имеется значимое взаимодействие помимо или взамен главных эффектов А и В. Иначе говоря, характер эффекта А зависит от конкретного значения В. В этом смысле взаимодействие представляет собой «правило специфичности эффекта» и, следовательно, имеет отношение к проблеме обобщения результатов.
Эффект взаимодействия, показанный на рис. 2г, хорошо иллюстрирует сказанное. Здесь отсутствует главный эффект А (то есть, подсчитав средние значения О для каждого А по всем В, мы получим горизонтальную линию). Но когда В находится на уровне 1, увеличение А приводит к снижению О, а когда В находится на уровне 3, увеличение А приводит к возрастанию О. Отметим, что, если бы экспериментатор менял только А, оставляя В постоянным на уровне 1, результаты, хотя и были бы внутренне валидными, подсказывали бы ошибочное обобщение на случаи В2 и В3. Использование более чем одного фактора в плане позволяет провести изучение возможностей обобщения или внешней валидности любого итогового утверждения о главном эффекте А. Ограничение этих возможностей или специфичность эффектов обнаруживают себя при статистическом анализе в виде значимого взаимодействия.
На рис. 2д изображена еще более крайняя ситуация: ни А, ни В не имеют главного эффекта (нет об-
Р и с. 2. Некоторые возможные результаты факторного эксперимента, проведенного по схеме 3×3.
щих правил, позволяющих судить, какой из двух уровней лучше), но наблюдается сильное и определенное взаимодействие между А и В. Рассмотрим гипотетический результат такого рода. Предположим, три типа учителей (например, склонные к спонтанной импровизации, к тщательной подготовке к уроку и полной опеке учеников) в целом работают одинаково эффективно.
Точно так же три метода обучения (например, групповая дискуссия, лекционный метод и индивидуальная работа с учениками) в целом обладают одинаковой эффективностью. В таком случае даже в отсутствие «главных эффектов» для типа учителя или метода обучения эти два фактора будут сильно взаимодействовать друг другом: импровизатор лучше проведет групповую дискуссию и хуже всего организует индивидуальную работу, тогда как сторонник опеки учеников продемонстрирует максимум эффективности, работая по индивидуальному методу, но плохо справится с проведением аскуссии.
Следует различать типы обнаруживаемых значимых ааимодействий. Тут нам, вероятно, поможет понятие «монотонность взаимодействия». Отметим, что в случаях, соответствующих рис. 2а и 2б, имеет место главный эффект и A, и B, причем главный эффект A направлен одну и ту же сторону для любого отдельного набора значений В. Таким образом, в новой ситуации мы с гораздо большей уверенностью можем ожидать увеличения O с ростом А, чем в случае 2, когда также могут иметь место значимые главные эффекты и значимое взаимодействие A и B. В случае 2б мы могли бы, собственно говоря, быть почти так же уверены в общем характере главного эффекта А, как и в случае 2а, когда взаимодействие отсутствует. Таким образом, выясняя возможность обобщения результатов, мы должны построить и детально изучить соответствующий график. Некоторые «монотонные», или однонаправленные, взаимодействия почти или совсем не порождают ограничений специфичности эффекта (см. Lubin [72], где приводится широкое обсуждение данной проблемы).
Нестинг 1
Во всех приведенных до сих пор примерах каждый из классификационных критериев (например, различные
_____________________________________________________________________________
1 В контексте теории эксперимента нет точного русского эквивалента английского слова «nesting». Буквально его следует понимать как набор однородных объектов внутри более крупных единиц (nests), наподобие, скажем, картотечных ящиков в секциях. Попытка перевести этот термин как «группировка» (см., например: X и к с Ч. Основные принципы планирования эксперимента. М., «Мир», 1967) представляется не вполне удачной, так как это слово весьма многозначно и не содержит указаний на специфический ха-
A и В) «перекрещивался» со всеми остальными критериями, то есть каждый уровень А фигурировал на всех уровнях В. Однако дисперсионный анализ не ограничивается только этой ситуацией.
До сих пор в роли критериев классификации у нас выступали экспериментальные воздействия. Но во многих экспериментах могут быть использованы и другие признаки перекрестной классификации — например, пол или возраст учеников. Чтобы пояснить, в каких смыслах обычно употребляется термин «нестинг» применительно к классификации, нам придется обратиться к менее очевидным классификационным критериям.
Возьмем, к примеру, переменную «учитель». Представим себе эксперимент, в котором 10 учителей применяют два метода обучения данному предмету. В этом случае каждый отдельный учитель представляет собой конкретный «уровень». Полное перекрещивание переменной «учитель» с переменной «метод» будет иметь место, когда каждый учитель применяет оба метода в различных классах. Наличие «главного эффекта» фактора «учитель» свидетельствовало бы о том, что одни учителя работают лучше других, независимо от метода, который они используют. (Учащиеся или классы должны выбираться в случайном порядке, иначе произойдет смешивание двух факторов — особенностей учителей и состава классов.) Значимое взаимодействие между переменными «учитель» и «метод» означало бы, что для одних учителей более эффективен один метод, а для других — другой.
Предположим теперь, что, желая проследить далее такое взаимодействие, мы заинтересовались тем, кто из учителей — мужчины или женщины — работал лучше по данной методике. Разделив наших учителей на
__________________________________________________________________
рактер данной «группировки». Несколько более адекватным представляется использование в этой связи термина «иерархическая классификация». Однако и он является скорее формальным, нежели семантическим эквивалентом исходного термина, причем даже формальная эквивалентность лишь приблизительна, ибо «nesting» соответствует только двухуровневой иерархии. По-видимому, мы здесь сталкиваемся с тем редким случаем, когда иноязычный термин лучше не переводить, а просто дать в русской транскрипции. — Прим. перев.
5 мужчин и 5 женщин, мы приходим к «нестингу»: теперь переменная «учитель», хотя и полезная по-прежнему, не перекрещивается с переменной «пол», то есть один и тот же учитель не может принадлежать к тому идругому полу, в то время как «учитель» и «пол» перекрещиваются с «методом». Такой нестинг требует несколько иного анализа данных, чем в том случае, когда все классификации перекрещиваются друг с дру-гом. (Соответствующие иллюстрации см. в: Green, Tukey [45], Stanley [111].) Кроме того, при нестинге исключены некоторые взаимодействия переменных. Так, взаимодействия «учитель» — «пол» и «учитель» — «пол» — «метод» нельзя рассчитать, и в концептуальном плане они не имеют смысла.
Распространим теперь данный эксперимент на несколько школ, так что «школа» становится переменной, главный эффект которой мог бы отражать различия в скорости усвоения материала учениками разных школ. В этих условиях, скорее всего, будет иметь место нестинг учителей по школам, так как каждый учитель обычно ведет уроки только в одной школе. Хотя в этом случае возможно взаимодействие «учитель» — «школа», его можно рассчитать только в том случае, если все учителя работают одновременно во всех школах, охваченных экспериментом. Но тогда нестинг уступает место «перекрещиванию» этих признаков.
Учащихся, или испытуемых в эксперименте, также можно рассматривать как признак классификации (переменную). При полном перекрещивании каждый учащийся проходит через все режимы эксперимента. Но часто случается так, что ученики проходят лишь через некоторые, а не все режимы, то есть имеет место нестинг. Такая ситуация часто возникает, например, при поэтапном изучении процесса научения. В этом случае можно получить кривые научения для каждого из испытуемых, распределенных по двум способам обучения. Переменная «испытуемый» перекрещивается с «порядковым номером пробы», но не со «способом обучения». Здесь мы можем изучать взаимодействие «испытуемый» — «номер пробы», но не «испытуемый» — «способ обучения». Точно так же нестинг возникнет в том случае, когда ученики расклассифицированы по признаку пола.
Большинство переменных, представляющих интерес в педагогическом эксперименте, может взаимно перекрещиваться, и нестинг для них не обязателен. Помимо уже названных случаев, исключение составляют: хронологический возраст, умственный возраст, школьный класс (первый, второй и т. д.) и социально-экономический уровень. Наблюдательный читатель, вероятно, уже заметил, что независимые переменные, или признаки классификации, бывают нескольких видов: 1) управляемые переменные (например, метод обучения, выбираемый по усмотрению экспериментатора); 2) потенциально управляемые переменные (например, школьные предметы, которые экспериментатор может выбирать случайным образом, но он редко пользуется этой возможностью); 3) относительно постоянные аспекты окружения (населенный пункт, школа, социально-экономический уровень), которые не находятся под непосредственным контролем экспериментатора, но которые в эксперименте служат четкими основами стратификации; 4) объективные («организмические») характеристики учеников (возраст, рост, вес, пол) и 5) характеристики учеников, проявляющиеся в их ответах (результаты различных тестов). Обычно первостепенный интерес представляют управляемые независимые переменные 1-го вида, хотя неуправляемые независимые переменные 3-го, 4-го и иногда 5-го вида служат повышению точности и выяснению, насколько эффекты управляемых переменных поддаются обобщению. Переменные 5-го вида обычно фигурируют в качестве сопутствующих или зависимых от других показателей переменных. Другой способ рассмотрения независимых переменных — это учет присущей им упорядоченности (школьный класс, социально-экономический уровень, рост, номер пробы и т. д.) или неупорядоченности (методика, учебный предмет, учитель, пол и т. д.). Эффекты упорядоченных переменных часто могут быть подвергнуты дальнейшему анализу для выяснения того, является ли тренд линейным, квадратичным, кубическим и т. д. (Grant [44], Myers [83]).