Тестированием на различных выборках

При изучении больших популяций, таких, как города, предприятия, школы, воинские подразделения и т. д., часто может оказаться, что, хотя рандомизированное выделение подгрупп для дифференцированного экспериментального воздействия и невозможно, все же удается осуществить нечто вроде полного контроля над тем, когда и на ком производить тестирование, применяя процедуры рандомизированного распределения испытуемых по группам. Такой контроль позволяет реализовать план 12:

R О (X)

R X O.

В этой схеме строки представляют случайным образом выделенные эквивалентные подгруппы, а скобки при X означают, что результаты предъявления X по данной группе не используются. Одна выборка проходит тестирование до X, а другая — после X. Этот план не относится к числу сильных, на что указывает его графа в табл. 2. Тем не менее часто это единственная возможность, и ею стоит воспользоваться. План 12 применялся в социальных исследованиях, которые остаются лучшими в своей области (см., например, Star, Hughes[118]). Хотя его называли «имитацией» плана с начальным и конечным тестированием (Selltiz, Jahoda, Deutsch, Cook [99, с. 116]), он на самом деле имеет преимущество по сравнению с обычным планом с предварительным и последующим тестированием (то есть планом 2), поскольку обеспечивает контроль над главным эффектом тестирования и взаимодействием этого фактора с X. Главным недостатком этого плана является неконтролируемость фактора фона (см. Star, Hughes [118]).

В этой работе мы стремимся повысить у читателя интерес к «лоскутным» схемам, в которых средства контроля отдельных факторов вводятся более или менее постепенно (в отличие от более изящных «истинных» экспериментов, в которых контроль всех факторов риска для внутренней валидности обеспечивается одной контрольной группой). Повторное применение плана 12 в различных условиях и в разное время, как в плане 12а (см. табл. 2), обеспечивает контроль фонового фактора: если эффект обнаруживается снова, вероятность того, что он является результатом действия сопутствующих фоновых событий, снижается. Но неконтролируемыми конкурентными объяснениями все еще остаются сезонные циклы и некоторые другие фоновые изменения. Повторение эффекта в других условиях может снизить вероятность того, что он свойствен лишь первоначально взятой популяции. Однако если условия исследования допускают применение плана 12а, то применим также и план 13, которому в целом следует отдать предпочтение.

Ссылка на естественное развитие вряд ли может быть конкурентным объяснением даже в продолжающемся несколько месяцев исследовании общественного мнения. Но при выборочном исследовании общественного мнения или даже в некоторых студенческих аудиториях выборки достаточно велики и в возрастном отношении достаточно разнородны, чтобы группу, которая подвергается предварительному тестированию, можно было разделить на подвыборки, различающиеся по фактору естественного развития (по признаку возраста, курса и т. д.), и сравнивать эти подвыборки. Фактор естественного развития и, вероятно, более серьезная угроза медленных и сезонных изменений могут также контролироваться в плане 12б, где вводится дополнительная группа, которая подвергается более раннему предварительному тестированию. Это сближает данный план с планом временных серий, хотя и без повторного тестирования. Для популяций, подобных упомянутым в примере с пациентами психотерапевтического кабинета, где возможна спонтанная ремиссия, может оказаться несостоятельным имплицитное предположение о линейности естественного развития. Скорее, оно будет представлять собой постепенно замедляю-

щийся процесс, так что естественное увеличение от O₁ к O₂ будет большим, чем от O₂ к O₃, что препятствует выявлению эффекта X.

Инструментальная погрешность представляет опасность, если план 12 применяется в массовом обследовании. Если одни и те же интервьюеры проводят предварительное и итоговое тестирование, обычно оказывается, что для многих из них начальное интервью было первым в их жизни, а к конечному они набираются некоторого опыта и, пожалуй, цинизма. Если каждая волна опросов проводится разными, причем немногими, людьми, происходит смешивание личных особенностей интервьюеров с экспериментальной переменной. Если интервьюерам известна гипотеза, то независимо от наличия или отсутствия воздействия X их ожидания могут породить различия, как это экспериментально показали Стэнтон и Бейкер [117], а также Смит и Хаймен [102]. Идеальным было бы использовать в каждой волне опросов различные эквивалентные случайные выборки интервьюеров и держать их в неведении относительно замысла эксперимента. Кроме того, состав интервьюеров может зависеть от времени года, например вследствие того, что в летние месяцы можно использовать студентов. Летом число отказов меньше и интервью длится дольше, чем зимой. В случаях, когда респонденты сами заполняют анкеты в классе или аудитории, подобная инструментальная погрешность менее вероятна, хотя изменение установки в отношении анкеты может оказаться таким, что его будет правильнее считать инструментальной погрешностью, чем влияниями X на О.

Если между предварительным и итоговым тестированием проходит несколько месяцев, то в эксперименте типа 12 возникает проблема выбывания. Если обе выборки составлены одновременно (этап R), популяция со временем может меняться: на различных этапах исследования утрачивается доступ ко все большему числу респондентов и из популяции выбывают наиболее мобильные. Сигналом такой опасности служит различие между группами по числу лиц, с которыми интервьюерам не удалось встретиться.

По-видимому, в длительном исследовании выборки, на которых проводятся предварительное и итоговое

тестирования, должны составляться независимо друг от друга и в разное время, хотя это в свою очередь служит источником систематической погрешности вследствие возможных изменений в данной части генеральной совокупности. В условиях, например, школы учет посещаемости позволяет из результатов предварительного тестирования изъять те, которые принадлежат отсутствовавшим при итоговом тестировании ученикам. Это облегчает сравнение результатов обоих тестирований. Чтобы сделать возможной такую коррекцию в массовом обследовании, равно как и для дополнительного подтверждения наличия эффекта, на который не оказывал бы влияния процесс выбывания, группа, выбранная для предварительного тестирования, может быть подвергнута повторному тестированию (как в плане 12в, где различие O₁ — O₂ следует подтвердить путем сравнения показателей О₁— O₃). Так было построено исследование Дункана и сотрудников [31], посвященное влиянию вводного курса психологии на преодоление ошибочных взглядов. (В этом плане эксперимента наличие группы, прошедшей оба тестирования, не обеспечивает возможности анализа приращений зависимой переменной по отдельным испытуемым ввиду отсутствия контрольной группы для учета влияния регрессии.)

Для экспериментов данного типа характерно то, что они переносят лабораторные методы в полевые условия, на которые исследователь хочет распространить свои выводы, испытывая действие X в естественной обстановке. Вообще говоря, как показано в табл. 1 и 2, планы 12, 12а, 12б и 12в по обеспечению внешней валидности или возможностям обобщения результатов могут превосходить планы 4, 5, 6 «истинных» экспериментов. Они предъявляют к респондентам так мало требований в отношении сотрудничества, пребывания в определенное время в определенном месте и т. д., что можно формировать репрезентативные выборки из заранее определенных популяций.

Планы 12 и 13 (и, конечно, некоторые варианты планов 4 и 6, в которых X и О осуществляются в условиях индивидуального контакта с обследуемыми) действительно обеспечивают возможность пользоваться репрезентативными выборками. Плюсы в колонке «взаимодействие состава групп и X»весьма

относительны и могли бы, справедливости ради, быть заменены вопросительными знаками, поскольку, как правило, респонденты выбираются не по теоретическим соображениям, а по признаку готовности участвовать и доступности, что нередко делает их нетипичными представителями генеральной совокупности, на которую предполагается распространить результаты. Но величина смещения, обусловленного составлением групп по признаку доступности испытуемых, намного меньше, чем в планах экспериментов, предъявляющих к ним более высокие требования, так что на этом фоне плюс представляется оправданным.

План с контрольными выборками

для предварительного и итогового тестирования

Предполагается, что план 12 может быть использован в условиях, когда X (если он вообще имеет место) предъявляется всей группе в целом. При наличии сравнимых (или даже эквивалентных) групп, в которых X не вводится, можно в плане 12 добавить контрольную группу, получив тем самым план 13:

RО X

R XO

--------------

RО

R O

Этот план сходен с планом 10, если не считать того, что предварительное и итоговое тестирование проводится на разных лицах, благодаря чему исключается возможное взаимодействие тестирования и X. Как и для плана 10, в этом случае существует опасность (что и является недостатком плана в отношении внутренней валидности) принять за эффект X частную тенденцию, характерную для данной экспериментальной группы и фактически не связанную с воздействием. Этот источник невалидности можно устранить, увеличивая число вовлеченных в исследование социальных единиц (школ, городов, предприятий и т. д.) и предписывая им посредством рандомизации экспериментальный или контрольный режим. Это позволяет получить план истинного

Тестированием на различных выборках - student2.ru

эксперимента, подобного плану 4, с тем, однако, исключением, что здесь мы избегаем повторного тестирования одних и тех же испытуемых. Такой план можно обозначить как план 13а. Его схематическое представление (см. табл. 3) усложняется двумя уровнями эквивалентности (достигаемой путем рандомизации). На уровне испытуемых внутри каждой социальной единицы существует эквивалентность отдельных выборок, используемых для предварительного и итогового тестирования (что отмечено пунктом рандомизации — R). Между отдельными социальными единицами, которые подвергаются одному из этих воздействий, такой эквивалентности нет, на что указывают пунктирные линии, R' обозначает уравнивание экспериментальной и контрольной групп путем рандомизированного распределения этих многочисленных социальных единиц по двум режимам.

Как видно из табл. 3, план 13а оказывается безукоризненным в отношении как внутренней, так и внешней валидности (последнее уже обсуждалось при анализе плана 12), причем здесь благодаря наличию многочисленных социальных единиц (в отличие от использования только одной из них) добавляется контроль взаимодействия между факторами состава групп и X. Насколько известно, эта отличная, но требующая больших затрат схема эксперимента еще не была реализована.

План с множественными сериями измерений

При изучении эффектов крупной административной перестройки по данным серии измерений исследователь поступит правильно, отыскав аналогичное учреждение, не подвергшееся Х,и взяв оттуда данные для «контрольной» серии (в идеале учреждение, подвергающееся X, должно быть, выбрано наугад):

О O O O O X O O O O O

------------------------------------ .

O O O O O O O O O O

Этот план включает план 10, то есть план с неэквивалентной контрольной группой (X в окружении О), по сравнению с которой он выигрывает в достоверности

интерпретации благодаря использованию многочисленных измерений, причем экспериментальный эффект как бы демонстрируется дважды — один раз на фоне контрольных данных, а другой — в сравнении со значениями до X внутри той же самой серии данных, как в плане 7. Кроме того, взаимодействие фактора состава групп с естественным развитием контролируется постольку, поскольку при большей общей скорости изменения зависимой переменной в экспериментальной группе это должно проявиться также в О, предшествующих X. В табл. 2 и 3 этот добавочный выигрыш представлен слабо. Он нашел отражение лишь в последней колонке внутренней валидности — «взаимодействие состава групп с естественным развитием». Поскольку естественное развитие контролируется как в экспериментальной, так и в контрольной серии, то по соображениям, приведенным выше при обсуждении серии периодических измерений (план 7), различие в составе групп, подвергаясь влиянию со стороны факторов естественного развития, инструментальной погрешности или регрессии, вряд ли может дать заметный эффект. Однако взаимодействие фактора состава групп с фоном может сказываться на результатах.

Как для плана 7, поставлен минус в колонке внешней валидности — «взаимодействие тестирования и X»,хотя, как и план 7, данный план используется преимущественно в условиях, когда тестирование не вызывает такого эффекта. Табл. 3 показывает также, что надо учитывать возможность того, что полученный эффект X может оказаться особенностью исследуемой популяции. Что касается проверки значимости эффекта, то предлагается анализировать различия между результатами соответственных измерений в экспериментальной и контрольной группах, как данные, полученные по плану 7. Эти различия более вероятно могут оказаться линейными, чем данные исходных временных рядов.

В общем, это отличный квазиэксперимент — пожалуй, лучший из наиболее доступных. Как видно из сделанных выше замечаний и из обсуждения плана 10, он обладает явными преимуществами перед экспериментами типа 7 и 10. Доступность повторных измерений делает его особенно пригодным для исследовательской работы в школе.

Наши рекомендации

Процесс отладки программного обеспечения. Сложность отладки ПО. Методы поиска и устранения ошибок. Связь отладки с тестированием

Если на независимых выборках была обнаружена достоверность различия дисперсий, то их средние значения нельзя сравнивать по t- критерию Стьюдента!

Распределение вероятности в малых выборках в зависимости

Тестированием на одной группе

Эксперимент на больших выборках. Его достоинства и недостатки.

Обнаружение интересующего исследователя эффекта в одной или разных выборках испытуемых

Реальную гипнабельность конкретного человека можно проверить лишь специальным тестированием.

Средние значения (%) оценочных категорий «Hand-теста», полученные на различных выборках

Перечень вопросов для подготовки к сдаче зачета тестированием

← Предыдущая страница | Следующая страница →