Адаптивное тестирование и компьютеризованное проведение тестов

Адаптивное тестирование. Индивидуально адаптируемые тесты.С тем чтобы объединить некоторые достоинства индивидуального тестирования с преимуществами группового, опробуется ряд методик. Основной интерес до сих пор сосредоточивался на способах приспособления набора заданий к характеристикам ответов отдельных испытуемых. Во все увеличивающейся литературе, посвященной этой проблеме, такой подход назывался по-разному: адаптивное, последовательное, разветвленное, специализированное, индивидуализированное, программируемое, динамическое или зависящее от ответа тестирование. Хотя вполне можно создавать тесты типа «карандаш—бумага», включающие такие адаптивные процедуры (Geary, Linn, & Rock, 1968; Lord, 1971), сами эти методики идеально подходят для компьютеризованного проведения тестов.

Адаптивное тестирование может строиться на основе широкого множества процедурных моделей (DeWitt, & Weiss, 1974; Larkin, & Weiss, 1974; Weiss, 1974; Weiss, & Betz, 1973). Простой пример тестирования в две стадии приведен на рис. 10-1. В этом гипотетическом тесте все испытуемые проходят тест, состоящий из 10 заданий самой разной степени трудности, с целью определения маршрута дальнейшего обследования. В зависимости от успешности выполнения этого теста-маршрутизатора испытуемому предъявляется один из трех различных по трудности измерительных тестов, каждый из которых состоит из 20 заданий. Таким образом, испытуемый выполняет только 30 заданий, в то время как тест в целом содержит 70 заданий.

Адаптивное тестирование и компьютеризованное проведение тестов - student2.ru

Рис. 10-1. Двустадийное адаптивное тестирование с тремя уровнями измерения. Каждый испытуемый проходит тест-маршрутизатор и один из трех измерительных тестов

Глава 10, Групповое тестирование

Адаптивное тестирование и компьютеризованное проведение тестов - student2.ru

Рис. 10-2. Пирамидальная модель тестирования. Жирной линией показан маршрут обследования одного испытуемого, чьи результаты выполнения заданий приведены в верхней части рисунка

Иная организация заданий иллюстрируется пирамидальным тестом, изображенным на рис. 10-2. В этом случае все испытуемые начинают с задания средней трудности. Если ответ испытуемого на это задание правилен, то ему предъявляется следующее по степени трудности задание; если неправилен, то следующее по степени легкости. Процедура повторяется после каждого ответа испытуемого до тех пор, пока он не даст 10 ответов. Это пример 10-стадийного теста, в котором каждому испытуемому предъявляется 10 из 55 входящих в тест заданий. Жирная линия на рис. 10-2 показывает маршрут обследования конкретного испытуемого, ответы которого на предлагаемые задания отмечены вверху знаками + (правильно) и — (неправильно).

Компьютеризованное адаптивное тестирование (КАТ).Некоторые варианты обеих моделей адаптивного тестирования, примеры которых показаны на рис. 10-1 и 10-2, были реализованы как в форме «карандаш—бумага», так и на базе компьютера. Однако более сложные модели, не предусматривающие заранее установленного, фиксированного порядка предъявления заданий, допускают реализацию только в форме компьютеризованного адаптивного тестирования (Embretson, 1992; В. F. Green, 1983; Wai-^пег et al., 1990). В основу этих процедур КАТ положены методы описанной в главе 7 теории «задание — ответ» {IRT), которые используются для составления комплекта ^заДаний, проведения тестирования конкретных испытуемых и подсчета индивиду-зльных показателей. Для каждого задания теста существует оценка способности, тре-

Часть 3. Тестирование способностей

буемой для его выполнения с вероятностью 0,50. Эта оценка способности и служит тем показателем, который индивидуум получает за правильное выполнение данного задания. Такой показатель отражает уровень трудности, различительную способность и вероятность угадывания правильного ответа для данного задания. Кроме того, для каждого задания имеется информационная функция, показывающая точность измерения. Информационная функция теста, представляющая собой сумму информационных функций заданий, выполняет ту же роль, что и традиционная стандартная ошибка измерения (SEM). После ответа испытуемого на каждое задание компьютер выбирает для него следующее задание с учетом всей «предыстории» его ответов. Добавление новых заданий в процессе тестирования продолжается до тех пор, пока информационная функция теста не достигает заранее установленного стандарта. Таким образом, при обследовании всех испытуемых достигается одинаковый уровень точности измерений.

Показатель конкретного испытуемого основывается не только на количестве правильно выполненных заданий, но отражает уровень трудности и другие психометрические характеристики этих заданий. Совокупный тестовый показатель выводится на основе оценок способности, соответствующих каждому выполненному заданию. Эта оценка способности исправляется и уточняется с добавлением каждого нового задания до тех пор, пока не достигается заданная точность измерения. Такие показатели будут сопоставимы у всех лиц, обследованных с помощью комплекта входящих в тест заданий, независимо от специфического набора заданий, предъявленных каждому испытуемому. Существующие на сегодняшний день процедуры конструирования инструмента КАТ можно существенно облегчить за счет использования ряда доступных компьютерных программ, таких как MicroCAГ, распространяемых ASC {Assessment Systems Corporation)}

В общем, исследования, проведенные разными методами, показывают, что индивидуализированное адаптивное тестирование может давать столь же надежные и валидные результаты, как и общепринятые тесты, однако при существенно меньшем числе заданий и значительной экономии времени. Кроме того, оно обеспечивает большую точность измерения для испытуемых, находящихся на верхнем и нижнем краях диапазона способности, охватываемого тестом (Lord, 1970; 1971а; 1971b; 1971c; Weiss, 1982). Было также проведено важное исследование, показавшее, что корреляции между правильно сконструированными КАТ формами тестов и их бланковыми формами (типа «карандаш — бумага») почти столь же высоки, как коэффициенты надежности большинства тестов. Такие результаты говорят о том, что одни и те же конструкты по существу можно измерять с помощью обеих форм тестов (Mead, & Drasgow, 1993). В то же время есть ситуации тестирования, для которых КАТ не подходит, например когда используются тесты скорости и скрининг-тесты, распределяющие испытуемых по группам на основе критического показателя (Wainer, 1993b). Особое внимание уделялось разработке технических руководств по оцениванию инструментов КАТ (Green, Bock, Humphreys, Linn, & Reckase, 1984).

Адаптивное тестирование особенно подходит для использования в индивидуализированных программах обучения, упоминавшихся в главе 3. В этих случаях учащиеся проходят учебный предмет в удобном для себя темпе и могут поэтому выполнять

¹ Адрес дан в приложении Б. См. также Quan, Park, Sandahl, & Wolfe (1984) и Weiss, & Vale (1987)-

Глава 10. Групповое тестирование

значительно отличающиеся по трудности тестовые задания. Компьютеризованное тестирование позволяет прекращать проверку, как только ответы испытуемого дают достаточно информации для принятия решения об уровне овладения предметом. В настоящее время активно исследуются возможности применения компьютеризованного адаптивного тестирования в различных областях и соответственно разрабатываются технологии КАТ.В качестве одного из примеров можно привести разработанный совместно Службой тестирования в образовании и Советом колледжей компьютеризованный адаптивный тест для распределения поступивших в колледж студентов-первокурсников по группам для изучения английского языка и математики в соответствии с уровнем их подготовки по этим дисциплинам (Smittle, 1990; Ward, Kline, & Flaugher, 1986). Вследствие индивидуализированного подбора заданий этот тест почти не отнимает времени и позволяет сразу же получить оценку. Следовательно, его можно проводить в ходе регистрации поступивших и тут же распределять студентов по курсам или группам соответственно полученным результатам испытаний.

Еще одна важная область применения КАТ — крупномасштабные программы отбора и распределения персонала в промышленности, государственных учреждениях и армии. КАТ особенно хорошо подходит для этих целей, по меньшей мере, по трем причинам: 1) неуклонный рост потока кандидатов, которых необходимо испытать, и в связи с этим предотвращение тестирования очень больших групп, скапливающихся в одно время и в одном месте; 2) необходимость охватить широкий разброс уровня способностей и 3) лучшая защищенность теста, так как каждый кандидат получает разный набор заданий из большого банка заданий, хранящихся в памяти компьютера. Разработке КАТ версии Батареи профессиональной пригодности Вооруженных сил (ASVAB) предшествовало несколько лет поисковых исследований (McBride, & Martin, 1983; Moreno, Wetzel, McBride, & Weiss, 1984; Wiskoff, & Schratz, 1989). Постепенно разрабатываются КАТверсии всех важных групповых тестов, таких как Дифференциальные тесты способностей,¹ описанные в последнем разделе этой главы. Для многих практических приложений, равно как и для имеющих самостоятельное значение исследований природы и источников индивидуальных различий, КАТ дает бесспорные преимущества. Ясное и полезное изложение его перспектив для будущего тестирования можно найти в работе Embretson (1992).

Многоуровневые батареи

Общий обзор.В отличие от важнейших индивидуальных шкал и компьютеризованных адаптивных тестов в традиционных групповых тестах одни и те же задания предъявляются всем испытуемым, вне независимости от их индивидуальных ответов. По этой причине любой групповой тест должен включать задания относительно ограниченного диапазона трудности, пригодные для того конкретного возраста, класса Или уровня способностей, для которых он предназначен. Чтобы обеспечить сравнимые меры интеллектуального развития в более широком диапазоне, была создана серия частично перекрывающихся многоуровневых батарей. Таким образом, любой Конкретный человек обследуется только на подходящем для него уровне, а другие Уровни могут использоваться для повторного тестирования того же человека в после-

"AT-Adaptive соответствуют бланковой форме DAT-Form К (1981).

Часть 3. Тестирование способностей

дующие годы или для получения сравнительных оценок разных возрастных групп Частичное перекрытие последовательных батарей позволяет адекватно выявить нижнюю и верхнюю границы возможностей испытуемых, находящихся на краях своего возрастного диапазона или года обучения. Конечно, следует иметь в виду, что соответствие трудности задания и способности испытуемого, обеспечиваемое многоуровневыми батареями, в лучшем случае носит приблизительный характер. Более того, в отличие от индивидуализированных методик, реализующих принципы КАТ, это соответствие основывается на предварительной информации о тестируемых, такой как их возраст или класс, в котором они учатся, а не на их собственных ответах по тесту.

Многоуровневые батареи особенно полезны для использования в школах, где желательно достичь сопоставимости показателей на протяжении нескольких лет. По этой причине уровни батарей обычно описываются в терминах года обучения или класса школы. Большинство многоуровневых батарей обеспечивают достаточную степень непрерывности содержания или интеллектуальных функций, охватываемых батареей. Показатели повсюду выражаются в одной и той же шкале единиц. Для достижения непрерывности и сопоставимости показателей на всем протяжении диапазона измеряемой способности все больше и больше используются методы теории «задание — ответ» (IRT). В процессе стандартизации теста группам учащихся предъявляются частично перекрывающиеся уровни теста, с тем чтобы получить необходимые связующие данные. Нормативные выборки, обследуемые на разных уровнях, оказываются к тому же более эквивалентными, чем это имело бы место в случае независимо стандартизуемых тестах. Отдельные уровни охватывают от одного до трех классов школы. Суммарный же диапазон батареи в целом простирается от детей, посещающих детский сад, до студентов-первокурсников.

Большинство батарей дают общий стандартный показатель, соответствующий традиционному 7(2 в индивидуальных тестах. Некоторые батареи, наряду со стандартными показателями, предоставляют несколько типов норм, включая процентили, ста-найны или эквивалентные классы. В дополнение к суммарному общему показателю в большинстве батарей предусматриваются раздельные показатели по вербальным и количественным или лингвистическим и нелингвистическим заданиям. Такое разделение согласуется с данными о том, что выполнение конкретным человеком вербального и других типов субтестов может существенно расходиться, особенно на верхних уровнях.

Названия батарей также представляют определенный интерес. Для обозначения по существу одного и того же типа тестов используются такие термины, как «интеллект», «общие способности», «умственные способности», «умственная зрелость», «учебный потенциал» или «школьные способности». В словаре психометриста эти термины, фактически, являются синонимичными и взаимозаменяемыми. Примечательно, что в большинстве созданных в последнее время тестов или пересмотренных вариантов батарей термин «интеллект» заменен более специальными терминами. Такая замена объясняется тем, что термин «интеллект» приобрел слишком много побочных значений и его использование может привести к неправильному толкованию тестовых показателей. Многоуровневые батареи предназначены для выборочного измерения интеллектуальных умений и навыков, считающихся необходимыми для учебной Д^еЯ" тельности. Главной целью таких батарей является оценка готовности индивидуУ^ма ^кобучению на каждой стадии образовательного процесса.

Глава 10. Групповое тестирование

Типичные образцы батарей.Сущность и сферу действия современных многоуровневых батарей способностей можно проиллюстрировать на примере трех батарей, краткая характеристика которых дана в табл. 10-1. Эти батареи были выбраны из-за наличия свежих пересмотренных версий, высокого качества методов конструирования входящих в них тестов, а также объема и репрезентативности их выборок стандартизации. Еще одно достоинство выбранных батарей заключается в том, что их стандартизация проводилась параллельно со стандартизацией одной либо двух многоуровневых батарей тестов учебных достижений для тех же классов (о батареях тестов учебных достижений речь пойдет в главе 17). Благодаря проведению тестовых батарей обоих типов на одних и тех же выборках стандартизации появляется возможность установить соответствия между двумя множествами показателей. В результате эти два инструмента можно использовать совместно, что позволяет полнее исследовать развитие учащегося в процессе обучения и условия, влияющие на его развитие.

Надежность и валидность этих батарей широко исследовалась с помощью соответствующих методов. Коэффициенты надежности Кьюдера—Ричардсона как для общих показателей, так и для показателей по двум либо трем отдельным содержательным областям батарей, вычисленные по каждому уровню, в большинстве своем близки к 0,90. Ретестовые корреляции также высоки, что указывает на удовлетворительную устойчивость показателей. Корреляции со школьными отметками и с показателями тестов достижений свидетельствуют о хорошей прогностической валидности. Интеркорреляции частных показателей и результаты факторного анализа указывают на наличие выраженного общего фактора в каждой из полных батарей.

Типичное содержание тестов на различных уровнях.Доказано, что применение групповых тестов можно начинать с детей, посещающих детский сад и с первокласс-

Таблица 10-1 Типичные образцы многоуровневых батарей

Есть, кроме того, отдельная батарея — Элементарный тест когнитивных навыков (Primary Test of Cognitive Skills [PTCS]) - с иным набором тестов, предназначенных для уровня детского сада и ^1_го класса.

Батарея	Охват классов	Число уровней	Нормирована совместно с
Тест школьных способностей Отиса— Леннона (OLSAT, 7-я ред.)	Д/с - 12		Серией Стэнфордских тестов достижений (9-я ред.)
Тест когнитивных способностей (CogAT, Form 5)	Д/с-3 3-12	2 8	Тестами основных навыков штата Айова (д/с — 9-й кл.) Тестами достижений и умений (9-12) Тестами развития в обучении штата Айова (9-12-й кл.)
Тест когнитивных навыков (2-я ред., TCS/2)	2-12*		Калифорнийскими тестами достижений (5-я ред.) Комплексными тестами основных навыков (4-я ред.)

Часть 3. Тестирование способностей

ников. В дошкольном возрасте приходится использовать индивидуальные тесты для того, чтобы установить и поддерживать непосредственный контакт с ребенком, а также в силу необходимости предъявлять задания в устной и действенной форме, наиболее подходящей для маленьких детей. Однако уже детям 5-6 лет можно предъявлять отпечатанные тесты, при этом группы должны быть небольшими, до 10-15 человек. Но и при таком тестировании проводящий обследование должен по-прежнему уделять значительное внимание каждому ребенку, иначе он не сможет быть уверенным, что дети следуют инструкции; ему приходится следить, чтобы дети правильно переворачивали страницы тестовой тетради и соблюдали другие правила тестирования. При необходимости тестирующий вместе с одним-двумя помощниками может проводить обследование и с несколько большими группами.

Групповые тесты для элементарного уровня охватывают детский сад¹ и первые три класса начальной школы. В таких тестах каждый ребенок получает тетрадь с напечатанными картинками и схемами, составляющими задания теста; инструктирование ведется устно и обычно сопровождается показом. Часто включаются предварительные упражнения, в которых испытуемые пробуют выполнить один или два образца заданий, а тестирующий или его помощник проверяют ответы, чтобы быть уверенными, что инструкция понята правильно. Ребенок отмечает свои ответы в тестовой тетради цветным или простым карандашом. Большинство тестов требуют лишь умения правильно отметить картинку из данного набора изображений. Некоторые тесты требуют простой моторной координации, позволяющей, например, соединить линией две точки. Разумеется, тесты для элементарного уровня не требуют от обследуемых умения читать или писать.

Большинство многоуровневых батарей способностей включают тесты, пригодные для элементарного уровня (primary level). Типы тестовых заданий, используемых на этом уровне, приведены на рис. 10-3. Образцы этих заданий взяты из Теста школьных способностей Отиса—Леннона (OLSAT) и относятся к уровню А, пригодного для детей, посещающих детский сад. Результатом признания быстрого интеллектуального роста, происходящего в эти ранние годы, стало то, что в последней, седьмой редакции OLSAT предусмотрены четыре отдельных уровня (А, В, С, D) для воспитанников детского сада и учеников 1,2 и 3-х классов соответственно. Эта редакция 0£5ЛГобеспечи-вает большую дифференциацию по сравнению с более ранними редакциями этой батареи, да и по сравнению с другими многоуровневыми батареями тоже. На уровне А все инструкции даются тестирующим^ устной форме. Ребенок реагирует на задания, закрашивая карандашом маленький кружок под выбранным в качестве ответа изображением, как показано на рис. 10-3, иллюстрирующем четыре из десяти типов заданий уровня А.

Для выполнения всего теста требуется около 75 мин. Он проводится в два этапа, на каждом из которых предусмотрен 5-минутный перерыв после первых 15-20 мин работы. Есть еще и Тренировочный тест (Practice Test) с похожими типами заданий и инструкциями, который может быть предложен в один из дней перед основным тестированием. Образцы заданий, показанные на рис. 10-3, являются относительно простыми и используются для того, чтобы познакомить детей с заданиями, которые им встретятся в самом тесте. Пояснения на рис. 10-3 представляют собой крайне сжатый

' В США детские сады (kindergarten) предназначены для воспитания и обучения детей в возрасте 4 до 6 лет. — Примеч. науч. ред.

Глава 10. Групповое тестирование

Классификация картинок:Отметьте картинку, не подходящую к остальным.

Адаптивное тестирование и компьютеризованное проведение тестов - student2.ru

Фигурные аналогии:Поставьте метку под фигурой, которая должна находиться в пустом квадрате.

Адаптивное тестирование и компьютеризованное проведение тестов - student2.ru

Следование указаниям:Отметьте число, находящееся прямо под «сердечком».

Адаптивное тестирование и компьютеризованное проведение тестов - student2.ru

Последовательности картинок:Поставьте метку под картинкой, которая должна находиться в пустом квадрате.

Адаптивное тестирование и компьютеризованное проведение тестов - student2.ru

Рис. 10-3.Образцы заданий, используемых в Тесте школьных способностей Отиса—Лениона

Часть 3- Тестирование способностей

вариант подробных устных инструкций и ясного описания содержания заданий, которыми сопровождается каждое из них. Реальные тесты имеют, к тому же, несколько иной формат, облегчающий понимание и помогающий маленьким детям удерживать внимание на заданиях. Например, листы и ряды изображений распознаются не только по номерам, но и по маленьким рисункам знакомых предметов, таких как чашка, ботинок или ножницы; кроме того, каждому ребенку дают маркер, чтобы он мог проследить ряд изображений, с которым должен работать.

Тесты для уровня начальной школы (elementary school level)¹, рассчитанные на учащихся 3-4-го класса и старше, весьма сходны как по своему содержанию, так и по построению. Поскольку учащиеся этой категории грамотны, преобладают тесты с вербальным содержанием, большинство тестов включают также арифметические задачи или иные числовые тесты. Кроме того, некоторые батареи имеют в своем составе тесты, не предполагающие умения читать, предназначенные для оценки тех же способностей к абстрактным рассуждениям у детей, не знающих английского языка, имеющих трудности с чтением или с усвоением других учебных навыков.

Типы заданий, соответствующих уровню начальной школы, проиллюстрированы на рис. 10-4. Эти задания являются типичными для промежуточных уровней Теста когнитивных способностей (Cog/4Г). Как указано в табл. 10-1, Со^ЛГвключает два уровня, охватывающие период от детского сада до 3-го класса, и восемь уровней, приходящихся на период от 3 до 12-го класса. Тесты каждого уровня отпечатаны в отдельной тетради. Испытуемые, проходящие разные уровни теста, начинают и заканчивают работу заданиями, входящими в разные наборы. Тест построен таким образом, что большинство обследуемых выполняют задания среднего для них уровня трудности, что позволяет различить их наиболее эффективным образом.

Восемь уровней (от А до Я) содержат одни и те же субтесты, сгруппированные в три батареи следующим образом.

Вербальная батарея — Классификация слов, Завершение предложений, Словесные аналогии.

Количественная батарея — Количественные отношения, Числовые ряды, Составление равенств.

Невербальная батарея — Классификация фигур, Фигурные аналогии, Анализ фигур. В этих субтестах не используются ни слова, ни числа, а только геометрические элементы и предметные изображения; их задания относительно слабо связаны со школьной программой.

Каждый субтест предваряется практическими упражнениями с подробными объяснениями. Кроме того, имеется Тренировочный тест, который может быть дан перед проведением основного теста. На рис. 10-4 показаны типичные задания шести из девяти субтестов такого теста, правда, с сокращенными и немного измененными инструкциями. По уровню трудности эти задания примерно соответствуют тем, которые предназначены для учащихся 4-6-х классов. В руководстве к CogA T рекомендуется предъявлять детям эти три батареи в три приема. Для большинства детей Невербальная батарея в отличии от Вербальной и Количественной батарей не является предсказателем достижений в учебе. Однако сравнительный анализ выполнения заданий по всем трем батареям может дать полезную информацию относительно специальных способностей или, напротив, «неспособностей» конкретного ребенка.

¹ В США начальная или, по-другому, элементарная школа охватывает первые 6-8 классов. - Яя""" науч. ред.

Глава 10. Групповое тестирование

Классификация слов: Подумайте, чем похожи напечатанные жирным шрифтом слова, и найдите в нижнем ряду слово, которое к ним подходит.