Конструирование педагогических измерительных материалов

Создание качественного теста – процесс длительный, трудоемкий, дорогостоящий. На подготовку качественного итогового теста профессиональные разработчики тратят 1,5—2 года. Как правило, такие тесты создаются творческими коллективами преподавателей вузов и учителей школ под руководством ведущих научно–исследовательских центров, профессионально занимающихся вопросами оценки качества образования и подготовки специалистов, имеющих определенный опыт в этом направлении, а также финансовую поддержку. Высокое мастерство разработчиков современных тестов базируется на наличии у разработчиков достаточно глубоких специальных знаний по теории конструирования тестовых материалов, наличии технического и программного обеспечения, опыте практической деятельности, навыках апробации и параметризации тестов, использовании итерационных этапов совершенствования теста.

Использование именно таких тестов в образовательной практике особенно эффективно. Однако имеющиеся в методических сборниках тесты не всегда позволяют педагогам решать многообразные, быстро меняющиеся целевые установки проверки качества подготовленности обучающихся в ходе учебного процесса. Кроме того, требуется решение ряда сопутствующих вопросов, связанных с подготовкой заданий в тестовой форме, для активизации учебно–познавательной деятельности обучающихся. Для системного использования тестового контроля в учебном процессе одних лишь тестов, построенных на моделях IRT (Item Response Theory – английское название теории, используемой преимущественно в педагогических и психологических измерениях), недостаточно, поэтому педагоги вынуждены разрабатывать и использовать так называемые авторские тесты. Несмотря на значительные трудовые затраты, необходимые на этапе подготовки тестовых материалов, грамотно составленные контрольно–оценочные средства обеспечат педагогам эффективность работы в последующем. Именно поэтому тестовая культура педагогов должна выстраиваться в русле алгоритмических подходов к созданию контрольно–оценочных средств.

Как создать педагогический измеритель, обеспечивающий научно обоснованный контроль, какие знания и умения следует формировать, развивать и оценивать у обучаемых, какую систему показателей и критериев оценки качества учебных достижений можно использовать при тестовом контроле, как проводить шкалирование результатов? Эти и другие вопросы сегодня волнуют педагогов, особенно в условиях изменения контрольно–оценочной системы в отечественном образовании.

В процессе моделирования теста выделяют несколько последовательных шагов.

1. Определение цели конструирования теста и выбор подходов к его разработке (нормативно–ориентированный или критериально–ориентированный), планирование содержания теста.

2. Получение первоначальных представлений об ожидаемом положении на оси измеряемой переменной результатов уровня подготовки данной выборки испытуемых (из анализа предварительной экспресс–диагностики приблизительно задаются наиболее вероятные пределы переменной измерения на шкале логитов для данной выборки).

3. Выбор планируемой точности измерений. При этом желательно задать стандартную ошибку для всех значений измеряемой переменной в выделенной области на шкале логитов.

4. Задание формы целевой информационной функции теста на выделенном интервале шкалы логитов с использованием методов математического моделирования теста. Для нормативно–ориентированных тестов она может иметь вид кривой нормального распределения. Для критериально–ориентированных тестов целевая информационная функция на оси логитов будет иметь вид треугольника с вершиной в точке, соответствующей пороговому баллу, что позволит отделять испытуемых, не прошедших критерий выполнения теста, от прошедших его.

5. Выбор планируемого вида распределения уровней трудности заданий теста: прямоугольное (когда все значения параметра трудности распределены равномерно, а каждое значение встречается только один раз), нормальное (значения параметра трудности распределены по нормальному закону) и др.

6. Отбор заданий, параметры трудности которых равномерно заполняют область под целевой информационной функцией теста. При этом предполагается наличие банка тестовых заданий с устойчивыми оценками параметров, уже полученных методами IRT. На практике предпочтение применению математических моделей IRT отдается тогда, когда имеется ряд жестких требований к качеству выборки аттестуемых (итоговая аттестация, вступительные испытания, отбор специалистов и др.). Однако эта задача требует применения программных средств и организации компьютерного процесса оценки трудности тестовых заданий. Необходимо также умения анализировать и интерпретировать полученные данные на основе IRT. В настоящее время для этих целей используются готовые программные продукты.

7. Добавление заданий при вычислении количества информации в различных точках оси измеряемой переменной для каждого из вновь создаваемых вариантов теста.

8. Отбор заданий из банка ведется до тех пор, пока информационная функция теста не приблизится в приемлемой степени к теоретически заданной информационной функции модели теста. Отбор тестовых заданий должен быть ориентирован не только на трудность, но и на содержательные элементы, проверка которых планируется в спецификации теста.

Процедура совершенствования тестов такова, что обеспечивает постоянное обновление состава тестовых заданий путем их выбраковки и замены по результатам очередных тестовых испытаний. Это обусловлено тем, что одной из целей тестирования является объективизация оценки уровня подготовленности выпускников на основе единых требований к средствам и методам контроля. Выполнение этой последовательности шагов предполагает, что предварительно имеются банк параметризированных (калиброванных) заданий и разработанная спецификация, обеспечивающая содержательную валидность теста, согласно требованиям которой содержание тестов должно полностью соответствовать целям проверки: вступительные экзамены, олимпиада, текущий или рубежный контроль, аттестация образовательного учреждения и др. В первом случае задания должны быть достаточно трудными, в последнем – легкими. Однако при одинаковой трудности заданий теряется понятие теста как педагогического измерителя – задания должны быть нарастающей сложности и достаточной дифференцирующей способности.

Методика разработки педагогических измерителей в зависимости от поставленных целей должна обеспечивать достижение ряда качественных характеристик теста: содержательной валидности, высокой надежности, требуемой трудности, максимальной дифференцирующей способности в широкой области на оси измеряемой переменной уровня подготовки тестируемых.

Сообразно выстроенному подходу планируется структура теста. При этом заданную структуру соблюдают во всех вариантах.

Успех создания теста во многом зависит от правильности выделения укрупненных единиц знаний по учебной дисциплине, этим же определяется и длина теста, так как число заданий должно ограничиваться разумными пределами, но в то же время желательно максимально отобразить содержание контролируемого учебного материала.

Для тестов нормативно–ориентированной интерпретации соблюдается несколько важных условий, учитываемых при проведении апробации:

• нормативная (апробационная) группа должна адекватно отображать генеральную совокупность учащихся;

• статистические показатели тестовых заданий (уровень трудности, дифференцирующая способность, коэффициент корреляции) обязательны при отборе заданий для включения их в тест;

• тестовые баллы должны иметь значительную дисперсию по значениям трудности;

• распределение тестовых баллов должно иметь вид, близкий к нормальному;

• индивидуальные результаты испытуемых должны сопоставляться со статистической нормой, полученной в процессе параметризации теста.

К числу необходимый условий подготовки критериально–ориентированных тестов относятся:

• четкое, детализированное определение области контролируемого содержания для более репрезентативного подбора заданий;

• отличие от нормального распределения тестовых баллов и их низкая вариативность;

• заранее установленные критериальные баллы, отражающие требования стандартов к освоению содержания предметных областей;

• достаточно слабая дифференцирующая способность тестов вблизи критериального балла.

После уточнения целей тестирования проводится уточнение спецификации на разработку теста, которая позволяет задать структуру теста в виде таблицы, отражающей номера тем, изучаемое содержание, число заданий по вопросам темы, сквозную нумерацию заданий по вопросам. Спецификация позволяет установить, охватывает ли тест (субтест) репрезентативную выборку конкретных умений, навыков и знаний и свободно ли его выполнение от влияния посторонних факторов.

Насколько спецификация может быть информативна и важна, видно из примера требований к спецификации на разработку нормативно–ориентированных тестов абитуриентского тестирования:

1. Цель создания теста, абитуриентское тестирование для итоговой аттестации и отбора абитуриентов в вузы, аттестационное тестирование для засчитывания результатов в общеобразовательных учреждениях.

2. Исходные документы – временные требования к обязательному минимуму содержания (с указанием года и места издания), программы вступительных испытаний (с указанием года и места издания), перечень используемых разработчиком базовых и вариативных учебников (с анализом их на соответствие базовым программам).

3. Число заданий в каждом варианте теста.

4. Число вариантов теста.

5. Тип заданий с указанием количества и процентного содержания заданий каждой формы.

6. Число ответов к заданиям закрытой формы (с выбором одного правильного ответа либо нескольких правильных ответов).

7. Рекомендуемый автором вес заданий каждой формы при подсчете баллов тестирования, рекомендации по засчитыванию вариативных заданий.

8. Рекомендуемое время выполнения теста и среднее время выполнения заданий разных форм.

9. Структура теста по разделам (содержательным линиям) и видам деятельности испытуемых (знаниям, умениям и навыкам) с подробной расшифровкой. Анализ значимости тем (большим количеством заданий должны быть представлены темы, изучение которых завершено или наиболее важно для дальнейшего обучения).

10. Методика формирования параллельных вариантов тестов.

11. Рекомендации автора по срокам апробации.

12. Общая характеристика охвата тестом требований программы и рекомендации по дополнительным формам проверки в случае необходимости.

13. Степень стандартизации теста и возможность его компьютерной обработки, требования к программным продуктам, используемым для обработки результатов тестирования, выведения тестового балла участникам тестирования, составления статистического отчета и визуализации его содержания.

Именно последнее качество теста определяет эффективность воздействия результатов тестирования на различные звенья системы образования. Важным моментом также является подготовка валидного теста, для чего по содержанию учебной дисциплины проводится отбор тем, разделов и вопросов, значимых для проверки усвоения знаний, который, по существу, является отбором основных укрупненных единиц учебного материала. На основе этого составляется спецификация будущего теста, где отражается, какие знания, умения и навыки должен проверить и измерить тест, задается его структура.

Содержание теста должно однозначно отвечать требованию определенности содержания данной дисциплины и логичности процедуры измерения. Анализ содержания дисциплины необходим также для выделения предметной принадлежности (предметной чистоты) при построении тестовых заданий, которые бы по возможности не включали знания из других дисциплин (кроме интегративных тестов). Так как содержание теста зависит от целей тестирования и от объема контролируемого учебного материала, то соответственно этому меняется тип теста (гомогенный, гетерогенный, интегративный, адаптивный и др.). Таким образом, тест создается для решения вполне определенных задач, а потому и валиден (пригоден) только при использовании для решения именно этих, а не каких–либо других задач. Необходимо также иметь в виду, что на результаты тестирования существенное влияние оказывает срок проведения тестирования, он должен соответствовать этапу обучения.

В соответствии с современными требованиями для более эффективного измерения знаний в одном тесте одновременно используются несколько различных форм тестовых заданий: с выбором ответа, со свободным ответом, экспериментальные задания, задания–эссе и др. Считается, что в тестовом задании данной формы должно быть 4—5 вариантов ответов, тогда вероятность угадывания правильного ответа может быть ничтожно малой.

В вопросах с альтернативными вариантами ответов увеличение числа заданий в тесте при четырех или пяти альтернативах в каждом задании существенно уменьшает возможность угадывания с вероятностью, близкой к нулю.

Важное значение для получения истинного результата педагогических измерений имеет техника тестирования, подразумевающая ряд требований, основная часть которых справедлива для любых видов или форм тестовых заданий и должна учитываться при их подготовке:

• из текста задания должны быть убраны всякая двусмысленность и неясность формулировок, используется только логическая форма высказывания;

• формулировка задания должна быть краткой и состоять из одного предложения (семь–восемь слов);

• синтаксическая конструкция должна быть предельно простой, допускается не более одного придаточного предложения;

• основной текст задания должен содержать почти все необходимые слова, а для ответа остаются одно, два, максимум три слова, ключевых для данной проблемы, – правильная форма задания;

• все ответы на задание должны быть однотипны и одинаковой длины, соблюдается наличие определенного места для ответа;

• из текста убираются все вербальные ассоциации, способствующие угадыванию правильного ответа;

• соблюдается правильность расположения элементов задания;

• частота номера места правильного ответа в разных заданиях теста должна быть равновероятной;

• не рекомендуется в ответы вводить слова «все», «ни одного», «никогда», «всегда»;

• из числа неправильных исключаются ответы, вытекающие один из другого или выясняющие мнение тестируемого по какому–либо вопросу;

• одинаковость правил оценки ответов распространяется на все задания;

• для всех испытуемых дается одинаковая инструкция, адекватная форме и содержанию задания.

Самыми распространенными являются задания с выбором одного или нескольких правильных ответов. Как правило, это задания закрытой формы.

Цели и функции тестирования и тестов могут быть различными. Выделим основные цели и функции:

· информационная цель, информационная функция;

· диагностическая цель, диагностическая функция;

· обучающая цель, обучающая функция;

· мотивационная цель, мотивационная функция;

· аттестационная цель, аттестационная функция.

Классификация тестов проводится по различным классификационным признакам.

1. По процедуре создания – стандартизованные, не стандартизованные.

2. По средствам предъявления – бланковые (бумажные), предметные (натурные), аппаратные, компьютерные (адаптивные и неадаптивные).

3. По характеру предъявления (генерирования) – детерминированные, стохастические, динамические.

4. По направленности – тесты интеллекта, личностные тесты, тесты достижений.

5. По характеру действий – вербальные, невербальные.

6. По ориентации – тесты скорости, тесты продуктивности или результативности, смешанные тесты.

7. По однородности – гомогенные, гетерогенные.

8. По объективности – объективные, проективные.

9. По специализации – широко-ориентированные, узко-ориентированные.

10. По целям – информационные, диагностические, обучающие, мотивационные, аттестационные.

11. По широте использования – используемые преподавателем, группой преподавателей или администрацией, формирования групп, аттестации.

12. По форме – закрытого типа, открытого типа, на установление соответствия, на установление правильной последовательности действий (часто рассматривают и их подтипы, например, задания закрытой формы с однозначным выбором одного, с выбором наиболее полного из правильных, с выбором нескольких наиболее правильных и т.д.); эта классификация – часто условная (с точки зрения валидности) и неполная, хотя и распространенная.

13. По методологии интерпретации результатов – нормативно-ориентированные и критериально-ориентированные.

Есть и другие подходы к классификации тестов.

Выбор класса зависит от вида контроля над учебной деятельностью обучаемых, который может быть вступительным, текущим, рубежным (промежуточным) или итоговым контролем.

Для стандартизации требований к абитуриентам и унификации (единообразия) процедуры вступительных испытаний тестовый контроль абитуриентов должен быть организован централизовано.

Существуют два основных подхода использования педагогически и профессионально наиболее важных аттестационных тестов – нормативно-ориентированный и критериально-ориентированный.

Нормативно-ориентированный подход служит для сравнения учебных или профессиональных достижений отдельных испытуемых по отношению к некоторому эталонному, нормативному образцу, например, исполнению должностных обязанностей.

Нормативно-ориентированные педагогические тесты используются для получения надежных и нормально распределенных тестовых баллов. После выполнения нормативно-ориентированного теста (комплекса тестов), всем справившимся с тестом выставляются тестовые баллы (по некоторой заранее определенной системе оценивания заданий), а затем на основе анализа распределения тестовых баллов испытуемых (выборки) определяется норма. Далее тестовые баллы оцениваются (например, по пятибалльной системе) и каждому тестированному выставляется оценка.

Критериально-ориентированный подход служит для оценки степени овладения знаниями, умениями и навыками всех испытуемых.

Критериально-ориентированные педагогические тесты используются для интерпретации результатов тестирования (принятия решений) и оценки уровня учебных достижений относительно некоторого образа полного или достаточного овладения этими знаниями, умениями и навыками. Критериально-ориентированные тесты ориентированы на определенный критерий оценки испытуемых, на предварительно определенную (тестирующими или администрацией) шкалу измерения, в соответствии с которой каждому тестируемому выставляется оценка.

Оба подхода важны и взаимосвязаны, имеют много общих свойств. В то же время, у них различные цели, уровни детализации содержания, мощность выборочного множества, технология составления и оценивания тестов (в том числе и шкала оценивания), методы анализа и принятия решения.

Тесты обладают следующими основными свойствами.

Валидность – мера соответствия теста измеряемым знаниям, умениям и навыкам, для проверки которых был разработан тест, мера соответствия стандартам и программам обучения, а также результатам тестирования. Это наиболее важная, комплексная характеристика, отражающая "инструментальную" точность тестирования.

Сложность – мера умственных усилий, требуемых для выбора ответа.

Часто эта мера называется весом и определяется как доля правильных или неправильных ответов при ответе на задание в группе тестируемых.

Внутренняя сложность определяется сложностью тестовых заданий (тестов) в тесте (группе тестов).

Внешняя сложность определяется сложностью взаимоотношений с окружением (тестируемые, тестирующие, инструментальные среды), сложностью управления системой, потенциально оцениваемых по обратным связям системы и среды, сложность анализа результатов тестирования и принятия решений.

Эти два вида сложности взаимосвязаны и взаимозависимы. Как правило, внутренняя сложность определяет и внешнюю сложность.

Надежность – мера правильности и адекватности отражения тестом уровня знаний учащихся.

Надежный тест обеспечивает равные права каждой группе обучаемых и каждому обучающемуся в группе. Обычно используемый 95%-ый уровень значимости может служить показателем достаточной надежности (с коэффициентом 0,95).

Устойчивость теста – мера сохранения надежности и валидности при переносе теста в другую, аналогичную среду, мера равнозначности и однородности тестов для различных групп учащихся.

Шкалируемость теста – способность теста отображать результаты учебных достижений в некоторой задаваемой системе (шкале) оценок или баллов.

Репрезентативность теста (банка или базы тестов) – мера полноты охвата заданиями учебного материала, программы, отражения тестами различных уровней обучения.

Значимость теста – мера необходимости, актуальности включения в тест ключевых знаний, надежно свидетельствующих о репрезентативности теста.

Дискриминантность теста – мера дифференциации тестируемых относительно максимального или минимального уровня обучения.

Достоверность, научность, непротиворечивость теста – мера истинности теста, согласованности, соответствия современному состоянию науки и технологии, методике обучения.

Необходимо обеспечить согласованность заданий теста как между собой (внутренняя согласованность), так и с другими тестами (внешняя согласованность).

Под гипотезой тестирования будем понимать некоторое утверждение (предикат), подлежащий проверке (на истинность).

Гипотеза может быть детерминированной (выполнено, не выполнено), вероятностной (с задаваемой вероятностью истинности) или нечеткой (формулируемой с помощью аппарата нечеткой логики).

Основная системная цель тестирования – использование потенциальной возможности распространения (анализа и обобщения) данных по выборке на другие выборки или даже на генеральную совокупность, наблюдаемых в тестовых испытаниях ситуаций для данной совокупности тестированных, на другие совокупности или, возможно, – на всю образовательную систему в целом.

Система тестирования в отличие от системы проверочных контрольных работ имеет такие элементы: (тесты), ресурсы (банк тестов, категория тестируемых, инструментарий и технология тестирования), структуру (логические и дидактические связи), отличительное свойство (например, ограничение времени, объективность).

Любая система тестирования как система должна подчиняться основным системным требованиям, принципам: дедуктивной последовательности; интегрированного рассмотрения; согласования ресурсов и целей; бесконфликтности.

Любая система тестирования как система должна иметь основные системные признаки:

· целостность, связность;

· наличие подсистем и связей;

· возможность обособления;

· связи с окружающей средой;

· подчиненность всей системы цели;

· эмерджентность (несводимость свойств системы к свойствам элементов, подсистем).

Рассмотрим основные системные правила разработки качественных тестов. В отличие от других, невыполнение хоть одного из этих правил делает невозможным построение теста, т.е. системы тестовых заданий.

Правило 1. Тест должен быть валидным.

Правило 2. Тест должен иметь необходимый и достаточный уровень сложности.

Правило 3. Тест должен быть объективным.

Правило 4. Тест должен быть надежным.

Правило 5. Тест должен быть устойчивым.

Правило 6. Тест должен быть шкалируемым.

Правило 7. Тест должен быть репрезентативным.

Правило 8. Тест должен быть значимым.

Правило 9. Тест должен быть дискриминантным.

Правило 10. Тест должен быть достоверным.

Правило 11. Тест должен быть научным.

Правило 12. Тест должен быть непротиворечивым.