Стандартизованные и нестандартизованные тесты

Критерии качества теста

Надежность –характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов.

Методы оценки надежности тестов:

1. Ретестовый метод оценки надежности теста (двукратное тестирование);

2. Метод параллельных форм (двукратное тестирование);

3. Метод расщепление теста (однократное тестирование);

Значения надежности теста

Отличная 0,90 и больше
Хорошая 0,80–0,89
Удовлетворительная 0,70–0,79
Неудовлетворительная 0,69 и меньше

Валидность теста – характеристика его способности проверять то, что он должен проверять по замыслу авторов. Валидным или невалидным тест можно назвать лишь с указанием сферы его применения.

Мера валидности – коэффициент корреляции ответов по заданию с критерием.

Валидность теста по содержанию. Содержательная валидность тестов проверяется экспертным методом. Экспертиза теста проводится опытными экспертами. У экспертов должна быть уверенность в том, что:

· задания теста находятся в соответствии с программой;

· задания теста охватывают всю программу курса;

· высока вероятность того, что студент, успешно ответивший на задания теста, знает предмет в соответствии с полученной оценкой.

Конструктная (концептуальная) валидность

Конструктная валидность дидактического теста – это отражение в нем теоретической модели курса, его структурных пропорций и основных компонентов на всех уровнях, устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста.

Критериальная (эмпирическая) валидность

Валидизация теста по критерию состоит в сравнении результатов, полученных испытуемым за решение теста с данными по критерию и вычислении коэффициента корреляции тестового результата с внешним критерием.

Очевидная (внешняя, доверительная) валидность

Валидность с точки зрения испытуемого. Объективно не устанавливается.

Значения валидности теста

Отличная 0,75 и больше
Хорошая 0,50 – 0,74
Удовлетворительная 0,40 – 0,49
Малоудовлетворительная 0,100 – 0,39
Неудовлетворительная 0,009 и меньше

Планирование содержания теста

I. Разработка плана теста

1. Примерная раскладка процентного соотношения содержания разделов (подсчет планируемого исходного числа заданий в тесте, обычно предельное число не превышает 60‑80 заданий, поскольку время тестирования выбирают в пределах 1,5-2 часов, а на выполнение одного задания отводится в среднем не более 2 минут)

2. Определение числа заданий по каждому разделу дисциплины, исходя из важности раздела и числа часов, отведенных на его изучение в программе.

Стандартизованные и нестандартизованные тесты

Стандартизованным тестом (СТ) называется такой тест, который опробован на достаточно большом (500–1000 человек) и представительном контингенте тестируемых и который имеет стабильные и приемлемые показатели качества, а также спецификацию – паспорт с нормами, условиями и инструкциями для его многократного использования в разных условиях.

Представительность контингента означает, что выборка тестируемых по их данным (возраст, пол, обученность, обучаемость, национальность и др.) представляет такие же данные какой-то более крупной выборки, которую невозможно и нецелесообразно тестировать с помощью предварительных вариантов СТ. Разные условия использования ЛДТ обычно довольно ограничены и должны быть указаны в спецификации – паспорте.

Нестандартизованными называются преподавательские/учительские (classroom, home-made) тесты (ПТ), которые составлены самими преподавателями/учителями для своих учащихся. Они имеют на практике несколько названий – просто тест, тестовая контрольная работа, квиз (quiz). ПТ коротки, и для них необязательно определение всех показателей качества. Однако они отличаются от обычной контрольной работы тем, что проводится хотя бы одно опробование с целью определения трудности заданий для более обоснованного составления окончательного варианта ПТ.

Имеет смысл ввести еще одну разновидность ЛДТ, промежуточную между СТ и ПТ. Эту разновидность целесообразно назвать локально стандартизованным тестом (ЛСТ). Как вытекает из названия, его отличие от СТ состоит в том, что представительной выборкой является контингент тестируемых одной школы, одного вуза или школ/вузов одного города в пределах 100–300 человек. С одной стороны, это улучшенный, возможно более полный ПТ, с другой стороны, это менее строгий по показателям качества СТ. Если ПТ составляют 1–2 человека, а ЛСТ – небольшая группа (4–5 человек), то составлением "широко" стандартизованных тестов охвачены целые коллективы.

Таким образом, степень стандартизованности ЛДТ заключается в степени их разработанности, в разной представительности выборок тестируемых для опробования и использования, а также в качестве самих тестов.

Наши рекомендации