Стандартизованные и нестандартизованные тесты
Критерии качества теста
Надежность –характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов.
Методы оценки надежности тестов:
1. Ретестовый метод оценки надежности теста (двукратное тестирование);
2. Метод параллельных форм (двукратное тестирование);
3. Метод расщепление теста (однократное тестирование);
Значения надежности теста
Отличная | 0,90 и больше |
Хорошая | 0,80–0,89 |
Удовлетворительная | 0,70–0,79 |
Неудовлетворительная | 0,69 и меньше |
Валидность теста – характеристика его способности проверять то, что он должен проверять по замыслу авторов. Валидным или невалидным тест можно назвать лишь с указанием сферы его применения.
Мера валидности – коэффициент корреляции ответов по заданию с критерием.
Валидность теста по содержанию. Содержательная валидность тестов проверяется экспертным методом. Экспертиза теста проводится опытными экспертами. У экспертов должна быть уверенность в том, что:
· задания теста находятся в соответствии с программой;
· задания теста охватывают всю программу курса;
· высока вероятность того, что студент, успешно ответивший на задания теста, знает предмет в соответствии с полученной оценкой.
Конструктная (концептуальная) валидность
Конструктная валидность дидактического теста – это отражение в нем теоретической модели курса, его структурных пропорций и основных компонентов на всех уровнях, устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста.
Критериальная (эмпирическая) валидность
Валидизация теста по критерию состоит в сравнении результатов, полученных испытуемым за решение теста с данными по критерию и вычислении коэффициента корреляции тестового результата с внешним критерием.
Очевидная (внешняя, доверительная) валидность
Валидность с точки зрения испытуемого. Объективно не устанавливается.
Значения валидности теста
Отличная | 0,75 и больше |
Хорошая | 0,50 – 0,74 |
Удовлетворительная | 0,40 – 0,49 |
Малоудовлетворительная | 0,100 – 0,39 |
Неудовлетворительная | 0,009 и меньше |
Планирование содержания теста
I. Разработка плана теста
1. Примерная раскладка процентного соотношения содержания разделов (подсчет планируемого исходного числа заданий в тесте, обычно предельное число не превышает 60‑80 заданий, поскольку время тестирования выбирают в пределах 1,5-2 часов, а на выполнение одного задания отводится в среднем не более 2 минут)
2. Определение числа заданий по каждому разделу дисциплины, исходя из важности раздела и числа часов, отведенных на его изучение в программе.
Стандартизованные и нестандартизованные тесты
Стандартизованным тестом (СТ) называется такой тест, который опробован на достаточно большом (500–1000 человек) и представительном контингенте тестируемых и который имеет стабильные и приемлемые показатели качества, а также спецификацию – паспорт с нормами, условиями и инструкциями для его многократного использования в разных условиях.
Представительность контингента означает, что выборка тестируемых по их данным (возраст, пол, обученность, обучаемость, национальность и др.) представляет такие же данные какой-то более крупной выборки, которую невозможно и нецелесообразно тестировать с помощью предварительных вариантов СТ. Разные условия использования ЛДТ обычно довольно ограничены и должны быть указаны в спецификации – паспорте.
Нестандартизованными называются преподавательские/учительские (classroom, home-made) тесты (ПТ), которые составлены самими преподавателями/учителями для своих учащихся. Они имеют на практике несколько названий – просто тест, тестовая контрольная работа, квиз (quiz). ПТ коротки, и для них необязательно определение всех показателей качества. Однако они отличаются от обычной контрольной работы тем, что проводится хотя бы одно опробование с целью определения трудности заданий для более обоснованного составления окончательного варианта ПТ.
Имеет смысл ввести еще одну разновидность ЛДТ, промежуточную между СТ и ПТ. Эту разновидность целесообразно назвать локально стандартизованным тестом (ЛСТ). Как вытекает из названия, его отличие от СТ состоит в том, что представительной выборкой является контингент тестируемых одной школы, одного вуза или школ/вузов одного города в пределах 100–300 человек. С одной стороны, это улучшенный, возможно более полный ПТ, с другой стороны, это менее строгий по показателям качества СТ. Если ПТ составляют 1–2 человека, а ЛСТ – небольшая группа (4–5 человек), то составлением "широко" стандартизованных тестов охвачены целые коллективы.
Таким образом, степень стандартизованности ЛДТ заключается в степени их разработанности, в разной представительности выборок тестируемых для опробования и использования, а также в качестве самих тестов.