Оценка достоверности контроля знаний в дистанционной адаптивной обучающей системе
Тестирование разделяют на четыре основных типа:
1) входное тестирование;
2) текущее или промежуточное тестирование;
3) тематическое или рубежное тестирование;
4) итоговое тестирование.
Входное тестирование необходимо проводить на начальном этапе изучения дисциплины. Подобные задания необходимы преподавателю для получения общей картины успеваемости группы. Здесь проверяется то, как работали студенты на предыдущих курсах, как они усвоили пройденный материал, оценивается уровень остаточных знаний. Вопросы теста могут быть взяты из каких-либо смежных областей для получения широкого представления о знаниях студента при составление более эффективного плана обучения. Очень важная особенность данного тестирования – выявление пробелов в знаниях обучаемого для его дальнейшего саморазвития, проведения дополнительных семинаров и обращению к системе восстановления знаний.
Рубежное тестирование обычно проводится после прохождения определенной темы, главы, раздела или же, к примеру, в период промежуточной аттестации студентов по всему пройденному ранее материалу. Это тестирование показывает, насколько хорошо обучаемые усвоили пройденный материал, овладели умениями и навыками, и служит неким закрепляющим элементом учебного процесса (УП). Этот вид тестирования по своей специфике похож на тематический контроль знаний и отличается только базой вопросов. База должна формироваться из вопросов в пределах одной темы, семантической категории (если брать курс навигации, то это будут темы: высоты, курсы, системы координат и т. д.). Сложность формирования таких баз в том, что многие темы пересекаются между собой (один и тот же вопрос может быть отнесен к разным семантическим категориям), и это необходимо учитывать при составлении вопросов.
Итоговое тестирование проводится в конце обучения с целью обобщения и систематизирования всего пройденного материала. Здесь необходимо достичь максимальной достоверности оценки обученности при условии минимизации вероятности угадывания и списывания.
Быстрое адаптивное тестирование (БАТ) [4] рассматривается как частный случай экспресс-тестирования. Главная задача экспресс-диагностики заключается в максимальном снижении времени, отведенного для тестирования, при некотором потенциальном снижении точности (70-80%).
Для проведения эффективного тестового контроля требуется оценить достоверность принятого решения (выставленной оценки, характеризующей уровень знания обучаемого) на основе ограниченной выборки вопросов, полученных в минимально возможные сроки. Очевидно, что при большом количестве вопросов уменьшается энтропия (неопределенность), повышается вероятность выявления «пробелов» в знаниях обучаемого, повышается достоверность оценки, но при этом существенно увеличивается время прохождения теста.
Таким образом, возникает вопрос о том, сколько необходимо задать вопросов обучаемому, чтобы с высокой степенью достоверности сказать, что он обладает теми или иными знаниями. Очевидно, что, чем больше вопросов содержит в себе сценарий тестирования, тем больше будет точность, но при этом не будет выигрыша по времени. Следовательно, необходимо рассчитать зависимость достоверности от количества вопросов и выявить оптимальное (минимальное) количество вопросов для сценария БАТ при достаточно высокой достоверности.
На основе набранной статистики (1500 тестов) исследовалась зависимость достоверности от числа задаваемых вопросов в программе RStudio тремя методами:
– Первый метод основан на совпадении вопросов между собой. Суть метода заключается в следующем: ответы студентов на каждый вопрос базы представляются в бинарном виде (0 и 1). Из получившейся последовательности нулей и единиц формируется вектор. Далее оставляется матрица совпадений (рисунок 2) из всех векторов, после чего эти вектора сравниваются и определяются наиболее похожие. Один из векторов, имеющих максимальную степень совпадения, удаляется. После удаления вектора ответов, т. е. самого вопроса, сравниваются оценки, эталонная и расчетная. Вычисляется ошибкаE, а затем достоверность D равная:
(1)
Рис. 2. Результаты первого метода
– Второй метод основан на сравнении вектора вопросов и вектора оценки. Вектор оценки представляется в бинарном виде (0 и 1) и сравнивается с вектором ответов на каждый вопрос. Далее находятся наиболее похожие вектора, которые в большей степени влияют на оценку, и «удаляются» один за другим (рисунок 3). Далее так же, как и в первом случае, сравниваются оценки, эталонная и расчетная. Вычисляется ошибка E. Затем определяется достоверность D по формуле (1).
Рис. 3. Результаты второго метода
– Третий метод (метод кластеризации) несколько отличается от двух первых. Похожие бинарные векторы не удаляются, а объединяются в группы (кластеры). В каждом кластере определяется наиболее характерный вектор. Далее кластеры объединяются между собой посредством этих характерных векторов и т. д. (рисунок 4). Аналогично двум предыдущим методам определяется достоверность.
Рис. 4. Результаты третьего метода
Результаты проведения расчета достоверности представлены на
рисунке 5. Как видно, с увеличением числа вопросов достоверность повышается. После осреднения полученных результатов выяснилось, что при 6 вопросах достоверность составляет примерно 73%.
Рис. 5. Результаты проведения расчета достоверности
Так как набор статистики – процесс,требующий большого количества времени, то невозможно в данный момент сказать, будет ли достоверность возрастать при ее увеличении. Было решено уменьшить размерность статистики с 464 (генеральная выборка) имеющихся ответов до 50 (репрезентативная выборка), сократив их случайным образом, провести обработку данных и сравнить с предыдущим результатом (рисунок 6).
Рис. 6. Обработка данных
На рисунке 6 видно, что при уменьшении выборки достоверность значительно падает. Если аппроксимировать полученные результаты, то станет очевидно, что при увеличении выборки данных о прохождении тестирования достоверность будет увеличиваться.