По результатам пробного тестирования

Важным условием проведения пробного тестирования является получение статистически достоверных результатов, что обеспечивается соблюдением ряда условий:

- пробное тестирование должно проводиться в нескольких параллельных*[6] группах. При этом рекомендуется в каждой группе провести его дважды, но при условии, что испытуемые получат варианты теста с заданиями, на которые раньше не отвечали. Желательно, чтобы повторное пробное тестирование в одной и той же группе проводилось в разные дни;

- количество испытуемых в группах должно быть достаточно большим (не менее 20 человек);

- все параллельные группы должны находиться в одинаковых условиях (время, отводимое на тестирование, место и время проведения*[7]);

- все испытуемые в пределах одной группы также должны находиться в идентичных условиях, без каких-либо «скидок» и «поблажек» для отдельных испытуемых. Все испытуемые должны получить примерно одинаковые по сложности (параллельные) задания;

- время, отводимое на пробное тестирование должно быть таким, чтобы наиболее подготовленные успели ответить на все вопросы теста*[8];

- для получения достоверных результатов следует свести к минимуму возможность подсказок среди испытуемых.

К пробному тестированию с использованием специализированной программы и ПЭВМ предъявляются примерно те же требования, что и при тестировании «на бумаге».

Анализ результатов пробного тестирования и отбор тестовых

Заданий

Матрица тестовых результатов

После проведения пробного тестирования производятся проверка ответов испытуемых и обработка результатов тестирования. Обработку результатов следует начинать с составления матриц тестовых результатов (при компьютерном варианте тестирования такие матрицы должны создаваться программой автоматически). Очень важно, чтобы по номеру варианта теста и номеру задания в нем можно было бы однозначно определить – какие именно задания выполнял испытуемый.Это необходимо для того, чтобы, как уже отмечалось выше, исключить из общего массива именно те задания, которые не могут называться тестовыми.

Подготовку матриц тестовых результатов рекомендуется выполнять с использованием ПЭВМ, например, табличного процессора Excel, что позволит существенно облегчить обработку данных и проверку статистических свойств каждого задания. Пример такой матрицы приведен в табл. 3.4.

Таблица 3.4 – Матрица*[9] тестовых результатов в группе из 10 человек

(для всех заданий общее правило оценивания: правильный ответ – 1, неправильный – 0)

№ пп Фамилия №№ варианта теста Номер задания (задания пронумерованы и расположены в порядке возрастания их трудности: №1 /самое легкое/ ® №10 /самое трудное/) Суммарный балл по тесту
Абрамов
Дмитриев
Васильев
Борисов
Щетинин
Зыков
Григорьев
Кириллов
Иванов
Жуков
S -

В матрице тестовых результатов (табл. 3.4) строки с результатами испытуемых следует располагать в порядке убывания суммы баллов, набранных при тестировании, т.е. в первой строке – самый сильный студент, в последней – самый слабый. В столбцах таблицы, содержащих баллы испытуемых по каждому из заданий теста, задания следует расположить в порядке возрастания их трудности, т.е. от самого легкого до самого трудного.

Нижняя строка табл. 3.4 содержит сумму баллов, набранных всеми испытуемыми по каждому из 10 заданий теста. Именно эта сумма (точнее - обратная ей величина) в общем случае служит мерой трудности задания и критерием, по которому то или иное задание получает свое место (порядковый номер) в системе заданий теста. Первоначально, как указывалось выше, преподаватель определяет трудность заданий, исходя из собственного опыта. Нижняя строка матрицы тестовых результатов содержит более объективную оценку трудности заданий, которая в некоторых случаях может не совпадать с первоначальным мнением преподавателя. В такой ситуации задание, трудность которого отличается от предполагавшейся первоначально, следует расположить в другом месте, присвоив ему новый номер, соответствующий его трудности. При этом должны учитываться ответы на то же задание, полученные в других (параллельных) группах испытуемых.

Статистический анализ тестовых результатов и отбор заданий

Для включения в тесты

В табл. 3.5 приведены некоторые показатели, рассчитанные по результатам пробного тестирования.

Таблица 3.5 - Анализ результатов тестирования*[10]

ПОКАЗАТЕЛИ Номер задания
Кол-во правильных ответов
Кол-во неправильных ответов
Доля правильных ответов, pj 0,8 0,7 0,6 0,5 0,5 0,4 0,3 0,2
Доля неправильных ответов, qj 0,2 0,3 0,4 0,5 0,5 0,6 0,7 0,8
Потенциал трудности, qj/pj 0,00 0,25 0,43 0,67 1,00 1,00 1,50 2,33 4,00 -
Дисперсия баллов, pj×qj 0,16 0,21 0,24 0,25 0,25 0,24 0,21 0,16
Коэффициент корреляции баллов по заданию с суммарными баллами по всему тесту - 0,41 0,62 0,75 0,82 0,82 0,75 0,62 0,41 -

Наиболее важными из приведенных в табл. 3.5 показателями являются:

1) потенциал трудности;

2) дисперсия баллов;

3) коэффициент корреляции баллов по заданию с суммарными баллами по всему тесту.

Именно эти показатели являются критериями, по которым можно судить о том, может ли задание в тестовой форме использоваться в тестах, т.е. называться тестовым заданием.

Первый показатель соответствует требованию (см. раздел 1.2) известной трудностизадания. Как видно из табл. 3.5, этому требованию не соответствуют задания №1 и №10, что подразумевает необходимость их «ревизии» разработчиком с целью выявления причин (задание слишком легкое или слишком трудное, неверно сформулировано, содержит «подсказку» в вариантах ответов, неверно воспринимается испытуемыми и т.п.). После «ревизии» задание либо перерабатывается, либо исключается и в тестах не используется.

Не менее важна и дисперсия баллов, которая может служить показателем дифференцирующей способностизадания, т.е. его способности разделить группу испытуемых на сильных и слабых. Чем больше дисперсия баллов, тем лучше дифференцирующая способность задания. Однако, задания с невысоким значением дисперсии (например, задания №2 и №9) также могут использоваться в тестах (с учетом значения коэффициента корреляции с суммарными баллами по всему тесту). Такие задания позволяют более четко отделить совсем неподготовленных от тех, кто знает на «3» и, соответственно тех, кто знает на «5», от тех, кто «не дотягивает» до максимальной оценки.

Третий показатель – коэффициент корреляции баллов по заданию с суммарными баллами по всему тесту, является наиболее важным. Если его значение невелико, то без соответствующего задания в тесте, видимо, можно обойтись. Напротив, задания с большим значением указанного коэффициента (выше 0,7) могут считаться «ведущими» или «тестообразующими» заданиями, «ключевыми» для данной дисциплины или ее раздела. Рекомендуют включать задание в тест при том условии, что коэффициент корреляции составляет величину не ниже 0,25-0,3.

Для вычисления коэффициента корреляции в нашем случае наиболее удобной представляется формула [6]

По результатам пробного тестирования - student2.ru ,

где По результатам пробного тестирования - student2.ru - балл за задание; По результатам пробного тестирования - student2.ru - суммарный балл по тесту; По результатам пробного тестирования - student2.ru - количество испытуемых в группе.

Рассчитаем для примера коэффициент корреляции балов по заданию №5 с суммарными тестовыми баллами применительно к приведенной в табл.3.4 матрице тестовых результатов (см. табл. 3.6).

Таблица 3.6 – Расчет коэффициента корреляции

Испытуемый Балл за задание №5, По результатам пробного тестирования - student2.ru Суммарный балл по тесту, По результатам пробного тестирования - student2.ru По результатам пробного тестирования - student2.ru По результатам пробного тестирования - student2.ru По результатам пробного тестирования - student2.ru
1. Абрамов
2. Дмитриев
3. Васильев
4. Борисов
5. Щетинин
6. Зыков
7. Григорьев
8. Кириллов
9. Иванов
10. Жуков
S

Отсюда

По результатам пробного тестирования - student2.ru

При использовании для анализа тестовых результатов компьютерной техники целесообразно воспользоваться для расчета коэффициентов корреляции соответствующей функцией табличного процессора Excel.

Не менее важно и сопоставление результатов тестирования, полученных в параллельных (различных) группах. Такое сопоставление производится путем сравнения потенциалов трудности, дисперсий и коэффициентов корреляции баллов по заданиям с суммарными баллами по тесту, которые в идеале должны отличаться незначительно. Существенные отличия указанных показателей могут свидетельствовать либо о невысокой воспроизводимости тестовых результатов (т.е. на одинаковых по уровню группах один и тот же тест дает различные результаты), либо о существенно различающемся уровне подготовленности испытуемых в разных группах (т.е. группы не являются параллельными).

Проверку параллельности групп можно произвести путем оценки однородности дисперсий суммарных тестовых результатов, используя соответствующие статистические критерии - Фишера, Кочрена, Бартлета [7]. По этим критериям можно при достаточно высоком уровне значимости (рекомендуется 0,05) проверить, насколько параллельные группы отличаются по среднему уровню подготовленности.

Еще одним приемом, который можно использовать при обработке результатов тестирования, является объединение результатов тестирования параллельных групп. Этот прием рекомендуется использовать при небольшом числе испытуемых в отдельных группах, но перед «объединением» результатов желательно произвести проверку однородности дисперсий по критериям, упомянутым выше.

Наши рекомендации