Характеристики тестовых заданий

После обработки тестовых данных и интерпретации результатов обработки предтестовые задания обретают статус тестовых. Правда, в категорию тестовых попадают не все, а только те, которые обладают хорошими статистическими характеристиками. Процедура выявления характеристик получила название анализа заданий (Item Analysis) [59]. В общем случае она включает оценку трудности задания, его корреляции с другими заданиями и общим показателем по тесту, факторный анализ, шкалирование заданий с помощью аппарата IRT и определение некоторых других характеристик.

Первая, наиболее важная характеристика — это трудность заданий теста.

Трудность тестовых заданий.Оценка трудности тестовых заданий проводится по-разному в зависимости от выбранной теории методов обработки эмпирических результатов выполнения теста. В классической теории оценка трудности j-го задания получается по формуле

Характеристики тестовых заданий - student2.ru

где pj — доля правильных ответов на j-е задание; R. — количество учеников, выполнивших j-e задание верно; N— число учеников в тестируемой группе; j— номер задания теста.

В тесте из п заданий у принимает значения j = 1, 2,..., п. Трудность задания нередко выражают в процентах, тогда формула для оценки трудности имеет вид

Характеристики тестовых заданий - student2.ru

где Рj — трудность в процентах.

Без сомнения, долю правильных ответов на задание р. естественно интерпретировать как легкость задания. В то время как трудность скорее ассоциируется с долей неправильных ответов qj, которая находится путем вычитания pj из единицы:

Характеристики тестовых заданий - student2.ru

Однако по сложившейся традиции в рамках классической теории тестов за трудность задания принимается именно доля р..

Для примера матрицы из табл. 5.3 доля правильных ответов на первое задание

Характеристики тестовых заданий - student2.ru

а доля неправильных ответов ql= 1-0,9 = 0,1 и т. д.

Характеристики тестовых заданий - student2.ru

После перевода доли bj в проценты 0,9 • 100% = 90% первое задание следует отнести к категории крайне легких: его выполнили примерно 90% тестируемой выборки учеников.

В рамках IRT трудность задания р. выражают в виде натурального логарифма дроби

Характеристики тестовых заданий - student2.ru

(подробнее см. в разд. 5.3).

Представление о трудности заданий теста легко получить путем анализа гистограммы, такой, как, например, на рис. 5.34.

В рассматриваемом примере (не относящемся к матрице из табл. 5.3) гистограммы явно просматриваются недостатки в подборе по трудности заданий теста. Первый недостаток связан с тем, что задания не ранжированы по нарастанию трудности так, как обычно рекомендуется располагать задания в итоговых тестах. Тест начинается с трудного первого задания, которое смогли выполнить всего 10% учеников. Затем идет второе, тоже довольно трудное задание (р2= 20%). Третье задание — слишком легкое: с ним справились все без исключения, и четвертое — тоже довольно легкое: его выполнили верно 90% учеников и т.д. Второй недостаток—отсутствие заданий средней трудности ср- 0,5. Конечно, при отборе предтестовых заданий в процессе формирования теста разработчик вовсе не планировал такую гистограмму, как на рис. 5.34. Он думал, что располагает задания по нарастанию трудности, которая для большинства заданий, по его мнению, была близка к 50%. Тем не менее наделе, как этого и следовало ожидать, предполагаемые начальные оценки трудности заданий, основанные на субъективных суждениях автора теста, оказались далеки от статистических, полученных на выборке учеников.

Характеристики тестовых заданий - student2.ru

Рис. 5.34. Гистограмма трудности заданий теста

Конечно, рассматриваемый пример носит чисто гипотетический характер, однако все положения, развиваемые на нем, применимы к реальной ситуации разработки теста. Такая ситуация, как на рис. 5.34, в практике создания тестов наблюдается довольно редко. Обычно после первой эмпирической проверки автор получает распределение заданий по трудности, подобное приведенному на рис. 5.35, где встречаются задания самой разной трудности, в том числе и ср = 0,5.

Хорошо сбалансированный по трудности тест показан на рис. 5.36.

Характеристики тестовых заданий - student2.ru

Рис. 5.35. Типичная гистограмма трудности заданий теста в начале работы

Характеристики тестовых заданий - student2.ru

Рис. 5.36. Гистограмма хорошо сбалансированного по трудности теста

Таким образом, правильно сконструированный тест не может состоять только из легких или только из трудных заданий. Он включает всякие, самые различные по трудности задания. Хотя это правило нужно учитывать уже на начальном этапе создания теста, полагаться следует только на эмпирические оценки, а не на свое видение трудности заданий теста.

В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значениями р -» 0. Есть несколько самых легких с р -» 1. Остальные задания по значениям р занимают промежуточное положение между этими крайними ситуациями и имеют в основном трудность 60-70%. Таким образом, основная масса заданий по трудности приближается к середине распределения, как на рис. 5.37, отражающем нормальный закон.

Еще один аргумент в пользу преимущественного включения заданий средней трудности с р = 0,5 связан с подсчетом дисперсии по каждому заданию теста

Характеристики тестовых заданий - student2.ru

Так как произведение pjqj д. достигает максимального значения (0,5 • 0,5 = 0,25) при р.- 0,5 = q,, то в рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности р = q = 0,5, обеспечивающие максимальный вклад в общую дисперсию теста.

И наконец, в пользу преимущественного выбора заданий средней трудности свидетельствует подсчет ошибки измерения, которая уменьшается по мере продвижения к центру распределения, где расположены задания средней трудности, и увеличивается на концах.

Характеристики тестовых заданий - student2.ru

Рис. 5.37. Типичное распределение по трудности заданий теста

Правдоподобность дистракторов (для закрытых заданий). Оценка правдоподобности дистракторов основана на подсчете долей испытуемых, выбравших каждый неправильный ответ. Например, если группа из 100 испытуемых выполняла j-е задание теста с пятью ответами, из которых один верный, и 60 испытуемых выполнили задание верно, то р.= 0,6. Оставшиеся 40 испытуемых должны были равномерно распределиться между четырьмя дистракторами. Тогда распределение долей ответов на задание должно выглядеть следующим образом (табл. 5.22) (звездочкой отмечен верный ответ).

Таблица 5.22. Распределение долей испытуемых между ответами на задание теста

Номер задания 1-й ответ 2-й ответ 3-й ответ* 4-й ответ 5-й ответ
j 0,1 0,1 0,6 0,1 0,1

Конечно, реальные результаты на практике редко совпадают с описанной гипотетической, идеализированной ситуацией. Даже у опытных авторов в заданиях сплошь и рядом встречаются неправдоподобные дистракторы, которые по результатам эмпирической проверки приходится менять. Анализ правдоподобности дистракторов, проведенный в реальной ситуации по результатам выполнения 42 заданий теста выборкой из 100 испытуемых, показан в табл. 5.23. В первом столбце табл. 5.23 помещены номера заданий

Таблица 5.23. Анализ правдоподобности дистракторов

Номер задания Всего Распределение ответов тестируемых
1-й ответ 2-й ответ 3-й ответ 4-й ответ
тест. % тест. % тест. % тест. %
8,2 1,0 67,0* 23,0
4,1 21,0 2,1 72,0*
13,0 75,0* 6,2 5,2
20,0 30,0 25,0* 26,0
21,0* 43,0 23,0 И 11,0
0,0 6,2 94,0* 0,0
5,2 82,0* 4,1 8,2
16,0 29,0 26,0 27,0*
19,0 2,1 73,0* 6,2
13,0 12,0 66,0* 7,2
3,1 64,0* 18,0 15,0
19,0 10,0 61,0* 6,2
48,0 34,0* 9,3 7,2
42,0 38,0* 10,0 7,2
9,3 3,1 26,0 59,0*
2,1 2,1 И 11,0 85,0*
33,0 61,0* 2,1 .3,1
18,0 11,0 21,0 48,0*
2,1 4,1 88,0* 4,1
27,0* 12,0 44,0 14,0
11,0 11,0 51,0* 22,0
19,0 23,0 15,0 35,0*
62,0* 9,3 15,0 6,2
27,0 20,0* 13,0 28,0
20,0 25,0 41,0* 7,2
36,0 24,0 40,0* 0,0
3,1 11,0 2,1 79,0*
37,0 19,0 37,0* 7,2
4,1 22,0* 63,0 3,1
70,0* 7,2 5,2 11,0
3,1 3,1 26,0* 61,0
12,0 18,0 21,0 42,0*
8,2 65,0* 6,2 14,0
30,0* 25,0 24,0 11,0
8,2 11,0* 52,0 25,0
13,0 70,0* 6,2 3,1
36,0 39,0 7,2 12,0*
32,0 1,0 23,0 33,0*
73,0* 5,2 8,2 8,2
33,0 46,0* 9,3 6,2
40,0* 36,0 5,2 7,2
3,1 9,3 28,0 51,0*

Таблица 5.24. Значения коэффициента точечно-бисериальной корреляции

Задание 1-й ответ 2-й ответ 3-й ответ 4-й ответ
-0.1 -0,2 0,3* -0,2
-0,2 -0,3 -0,2 0,4*
-0,3 0,4* -0,3 -0,1
-0,2 0,3 ОД* -0,2
0,3* 0,0 -0,1 -0,2
  -0,1 0,1*  
-0,2 0,2* 0,1 -0,2
-0,1 0,2 -0,1 0,0*
-0,2 0,0 0,3* -0,2
-0,1 -0,3 0,3* -0,1
0,0 0,4* -0,3 -0,2
-0,2 0,0 0,3* 0,0
-0,3 0,2* 0,0 0,3
-0,4 0,5* 0,0 0,0
0,1 -0,2 0,1 0,0*
-од -0,2 -0,3 0,4*
0,1 -0,1* 0,0 од
-0,3 0,0 -0,0 0,2*
-0,1 -0,2 0,4* -0,2
0,1* -0,1 0,1 -0,2
-0,3 -0,2 0,4* 0,0
0,2 -од 0,0 0,2*
0,6* -0,2 -0,2 -0,1
0,0 0,3* -0,1 0,1
-0,2 ОД 0,2* 0,1
-0,4 0,0 0,3*  
-0,1 -0,3 -0,1 0,5*
-0,4 -0,1 0,5* -0,2
-0,2 0,2* 0,2 0,0
0,6* -0,2 -0,3 -0,2
0,0 0,0 -0,1* 0,3
-0,1 -0,1 -0,1 0,4*
-0,3 0,6* -0,1 -0,2
0,3* 0,0 0,0 -0,1
-0,2 -0,1* 0,1 0,3
-0,1 0,5* -0,2 -0,1
0,2 -0,2 0,0 0,2*
0,1 -0,1 -0,1 0,3*
0,5* -0,3 0,0 -0,3

Окончание табл. 5.24

Задание 1-й ответ 2-й ответ 3-й ответ 4-й ответ
0,2 0,2* -0,4 -0,2
0,3* 0,0 . 0,1 -0,1
0,1 -0,1 -0,1 0,4*

теста. Второй столбец указывает на число испытуемых, выполнявших каждое из заданий первого столбца, все последующие столбцы содержат число и процент испытуемых, выбравших каждый из ответов к заданиям теста. Звездочкой отмечен процент, соответствующий правильному ответу к заданиям.

Анализ первой строки позволяет собрать полезную информацию о качестве задания 1 теста. В нем правильным является 3-й ответ, и поэтому число Р1 = 67% в столбце, соответствующем 3-му ответу, указывает на трудность задания 1 теста. Из 96 испытуемых, выполнивших задание, 65 справились с ним успешно, а остальные (96 - 65= 31) распределились между дистракторами к заданию 1 теста. Среди неправильно выполнивших это задание 8 тестируемых выбрали 1-й дистрактор, один тестируемый выбрал 2-й дистрактор и 22 испытуемых остановились при выполнении задания на 4-м, неправильном ответе.

Проведенный анализ позволяет сделать выводы о качестве разработанных дистракторов к заданию 1 с точки зрения их привлекательности для незнающих учеников.

Очень похож на правильный 4-й ответ: его выбрали 22 из 31 ученика. Второй ответ, выполняющий функцию дистрактора, явно непривлекательный: его выбрал всего один ученик, и потому этот ответ как неработающий дистрактор подлежит изменению либо удалению из теста.

Несомненно, нуждаются в переработке 1-й и 4-й ответы из задания 6, поскольку их не выбрал ни один человек из шести (97 — 91 = = 6), неправильно выполнивших это задание теста. Оба дистрактора ничего не дают для задания. Они просто создают иллюзию существования задания с четырьмя ответами. Необходимо также изменить 4-й ответ в задании 26, 2-й ответ в 38 и т.д.

Таким образом, в хороших заданиях с выбором ответов неверно ответившие ученики должны распределяться почти равномерно между всеми предложенными дистракторами. Дистракторы, которые выбирают менее 5% неверно ответивших испытуемых, должны быть удалены из теста.

Углубленный вариант дистракторного анализа построен на подсчете значения точечно-бисериального коэффициента корреляции для каждого дистрактора в заданиях теста. Формула для подсчета значений коэффициента и методика расчета приведены в разд. 5.2 (5.10). Отрицательные значения коэффициента корреляции указывают на ситуацию, когда хорошо выполнившие тест испытуемые не будут выбирать данный дистрактор в качестве правильного ответа.

Значения коэффициента точечно-бисериальной корреляции для примера из табл. 5.23 приводятся в табл. 5.24 (звездочка соответствует правильному ответу).

Выделенные положительные значения коэффициента точечно-бисериальной корреляции для дистракторов (например 2-й ответ в задании 4, 2-й ответ в задании 8, 4-й в 13 и т. д.) указывают на то, что эти неверные ответы выбирают в качестве правильных сильные ученики, что явно противоречит представлению преподавателя о хороших заданиях теста. Поэтому подобные задания, несомненно, следует проанализировать, и, если просчет в содержании не поддается коррекции, то просто удалить из теста. При правильном положении вещей значения коэффициента точечно-бисериальной корреляции для дистракторов должны быть отрицательными и превышающими по модулю 0,2. Положительные или близкие к нулю значения коэффициента для дистракторов говорят о необходимости их исключения либо переделки неправильных ответов.

В отличие от дистракторов в хороших заданиях правильные ответы выбираются сильными учениками. Поэтому значения коэффициента точечно-бисериальной корреляции на месте ответов со звездочкой не могут быть отрицательными. Правильным ответам должны соответствовать значения коэффициента корреляции, превышающие 0,5. Для случая, когда правильный ответ не выбирают сильные ученики (например в задании 31 или в заданиях 17, 35 из табл. 5.24), коэффициент корреляции бывает близким к нулю или даже меньше нуля. Отрицательная или нулевая корреляция для верного ответа может отражать случайный характер ответов учеников, наличие систематических проблем в усвоении проверяемого материала, вызванных дефектами преподавания либо некорректную формулировку задания теста.

ДИСКРИМИНАТИВНОСТЬ ТЕСТОВОГО ЗАДАНИЯ

Дискриминативностью (discriminatory power) называется способность задания дифференцировать учеников на лучших и худших. Высокая дискриминативность — важная характеристика удачного тестового задания. Это утверждение становится вполне понятным, если вспомнить, что достижение дифференцирующего эффекта — главная цель создания нормативно-ориентированных тестов. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью.

Конечно, дискриминативность не единственный показатель качества тестовых заданий в нормативно-ориентированных тестах. В целом дифференцирующий эффект зависит от многих составляющих: корреляции между заданиями, числа заданий и от других характеристик, среди которых все же наиболее важное место отводится показателю дискриминативности каждого задания теста.

Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле

Характеристики тестовых заданий - student2.ru

где (rдис)- — индекс дискриминативности для j-го задания теста; (p1)j — доля учеников, правильно выполнивших j-е задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (р0)i. — доля учеников, правильно выполнивших j-е задание в подгруппе из 27% худших учеников по результатам выполнения теста.

Значения индекса rдис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [-1;1]. Максимального значения 1,00 индекс rдис достигнет в том случае, когда все ученики из подгруппы лучших верно выполнят j-e задание теста, а из подгруппы худших это задание не выполнит верно ни один ученик. В этом случае задание будет обладать максимальным дифференцирующим эффектом.

Нулевого значения индекса rдис достигнет в том случае, когда в обеих подгруппах будут равны доли учеников, правильно выполнивших j-е задание теста.

И наконец минимальное значение rдис = -1 будет в ситуации, когда данное задание теста все сильные ученики сделали неверно, а все слабые — верно. Естественно, что задания второго и третьего типа с rдис = 0 или rдис < 0 из теста следует удалить.

Значения rдис для 42 заданий теста, полученные на выборке из 100 испытуемых, приведены в табл. 5.25.

По результатам анализа данных правого столбца ясно, что задания 6,8, 15,17,31,35 и 37 должны быть удалены из теста. Оценки rдис для заданий 4, 20 и 29 очень близки к критическому значению

Таблица 5.25. Значения rдис для теста из 42 заданий

Номер задания Все Группа Индекс
слабая сильная
67,0 48,0 87,0 0,39
72,0 48,0 94,0 0,45
75,0 55,0 90,0 0,35
25,0 16,0 32,0 0,16
21,0 6,5 32,0 0,26
94,0 90,0 97,0 0,065
82,0 74,0 94,0 0,19
27,0 26,0 29,0 0,032
73,0 58,0 94,0 0,35
66,0 55,0 87,0 0,32
64,0 42,0 97,0 0,55
61,0 45,0 74,0 0,29
34,0 9,7 42,0 0,32
38,0 16,0 71,0 0,55
59,0 68,0 58,0 -0,097
85,0 65,0 97,0 0,32
61,0 71,0 61,0 -0,097
48,0 42,0 68,0 0,26
88,0 71,0 94,0 0,23
27,0 16,0 29,0 0,13
51,0 ъ 26,0 65,0 0,39
35,0 16,0 42,0 0,26
62,0 29,0 87,0 0,58
20,0 9,7 39,0 0,29
41,0 23,0 42,0 0,19
40,0 23,0 65,0 0,42
79,0 55,0 100,0 0,45
37,0 6,5 61,0 0,55
22,0 13,0 29,0 0,16
70,0 29,0 94,0 0,65
26,0 32,0 19,0 -0,13
42,0 19,0 71,0 0,52

Окончание табл. 5.25

Номер задания Все Группа Индекс
слабая сильная
65,0 26,0 90,0 0,65
30,0 13,0 42,0 0,29
11,0 16,0 0,0 -0,16
70,0 42,0 94,0 0,52
12,0 9,7 16,0 0,065
33,0 16,0 52,0 0,35
73,0 42,0 90,0 0,48
46,0 29,0 58,0 0,29
40,0 32,0 58,0 0,26
51,0 29,0 74,0 0,45

(близки к нулю). Поэтому для заданий последней группы необходим тщательный анализ содержания. Правда, возможно, что виновато не содержание, а полученные низкие значения отражают случайный характер ответов учащихся или появление при изучении проверяемого материала в тесте каких-либо проблем, наличествовавших ранее.

Более точное представление о дискриминативной способности задания можно составить, подсчитав коэффициент (rpbis) бисериальной корреляции, процесс вычисления значений которого подробно рассмотрен в разд. 5.2. Помимо приведенной в разд. 5.2 формулы для rpbis можно использовать другие, дающие близкие значения:

Характеристики тестовых заданий - student2.ru

где (rpbis)- — коэффициент точечно-бисериальной корреляции для у-го задания; (X\)j — среднее значение индивидуальных баллов учеников, выполнивших верно j-е задание; (X1)j — среднее значение индивидуальных баллов учеников, выполнивших j-е задание неверно; X — среднее значение баллов по всей выборке учеников; Sx —. стандартное отклонение по множеству индивидуальных баллов.

Логика рассуждения при оценке результатов, полученных по формулам (5.62) или (5.63), остается та же, что раньше: чем выше корреляция, тем лучше задание теста. Задания с близкими к нулю и отрицательными значениями rpbis должны быть удалены из теста. Однако в реальной ситуации создания теста встречаются случаи, когда задание кажется разработчику крайне удачным по содержанию, однако наряду с этим имеет близкую к нулю корреляцию с суммой баллов по тесту. В этой связи возникает вопрос о выборе критического числа, ниже которого не могут спускаться значения rpbis при отборе заданий теста. По мнению многих специалистов (L. Crocker, J. Algina, P. Kline и др.) [11,41 и др.], в качестве такого критического числа следует выбрать 0,2, и потому все задания со значением rpbis<0,2 должны быть удалены из теста.

Вместо rpbis можно использовать rbis, который труднее вычислять для тех же данных по заданиям теста. Правда, в силу того, что значения rbis несколько выше значений /-pbis по одному и тому же заданию, критическим числом для rbis следует считать 0,3. Таким образом, все задания со значением rbis < 0,3 должны быть удалены из теста.

Еще более точные представления о дискриминативности заданий дает подсчет в рамках IRT дифференцирующей способности заданий теста (разд. 5.3.). Оценка параметра дифференцирующей способности j-го задания теста производится по формуле, которая для удобства читателей приводится еще раз:

Характеристики тестовых заданий - student2.ru

где (rbis)j — коэффициент бисериальной корреляции для j- го задания теста.

В отличие от rbis бисериальный коэффициент корреляции rbis может принимать значения, выходящие за пределы интервала [-1, 1 ]. Обычно это происходит в том случае, когда распределение результатов по заданию отличается от нормального, и потому rbis может быть найден не всегда и не для всех заданий теста.

В тех случаях, когда |rbis|< 1, Oj принимает значения в интервале (—о°; +оо). Однако этот интервал имеет чисто теоретическое значение, реальные значения а. обычно лежат в интервале от 0,5 до 2,5.

Правда, задания с aj < 1 считаются неудачными, поскольку их дифференцирующая способность при делении группы на слабых и сильных крайне слаба. Обычно при конструировании теста отдают предпочтение заданиям со значениями в интервале 1 < aj < 2,5.

Задания aj >2,5 обладают крайне высокой дифференцирующей способностью, однако захватывают весьма небольшой участок оси латентной переменной 6 (разд. 5.3), поэтому их обычно используют только в тех случаях, когда необходимо достичь максимальной дискриминативности (например вблизи критерия выполнения теста) для небольшой окрестности вблизи критического значения 0 на оси измеряемой переменной. Во всех остальных случаях используют умеренно крутые задания со значениями aj немногим больше единицы.

Не следует считать, что предложенные оценки дискриминативности заданий (rmc)j, (rpbis)j, (rbis)j и ajкаким-то образом конкурируют друг с другом в процессе анализа качества заданий теста. Все они описывают одну и ту же характеристику задания, но на различных уровнях с точки зрения точности описания и задействованного математического аппарата. Конечно, самым простым, но самым примитивным способом характеризует дискриминативность задания, который легко вычислить для группы тестируемых в 100—200 человек с помощью обычного калькулятора.

Более точную характеристику дискриминативности задания обеспечивает rbis, для вычисления которого на сравнительно больших выборках необходимы специальное программное обеспечение и компьютер. Еще лучше в процессе анализа использовать rbis. Однако здесь разработчику понадобятся статистические таблицы для ординаты нормированной нормальной кривой либо довольно сложное программное обеспечение, реализующее методы подсчета одного из пределов несобственного интеграла.

Несомненно, оптимальной характеристикой с точки зрения качества описания является дифференцирующая способность задания — параметра а,, оценка которого сопряжена с использованием сложного математического аппарата, программного обеспечения и ПЭВМ. Процедура вычисления значений аj (j=1, 2,..., и) довольно длинна, поэтому на практике разработчики нередко ограничиваются подсчетом rbis. Показатель дискриминативности обычно отождествляют с характеристикой валидности задания теста, т.е. с его пригодностью задания служить поставленной цели измерения. Для нормативно-ориентированных итоговых тестов такая трактовка представляется вполне закономерной, так как основная цель их создания — дифференциация учеников по уровню подготовки. Таким образом, чем выше дискриминативность задания, тем выше его валидность в тесте.

Интересна взаимосвязь показателей трудности и дискриминативности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен в первую очередь высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с р = 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект.

Гомогенность (однородность)

При конструировании теста необходимо иметь четкое представление о содержании заданий, которые предполагается включить в окончательную версию теста. Содержание заданий должно отвечать свойству гомогенности, указывающему на степень его однородности с точки зрения оцениваемого качества ученика. Таким образом, гомогенность (однородность) — это характеристика задания, отражающая степень соответствия его содержания измеряемому свойству ученика. В педагогических итоговых тестах роль оцениваемого свойства отводится уровню подготовки по предмету.

Конечно, на свете нет таких разработчиков, которым удалось бы создать полностью гомогенные тесты, в равной степени как и нет таких тестов. И это вполне понятно, так как при выполнении теста по любой дисциплине всегда приходится задействовать более или менее широкий круг знаний и умений по другим предметам. Например, при выполнении теста по физике необходимо проявить знания и умения по математике, в тесте по биологии — знания и умения по химии, в тесте по истории — знания по культурологии и т.д. Поэтому говорить о полностью гомогенном содержании заданий не представляется возможным.

Степень гомогенности содержания обычно оценивают с помощью факторного анализа. Для вывода о приемлемой степени гомогенности достаточно лишь того, чтобы доминирующий фактор, в основном определяющий результаты выполнения задания, был ориентирован на проверяемый предмет.

Представление о степени гомогенности задания как составляющей системы заданий в тесте можно получить с помощью анализа парных корреляций (см. разд. 5.2). Если какое-либо задание отрицательно коррелирует с остальными, то есть веские основания для сомнений в его гомогенности. Наоборот, значимые, высокие оценки корреляции указывают на высокую степень однородности содержания заданий теста.

Правда, при увеличении интеркорреляции заданий сужается содержательная область, отраженная в тесте, что желательно в тематических, но недопустимо в итоговых тестах для оценки уровня подготовки по предмету. Поэтому при создании итоговых нормативно-ориентированных тестов стараются отобрать задания с положительными, но невысокими значениями коэффициентов парной корреляции в пределах интервала (0; 0,3) (см. подробнее разд. 5.2).

После отбора в тест гомогенных заданий можно сделать вывод о том, что полученная система заданий измеряет одно и то же свойство ученика. Таким образом, включение в тест гомогенных заданий обеспечивает одномерность оцениваемого свойства ученика, которым в случае конструирования итогового педагогического теста является уровень подготовки по предмету. Термин «одномерность» нередко используют для обозначения гомогенного задания теста. Со свойством одномерности задания непосредственно связана его локальная независимость.

локальная независимость тестового задания

Свойство локальной независимости означает, что при любом фиксированном уровне подготовки ответы учеников на каждую группу заданий являются статистически независимыми. Другими словами, при фиксированном значении параметра ученика (или группы учеников) 6 (см. разд. 5.3) нет никакой связи между вероятностями правильных ответов на различные задания теста. Конечно, предположение о локальной независимости носит скорее формальный, нежели реальный характер, поскольку на деле ответы ученика на задания связаны между собой, причем эта связь тем больше, чем выше корреляция между заданиями и чем больше пересечение содержательных элементов в различных заданиях теста.

Однако, несмотря на формальный характер, предположение о локальной независимости задания крайне существенно для использования соответствующего математического аппарата IRT. Оно позволяет рассматривать вероятность выполнения совокупности заданий как произведение вероятностей выполнения отдельных заданий теста и реализовать на основе теоремы об умножении вероятностей определенные возможности аппарата 1КТдля получения оценок наибольшего правдоподобия параметров вир (см. разд. 5.3). В этой связи разработчики стараются включать в тест задания с невысокими значениями коэффициента интеркорреляции, обеспечивающие хотя бы приближенное отражение идеи локальной независимости в практике создания теста. Без сомнения, требование локальной независимости полностью исключает возможность включения в тест цепочных заданий, когда ответ предыдущего задания входит в набор данных к последующему заданию теста.

весовой коэффициент задания

Вопрос об оптимальных весовых коэффициентах при определении вклада каждого задания в итоговый балл ученика решается по-разному. Большинство специалистов склоняются к выводу о преимуществе дихотомической оценки по результатам выполнения каждого задания теста. При этом ученик получает 1 за правильное выполнение задания и 0 за пропуск либо неверный ответ. Сторонники дихотомической оценки руководствуются весьма простым соображением, подкрепленным соответствующими математическими выкладками [45]. Проигрыш в точности измерений будет существенно меньше, если ограничиться дихотомической оценкой, а весовыми коэффициентами, выбранными на основе субъективных суждений экспертов либо субъективных представлениях автора.

Распространенный в нашей стране подход к выбору весовых коэффициентов основан на подсчете числа шагов, необходимых для выполнения задания теста. Логика сторонников этого подхода примерно такова: чем больше шагов требуется для выполнения задания, тем больше должен быть вклад задания в общую оценку по тесту.

Вполне понятны основания для критики, поскольку налицо явный формализм в оценке вклада в итоговый балл каждого задания теста. При такой постановке вопроса сумма большого количества простых шагов при выполнении задания, требующего репродуктивного уровня деятельности, может давать больший вклад, чем один довольно труд

Наши рекомендации