Положительной связи, однако не позволяет ввести обобщенную ее меру

Примеры различного вида диаграмм, позволяющих графически интерпретировать характер связи между наборами данных А'и Y, приведены на рис. 5.16.

Прямая связь

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Ковариация. Без сомнения, необходимо поставить вопрос о вве­дении определенной меры для выражения степени соответствия между наборами данных Х и Y. Точнее сказать, той меры, которая позволит выявить степень соответствия больших значений из мно­жества X большим же значением из множества Y (прямая связь) либо, наоборот, больших значений из Х малым из Y (обратная связь). Подобная мера связи называется ковариацией. Для выявления смысла понятия «ковариация» удобно рассмотреть результаты вы­полнения группой испытуемых двух тестов Х и Y, образующих два множества.

Пусть результаты по первому тесту X— это множество Xi (i = 1, 2,..., N), а по второму тесту — Yi(i= 1,2,..., /V). Тогда для установле­ния меры связи между результатами тестирования необходимо сравнить положение каждого тестируемого в выборках относитель­но данных по тесту Х и по тесту Y. Обычно это положение устанав­ливают по отношению к среднему, тогда степень соответствия ре­зультатов i-го испытуемого в первом (А) и во втором (Y) тестированиях будет проявляться в величине и знаке произведения отклонений

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

где Xi Yi — результаты /-го испытуемого в первом и во втором тестированиях соответственно (/= 1, 2, ..., N); X, Y — средние значения результатов по тестам; N — число учеников тестируемой группы.

При подсчете произведений для различных результатов учеников тестируемой группы выявляется интересная закономерность. Если результат i-го ученика выше среднего балла по обоим тестам,

то произведение (Xj-X)(Yj-Y) будет большим и положительным.

Аналогично выглядит произведение отклонений для случая, когда результаты ученика намного ниже средних баллов по обоим тестам, поскольку произведение двух отрицательных чисел

(Xj г - X < О и I - Y < 0) также больше нуля.

Таким образом, при прямой связи значений Х( и Yi(i=l, 2, ..., N) по тестам Х и К большие значения X. соотносятся с большими значениями Y.f, а малые значения X. с малыми Yr Тогда произведение (Xj - X)(Yj - Y) будет положительным для всех или почти всех

результатов учеников тестируемой группы. Соответственно большой и положительной получится сумма всех произведений, т.е.

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

будет намного больше нуля для случая, когда результаты по тестам Х и У связаны прямой зависимостью.

При обратной связи результатов тестирования значения Xf выше

(ниже) среднего X по тесту X сменяются на значения Yt ниже (выше) среднего F по тесту Y, а сумма

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

будет велика по модулю и меньше нуля в силу отрицательного знака всех или почти всех произведений (Xj - X)(Yi - F) .

Наконец, в том случае, когда систематической связи между результатами учеников по тестам Хн Уне наблюдается, знак произведения (X,-X)(Yj-Y) будет хаотически меняться. Скорее всего, в сумме произведений, подсчитанных по достаточно большой выборке учеников, положительные слагаемые будут уравновешиваться отрицательными и потому сумма произведений

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

получится близкой к нулю.

Таким образом, произведение (Xj-X)(Yj-Y) по знаку и абсолютной величине отражает характер связи между наборами данных, что является ее несомненным достоинством. Однако выбору этой суммы в качестве обобщенной меры связи препятствует ее зависимость от объема выборки объектов, участвующих в измерении, в то время как для сравнения мер связи между результатами тестовых измерений по выборкам разного объема необходимо иметь показатель, не зависящий от размеров выборок. Такой показатель позволяет получить операция усреднения, осуществляемая путем деления суммы произведений отклонений на число испытуемых в выборке. Поэтому в качестве меры связи выбирается величина

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

которая называется ковариацией и обозначается символом 5.

Коэффициент корреляции Пирсона. Для повышения сопоставимости оценок показателей связи по выборкам с различной дисперсией ковариацию делят на стандартные отклонения. Таким образом, S^ необходимо разделить на Sx и Sy, где Sx и S' — стандартные отклонения по множествам Х и У соответственно. В результате получается величина, которая называется коэффициентом корреляции Пирсона Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru :

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Переход к другой, не содержащей X и Y формуле показан в приложении 5.4.

Коэффициент (р. Для оценки связи между результатами выполнения двух заданий теста коэффициент корреляции Пирсона

необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале (см. табл. 5.3). Действительно, в матрице содержатся столбцы из нулей и единиц. Каждая единица и каждый нуль соответствуют результатам ответов учеников на задания теста.

Преобразованный коэффициент Пирсона, вычисляемый по дихотомическим данным, называется коэффициентом «фи». (Переход от г к ф-коэффиценту показан в приложении 5.5.) После перехода формула для вычисления коэффициента корреляции фij результатов по двум заданиям теста с номерами i и j имеет вид

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Результаты подсчета значений коэффициента корреляции между результатами по отдельным заданиям теста сводятся в матр

ицу, которая для данных табл. 5.3 имеет вид табл. 5.10.

Интерпретация. Анализ значений коэффициента корреляции в табл. 5.10 позволяет выделить задания 3 и 8 теста. Поданным таблицы, задание 3 отрицательно коррелирует с заданиями 7, 8,9 и 10 теста. О том, что «виновато» третье, а не другие задания теста, свидетельствует анализ значений коэффициента корреляции в столбцах с номерами семь, девять и десять. В них просматривается только один минус на месте, соответствующем заданию теста 3, которое в свою очередь отрицательно коррелирует с четырьмя заданиями теста.
Таблица 5.10. Матрица коэффициентов корреляции заданий для табл. 5.3

 
1,0000 0,6667 0,5092 0,4082 0,3333 0,3333 -0,4082 0,2182 0,1667 0,1111
0,6667 1,0000 0,2182 0,6124 0,0000 0,0000 -0,1021 0,3273 0,2500 0,1667
0,5092 0,2182 1,0000 0,3563 0,2182 0,2182 -0,3563 -0,476 -0,2182 -0,5092
0,4082 0,6124 0,3563 1,0000 0,4082 0,4082 -0,1667 0,5345 0,4082 0,2722
0,3333 0,0000 0,2182 0,4082 1,0000 0,6000 0,0000 0,6547 0,5000 0,3333
0,3333 0,0000 0,2182 0,4082 0,6000 1,0000 0,0000 0,2182 0,5000 0,3333
-0,4082 -0,1021 -0,3563 - 0,1667 0,0000 0,0000 1,0000 0,3563 0,6124 0,4082
0,2182 0,3273 -0,476 0,5345 0,6547 0,2182 0,3563 1,0000 0,7638 0,5092
0,1667 0,2500 -0,2182 0,4082 0,5000 0,5000 0,6124 0,7638 1,0000 0,6667
0,1111 0,1667 -0,5092 0,2722 0,3333 0,3333 0,4082 0,5092 0,6667 1,0000
Суммы 3,3385 3,1392 1,3888 4,2417 4,0478 3,6114 1,3436 4,5346 4,6495 3,2915

Аналогичная ситуация наблюдается в столбце, соответствующем заданию 8 теста. Отрицательные значения коэффициента корреляции указывают на определенный просчет разработчиков в содержании заданий 3 и 8 теста. Наиболее распространенная причина — отсутствие предметной чистоты содержания — нередко встречается при разработке самых разных тестов.

Понятно, что предметная чистота — скорее идеализируемое, чем реальное требование к содержанию любого теста. Например, в тесте по физике всегда встречаются задания с большим количеством математических преобразований, в тесте по биологии — задания, требующие серьезных знаний по химии, в тесте по истории — задания, рассчитанные на выявление культурологических знаний, и т. п. Поэтому говорить об отсутствии пересечения содержания заданий одной учебной дисциплины с содержанием другой в чистом виде не приходится. Можно лишь стремиться к тому, чтобы при выполнении каждого задания доминировали знания по проверяемому предмету.

По-видимому, противоположная ситуация наблюдалась в заданиях 3 и 8, отрицательные значения корреляции по которым указывают на отсутствие связи их содержания с содержанием других заданий теста.

Таким образом, задания 3 и 8 для повышения гомогенности содержания необходимо удалить из теста. Конечно, окончательное решение остается за автором, поскольку оно бессмысленно без тщательного анализа содержания заданий теста. Правда, подобное решение об удалении заданий может быть принято в том случае, когда эмпирические результаты собраны по репрезентативной выборке учеников. Если представительность выборки не достигнута, то появление минусов может не отражать ни в коей мере реальную ситуацию с содержанием заданий теста.

Анализ 9-го столбца с максимальной суммой 4,6495, приведенной в конце, указывает на наличие ряда довольно высоких значений коэффициента корреляции (ср9 g = 0,6124; <р9 7 = 0,7638; <р9 10 = 0,6667), каждое из которых может получить различную трактовку в зависимости от вида разрабатываемого теста.

Для тематических тестов высокая корреляция между заданиями неизбежна, так как задания отражают слабо варьирующее, исходное содержание, что вполне оправдано назначением теста.

Однако для итоговых тестов высокой корреляции между заданиями по возможности стараются избегать тестов, оценивающих одинаковые содержательные элементы, поскольку вряд ли имеет смысл включать в итоговый тест несколько заданий. Поэтому в итоговых тестах обычно стремятся к невысокой положительной корреляции, когда значения коэффициента варьируют в интервале (0; 0,3) и каждое задание привносит свой специфический вклад в общее содержание теста.

Десятый шаг.На десятом шаге с помощью подсчета значений коэффициента бисериальной корреляции оценивается валидность отдельных заданий теста.

Коэффициент бисериальной корреляции используется в том случае, когда один набор значений распределения задается в дихотомической шкале, а другой — в интервальной (подробнее см. гл. 7). Тогда в качестве показателя связи между распределениями выбирают бисериальный коэффициент. Под эту ситуацию подпадает подсчет корреляции между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых (интервальная или квазиинтервальная шкала) по заданиям теста.

Объяснение, на котором основан вывод формулы для подсчета бисериального коэффициента корреляции приводится в книге [9] и ряде других изданий. Формула для подсчета, полученная по результатам вывода, имеет вид

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

где (Х{ )j — среднее значение индивидуальных баллов испытуемых,

выполнивших верно j-е задание теста; (X0)j — среднее значение

индивидуальных баллов испытуемых, выполнивших неверно j-е задание теста; Sx — стандартное отклонение по множеству значе­ний индивидуальных баллов; (Л^).— число испытуемых, выпол­нивших верно j-е задание теста; (1ч0),— число испытуемых, выпол­нивших неверно j-е задание теста; N— общее число испытуемых, N= N{ + N0;u — ордината нормированного нормального распреде­ления в точке, за которой лежит 100 (Ni/N) процентов площади под нормальной кривой.

Вычисление по формуле (5.9) требует использования специаль­ных таблиц для нахождения ординат стандартной нормальной кри­вой и определенной математической подготовки. Поэтому нередко используют другой коэффициент корреляции, получивший название точечно-бисериального коэффициента — гpbis. Основания для подобной замены вполне понятны, поскольку и точечно-бисе-риальный и бисериальный коэффициенты очень похожи и вычисляются по сходным наборам данных. Однако формула для г bis намного проще, поэтому именно ему часто отдают предпочтение в практической работе. Помимо простоты в вычислении, точечно-бисериальный коэффициент по сравнению с бисериальным обладает еще одним важным преимуществом. Для подсчета значения лpbis не нужны те гипотезы, которые выдвигаются в силу необходимости относительно нормального характера распределения дихотомических данных при определении меры связи по формуле (5.9).

Предположение о нормальном распределении весьма существенно для вычисления rpbis. В том случае, когда гипотеза о нормальности нарушается, значения гмогут выходить за границы интервала [-1;+1], смещаясь в ту или иную сторону вдоль числовой прямой.

В отличие от бисериального точечно-бисериальный коэффициент не бывает больше +1 или меньше — 1. Формула для вычисления значения rpbis, имеет вид

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

где все обозначения те же, что и в формуле (5.9).

Формула (5.10) может быть представлена в виде одного из двух вариантов, эквивалентных исходному выражению:

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

где все обозначения прежние и X — среднее значение всех индивидуальных баллов по выборке учеников.

С точки зрения интерпретации удобнее всего первая формула (5.10), которая используется ниже для данных матрицы в табл. 5.3. Например, для результатов по заданию 5

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

так как 1,4, 5, 9 и 10-й испытуемые выполнили задание 5 верно;

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

так как 2, 3, 6, 7 и 8-й испытуемые выполнили задание 5 неверно. Стандартное отклонение, подсчитанное для рассматриваемого примера ранее,

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Более точные значения rbis, рассчитанные с помощью компьютерных программ для данных матрицы в табл. (5.3), приводятся в табл. 5.11.

Интерпретация. Анализ значений коэффициента бисериальной корреляции в табл. 5.11 указывает на два довольно неудачных задания теста. Это те же самые третье [(rtis)3 = 0,26] и восьмое rbis = 0,26 задания. Полученный вывод дает ценную информацию о низкой валидности заданий 3 и 8 теста. Эти задания следует признать неудачными и для улучшения теста их необходимо удалить.

В целом задание можно считать валидным, когда значение (rbis).= 0,5. Под этот критерий подпадают все, кроме двух заданий (третьего и восьмого) рассматриваемого примера матрицы теста.

Оценка валидности задания позволяет судить о том, насколько задание пригодно для работы в соответствии с общей целью создания теста. Если эта цель — дифференциация учеников по уровню подготовки, то валидные задания должны четко отделять хорошо подготовленных от слабо подготовленных учеников тестируемой группы.

Решающую роль в оценке валидности задания играет разность

(A7, )j -(X0)j, находящаяся в числителе дроби формулы (5.10). Чем

выше значение этой разности, тем лучше работает задание на общую цель дифференциации испытуемых, выполняющих тест. Значения, близкие к нулю, указывают на низкую дифференцирующую способность задания теста. В том случае, когда в разности доминирует вклад (Уо), а не (Х1), задание следует просто удалить из теста.

В нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Таким образом, подлежат выбросу все задания, у которых rbis< 0.-

Таблица 5.11. Значение коэффициента бисериальной корреляции десяти заданий теста (табл. 5.3) с суммой

Баллов

Задание
(rbis)y 0,8032 0,7.887 0,7378 0,7229 0,6426 . 0,5355 0,5355 0,5020 0,2629 0,2459

5.3. МЕТОДЫ ОБРАБОТКИ ДАННЫХ В РАМКАХ СОВРЕМЕННОЙ ТЕОРИИ СОЗДАНИЯ ТЕСТОВ

Под современной теорией понимается существующая на Западе Item Response Theory (IRT), предназначенная для оценки латентных параметров испытуемых и параметров заданий теста посредством применения математико-статистических моделей измерения [31,46,47„ 50 и др.]. IRT является частью более общей теории латентно-структурного анализа, хотя каждое из этих направлений имеет свои особенности. В частности, в теории латентно-структурного анализа оцениваемые значения параметров рассматриваются как некоторые дискретные точки на оси латентной переменной, в то время как в IRT распределения переменных предполагаются непрерывными.

В отличие от классической теории тестов, для IRT характерно стремление к фундаментальному теоретическому подходу и вместе с тем к корректному решению целого ряда практических задач педагогического измерения. В практическом плане это стремление неизбежно сопряжено с некоторыми трудностями, которые, кстати, не всегда осознаются ведущими тестологами — создателями современной теории тестов. В частности, необходимо привлечение довольно сложного математико-статистического аппарата, использование дорогостоящей компьютерной техники, нужна разработка специальных программных продуктов.

Эти трудности иногда кажутся непреодолимыми неопытным создателям, а тем более пользователям педагогических тестов, поэтому и первые и вторые иногда приходят к неверному выводу и полностью отказываются от IRT в пользу классической теории. Это решение, без сомнения, ошибочно. В конечном счете оно обязательно приводит к неполному извлечению информации из эмпирических результатов тестирования, к созданию неэффективных новых тестов или к неэффективным оценкам испытуемых при использовании общепринятых старых. Окончательное решение в пользу того или иного подхода лучше все же оставить до полного ознакомления со всеми преимуществами и возможностями, которые дает IRT.

Другой, более гибкий подход основан на взаимодействии этих теорий. Такое взаимодействие означает, что разработку теста следует разбить на два этапа. На первом этапе создания теста из набора предтестовых заданий эмпирические данные лучше обрабатывать с помощью более простого, но и менее эффективного математико-статистического аппарата классической теории тестов. На втором этапе, в процессе углубленного анализа качества заданий, для объективной оценки их параметров необходимо привлекать аппарат IRT.

К наиболее значимым преимуществам IRT обычно относят следующие.

• Устойчивость и объективность оценок параметра, характеризующего уровень подготовки испытуемых. Устойчивость можно считать наиболее важным преимуществом IRT. Источником ее является относительная инвариантность оценок параметра испытуемых от трудности заданий теста.

• Устойчивость и объективность оценок параметра трудности заданий, их независимость от свойств выборки испытуемых, выполняющих тест.

• Возможность измерения значений параметров испытуемых и заданий теста в одной и той же шкале, имеющей свойства интервальной. Последнее преимущество крайне важно, поскольку преобразование исходных величин разного происхождения в одну стандартную шкалу позволяет соотнести уровень знаний любого испытуемого с мерой трудности каждого задания теста. Практическое значение введения единой шкалы трудно переоценить. Особенную важность она приобретает в последние годы, поскольку на ней основана организация современного адаптивного автоматизированного контроля знаний, который на сегодняшний день является наиболее эффективной формой оценки знаний школьников или студентов.

С помощью IRT можно предсказать вероятность правильного выполнения заданий теста любым испытуемым в выборке до предъявления теста группе учеников, выявить эффективность различных по трудности заданий, используемых для оценки знаний, отличающихся по подготовке учеников тестируемой группы.

Вообще говоря, даже одного из перечисленных преимуществ было бы достаточно для того, чтобы отдать предпочтение IRT при создании теста. Однако эти преимущества не случайны. Они подкреплены соответствующим научным аппаратом, для которого характерно стремление к строгому формализованному представлению и анализу эмпирических данных. Соответственно, в IRT исходят из ряда строгих предположений как о характере оцениваемых параметров, так и о характере процессов, протекающих при выполнении заданий теста группой испытуемых.

Первоначально в IRT вводится основное предположение о существовании некоторой взаимосвязи между наблюдаемыми результатами тестирования и латентными (скрытыми от непосредственного наблюдения) качествами испытуемых, выполняющих тест. Обычно эти латентные качества трактуются как способности испытуемых или как уровни подготовки по предмету в зависимости от целей измерения, которые выдвигаются при создании педагогического теста.

Предполагается, что каждому испытуемому ставится в соответствие только одно значение латентного параметра, определяющего наблюдаемые результаты выполнения теста. Требование одномерности не носит, как правило, противоречивого характера, так как логика разработчика теста часто следует этому образцу. Он выдвигает гипотезу о том, что, скажем, создаваемый тест призван измерить уровень подготовки по предмету или по другому, меньшему объему содержания курса. Однако это требование существенно снижает возможности IRT в той ситуации, когда создается тест не по одной конкретной учебной дисциплине и не все задания в нем связаны с определенной областью знаний. В последнем случае на первом этапе формирования теста необходимо удалить задания, не удовлетворяющие требованию одномерности. Затем из удаленных заданий сформировать субтесты, отбирая задания по признаку одномерности оцениваемого латентного параметра испытуемых.

Разумеется, можно пойти и по другому пути и использовать тест с не удаленными заданиями. Тогда при обработке эмпирических результатов тестирования лучше обратиться к классической теории тестов. Правда, интерпретация полученных индивидуальных баллов требует соблюдения определенных мер предосторожности. Неопытный пользователь теста, плохо понимающий, каким путем был получен тот или иной индивидуальный балл, легко может прийти к его неверной интерпретации. Скорее всего, следует отдать предпочтение созданию гомогенных тестов, допускающих корректную обработку эмпирических результатов тестирования, а затем разрабатывать методы объединения отдельных оценок в одну общую, как это необходимо, например, при оценке достижений в обучении с помощью гетерогенных полидисциплинарных тестов.

Другие предположения носят специальный характер и связаны с математико-статистическим аппаратом, используемым в IRT для обработки эмпирических данных тестирования. Среди них можно выделить одно наиболее важное для понимания существенного различия между IRT и классической теорией тестов. Это предпо­ложение о характере измеряемых параметров испытуемых и зада­ний теста.

В отличие от классической теории, где индивидуальный балл тестируемого рассматривается как постоянное число, в IRT латен­тный параметр трактуется как некоторая переменная. Начальное значение параметра получается непосредственно из эмпирических данных тестирования. Переменный характер измеряемой величи­ны указывает на возможность последовательного приближения к объективным оценкам параметра с помощью тех или иных итера­ционных методов.

Математические модели современной теории тестов.В рамках основного предположения IRT устанавливается связь между латен­тными параметрами испытуемых и наблюдаемыми результатами выполнения теста. При установлении связи важно понимать, что первопричиной являются латентные параметры. Если говорить точ­нее, то взаимодействие двух множеств значений латентных пара­метров порождает наблюдаемые результаты выполнения теста.

Элементы первого множества — это значения латентного пара­метра, определяющего уровень подготовки W испытуемых 0i, (i= 1, 2,..., N). Второе множество образуют значения латентного пара­метра рi., (i= 1, 2,..., n), равные трудностям n заданий теста. Идея взаимодействия двух множеств отражена на рис. 5.17.

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Однако на практике всегда ставится обрат­ная задача: по ответам испытуемых на задания теста оценить значения латентных параметров Q и b. Для ее решения нужно ответить по мень­шей мере на два вопроса. Первый связан с вы­бором вида соотношения между латентными параметрами Q и b. Идея установления соот­ношения принадлежит датскому математику Г. Ращу, который предложил ввести его в виде разности Q - b, предполагая, что параметры Q и b оцениваются в одной и той же шкале [52].

Значение параметра Q можно рассматривать как положение i-го испытуемого, а значение bj — как положение j-го задания на одной и той же оси переменных Q и b. В таком случае идея введения разности параметров получает интересную геометрическую интерпретацию. Абсолютная величина разности Qi-bi — это расстояние, на котором находится испытуемый с уровнем подготовки Q от задания с трудностью р. Если эта разность велика по модулю и отрицательна, то задание бесполезно для измерения уровня знаний i-го ученика. Ученик наверняка не может выполнить его верно. Большие положительные значения этой разности тоже не представляют интереса ни для процесса контроля, ни для обучения i-го испытуемого. Задание такой трудности давно им освоено, и он наверняка справится с ним успешно при выполнении теста. С точки зрения подхода, предлагаемого в IRT, такие задания неэффективны для оценивания данного значения 9.

Конечно, в том случае, когда Q незначительно больше ф, испытуемый может ошибиться в задании, хотя, скорее всего, выполнит его верно. При отрицательных значениях разности Q — b испытуемого, вероятнее всего, ждет неуспех, кроме исключительных ситуаций, когда возможно угадывание правильного ответа.

Ответ на второй вопрос, который является центральным в IRT, связан с выбором математической модели для описания рассматриваемой связи между латентными параметрами и наблюдаемыми результатами выполнения теста. Следуя основному предположению IRT, можно утверждать, что есть некоторая математическая модель взаимосвязи между эмпирическими результатами тестирования и значениями латентных переменных 0 и р.

При выборе модели следует учитывать, что в реальных условиях на наблюдаемые результаты оказывают влияние как случайные, так и неслучайные факторы. Несмотря на всю «случайность» отдельных результатов тестирования, проявляется относительная инвариантность значений латентных переменных от конкретного испытания или от ряда испытаний. Например, определенная устойчивость частот появлений значений переменных 0,, 02, ..., 0^ наблюдается при многократном тестировании группы Л1'обучаемых параллельными тестами. Эта устойчивость является основанием для использования понятия вероятности события как меры возможности его появления. В качестве такого события обычно выбирается правильный ответ j-го испытуемого на j-е задание теста. Условную вероятность правильного выполнения обучаемыми заданий теста выражают с помощью различных математических моделей, которые записываются как функции одной переменной.

В частности, можно рассматривать условную вероятность правильного выполнения /-м испытуемым с уровнем подготовки Q различных по трудности заданий теста, считая 6, параметром i-го ученика, а b — независимой переменной. В этом случае условная вероятность будет функцией латентной переменной b:

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Аналогично вводится условная вероятность правильного выполнения у-го задания трудностью р. различными испытуемыми группы. Здесь независимой переменной является 0, а р.— параметр, определяющий трудность/- го задания теста:

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

N— число испытуемых; п — количество заданий в тесте.

Если подставить в функцию ^.(0) значение переменной 0 = 0,. или в функцию /'ДР) значение р = Р(., то получится выражение для вероятности PtJ, значения которой можно охарактеризовать следующим образом:

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Связь между значениями разности Qi - bj и вероятностью правильного ответа i-го испытуемого на j-е задание теста показана на рис. 5.18.

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Рис. 5.18. Соотношение между значениями разности Qi ~ bj и вероятностью правильного ответа

В теории IRT функции f(b) и фи (Q) получили название Item Response Functions (IRF). Специальное название имеют и их графики. График функции Рi — это характеристическая кривая j-го задания (ICC), а график функции Рi— индивидуальная кривая i-го испытуемого (РСС).

При выборе вида функций Р. и Р. учитываются обстоятельства как эмпирического, так и математического характера. Подробный анализ оснований для такого выбора можно найти, например, в работе [50].

В предположении нормального распределения значений латентных переменных вир таких функций предлагаются две. Одна из них, обычно обозначаемая \|/(х), относится к семейству логистических кривых, другая Ф(х) является интегральной функцией нормированного нормального распределения. Поскольку для одних и тех же значений х ординаты точек графиков функций Ф(х) и \|/(1,7;с) отличаются друг от друга достаточно мало, то в том, что их две, нет ни ошибки, ни противоречия. А именно для всех х, принадлежащих области определения этих функций,

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Наиболее сильный аргумент в пользу логистической функции связан не с качеством измерений, а с относительной простотой ее аналитического задания, выгодной при оценивании параметров 0 и р. Поэтому в практических приложениях предпочтение обычно отдают функции \|/( 1,7х).

Число параметров, входящих в аналитическое задание функций, является основанием для подразделения семейства IRF на классы. Среди логистических функций различают:

• однопараметрическую модель Г. Раша

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

где Q и b — независимые переменные для первой и второй функций соответственно;

• двухпараметрическую модель А. Бирнбаума

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru
Кроме прежних обозначений в формулах (5.16) и (5.17) появляются параметры аi и аj. Параметр а, был введен А. Бирнбаумом (A. Birnbaurm) [50] для характеристики дифференцирующей способности задания при измерении различных значений в; параметр at указывает на меру структурированности знаний ученика;

• трехпараметрическую модель А. Бирнбаума

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

где с. является третьим параметром модели, характеризующим вероятность правильного ответа на задание j в том случае, если этот ответ угадан, а не основан на знаниях ученика.

В каждой из представленных моделей параметры Q и b выражаются как шкалированные показатели единой для всех моделей шкалы логитов. Введение единой шкалы для элементов двух различных множеств — значений 0 и значений b — позволяет решить ряд вопросов, как теоретических, так и практических. В частности, благодаря единой шкале можно ввести взаимосвязь между переменными в виде разности Q — b, корректно сравнить результаты учеников, полученные с помощью различных тестов, подобрать оптимальные значения b, позволяющие измерить искомое Q с минимальной ошибкой измерения. В целом эти важные преимущества позволяют преодолеть ряд существенных недостатков классической теории тестов и значительно повысить эффективность тестовых измерений.

Перевод значений Q и b в общую шкалу логитов с помощью специальных преобразований рассмотрен в следующем разделе для модели Г. Раша.

Однопараметрическая модель Г. Раша. Однопараметрическая модель, которая часто называется простой логистической моделью, является одной из семейства логистических кривых, описанных Г. Рашем. Аналитическое задание однопараметрической модели представлено формулами (5.14) и (5.15).

Вид аналитического задания можно несколько изменить, записав функции Рi(Q) и Pj(b) следующим образом:

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

В первом случае вероятность правильного выполненияу'-го задания теста является возрастающей функцией от переменной. Это свойство функции легко интерпретируется и согласуется с практическим опытом педагога. Естественно ожидать, что чем больше уровень подготовки испытуемого, тем больше вероятность правильного выполнения иму-ro задания теста.

На рис. 5.19 изображена характеристическая кривая j-го задания теста, показывающая взаимосвязь между значениями независимой переменной 0 и величиной Pj(Q) приведена на рис. 5.19. Точке перегиба характеристической кривой соответствует значение 6= Р7, а Р, в этой точке равно 0,5.

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Рис. 5.19. Характеристическая кривая у-го задания теста

Таким образом, испытуемый с уровнем подготовки, равным трудности у-го задания теста, ответит на него правильно с вероятностью 0,5. Для испытуемых с уровнями знаний намного большими b, вероятность правильного ответа стремится к единице. Если же 0 расположено достаточно далеко от значения 0 = р. и слева от точки перегиба кривой, то вероятность правильного выполнения j-го задания теста стремится к нулю.

Разность Q — b обладает интересным свойством, позволяющим на репрезентативной выборке испытуемых реализовать идею инвариантности параметров вир. Для иллюстрации свойства достаточно рассмотреть ситуацию, когда испытуемый или группа испытуемых с уровнем подготовки Q, ответит на задание j с вероятностью Pj (рис. 5.20).


 

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Рис. 5.20. Иллюстрация инвариантности оценок уровня подготовки испытуемых от трудности заданий теста

Увеличение трудности j-го задания теста на константу с (с > 0) вызовет смещение характеристической кривой вправо. С прежней вероятностью на это более трудное задание будет отвечать испытуемый с уровнем подготовки Qj + с. Так как

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

значения функции Pj (Q) не изменятся, что дает основание для вывода об относительной инвариантности уровня подготовки испытуемых от трудности заданий теста.

Вероятность правильного выполнения j-м испытуемым различных по трудности заданий Q+c является убывающей функцией переменной р. Это означает, что с ростом трудности заданий значения вероятности Р. (Р) будут уменьшаться. График функции называется индивидуальной кривой j-го испытуемого (рис: 5.21).

Положительной связи, однако не позволяет ввести обобщенную ее меру - student2.ru

Рис. 5.21. Индивидуальная кривая i-ro испытуемого

В точке перегиба кривой, соответствующей значению независимой переменной Qi = b, функция Pi(b) принимает значение Pt= 0,5. В процессе обучения по мере накопления знаний и<

Наши рекомендации