Сравнительные характеристики шкал
Недостатком можно считать и сохранение вида распределения. Прийти к такому выводу довольно просто, если вспомнить о цели введения производных показателей, предназначенных для решения задачи сопоставимости результатов испытуемых по различным тестам. С точки зрения теории значения стандартных показателей сопоставимы только тогда, когда исходные распределения сырых баллов имеют приблизительно одну и ту же форму, как правило форму нормальной кривой. На практике ни одно из эмпирических распределений не является совершенно нормальным, а большинство распределений просто далеки от нормальной кривой. Поэтому желательным считается преобразование, не сохраняющее, а изменяющее вид распределения для приближения к виду нормальной кривой.
Удобным средством преодоления отмеченных затруднений является нелинейное преобразование, позволяющее придать эмпирическому распределению желаемую форму нормальной кривой. С этой целью вводятся нормализованные стандартные показатели, соответствующие распределению, преобразованному так, что оно аппроксимируется формой нормальной кривой. Их значения могут быть найдены с помощью специальных таблиц, в которых приводится процент случаев различных отклонений в единицах от среднего значения для нормальной кривой.
Сначала для каждого сырого показателя определяется кумули-рованная частота как сумма всех частот, лежащих ниже данного сырого показателя. Затем к ней добавляется половина количества испытуемых, имеющих данный сырой балл. По этим данным вычисляется кумулированная доля путем деления полученной суммы на общее число испытуемых выборки. По статистическим таблицам (например, Fisher R. А., Yates. Statistical Tables for Biological and Medical Research), содержащим значения площади под кривой нормального распределения, находят значения нормализованных стандартных показателей для каждой кумулированной доли.
Нормализованный стандартный показатель, как и линейно преобразованный стандартный показатель, имеет среднее значение Q, если сырой балл приходится на самую середину нормальной кривой, т. е. не превышает 50% результатов группы. Результат — 1 можно интерпретировать как превышающий приблизительно 16% результатов группы, а +1 — как превышающий 84% всех результатов.
ШКАЛЫ СТАНАЙНОВ И СТЕНОВ
Нормализованным стандартным показателям стараются придать удобную форму, пригодную для сообщения результатов. Для этого используют шкалы стандартных 10 или 9 единиц. Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших—станайн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов — станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5.
В дополнение к описанной шкале станаинов есть еще две шкалы, имеющие некоторое преимущество перед девятибалльной шкалой в плане различающей способности. Одна из них — шкала стандартных 10 единиц, называемая часто шкалой Кэттела или шкалой стенов (sten). Как следует из названия, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5s.
ОДИННАДЦАТИБАЛЛЬНАЯ ШКАЛА
Выявить по одному проценту самых сильных и самых слабых испытуемых и присвоить им соответственно максимальный и минимальный баллы можно, удлинив шкалу станаинов путем добавления по одному интервалу в 0,55 справа и слева. Таким образом получают одиннадцатибалльную шкалу.
Если значениям стандартных баллов поставить в соответствие оценочные эквиваленты, то соотношение между значениями стандартных Z-оценок, процентом испытуемых, оценочными эквивалентами и баллами испытуемых можно представить в виде табл. 7.7.
В большинстве учебных заведений нашей страны обычно пользуются пятибалльной шкалой, что хотя и часто критикуется, однако не меняется на протяжении многих десятилетий. Переход в пятибалльную шкалу снимает возможность тонкой дифференциации испытуемых, тем самым теряется важнейшее преимущество педагогических тестов.
В процессе перехода от нормализованных стандартных показателей к традиционным баллам возникают определенные трудно-
Таблица 7.7. Соотношение между баллами, оценочными эквивалентами, Z-оценками и процентом испытуемых
Баллы, пятибалльная шкала | Баллы, одиннадцатибалльная шкала | Оценочный эквивалент | /Г-оценка | Процент испытуемых | Станайн |
Низшая оценка | Z<-2,25 | ||||
Неудовлетворительно | -2,25 <Z< -1,75 | ||||
Малоудовлетворительно | . -1,75 <.Z< -1,25 | ||||
Удовлетворительно | -1,25 <Z< -0,75 | ||||
Ниже среднего | -0,75 <Z< -0,25 | ||||
Среднее | -0,25 <Z< 0,25 | ||||
Выше среднего | 0,25 <Z< 0,75 | ||||
Хорошо | 0,75 <Z< 1,25 | ||||
Очень хорошо | 1,25 <Z< 1,75 | ||||
Отлично | 1,75<Z<2,25 | ||||
Высшая оценка | 2,25 < Z |
сти, связанные с необходимостью огрубления результатов. В частности, приходится принимать решения относительно испытуемых, чьи результаты принадлежат интервалу-1,75 < Z< -1,25, поскольку их можно отнести как к неудовлетворительно, так и к удовлетворительно выполнившим тест.
Аналогичные трудности возникают с тестовыми баллами испытуемых из интервала -1,25 < Z< -1,25. В пятибалльной шкале их результаты можно оценить как четырьмя, так и пятью баллами. При этом приходится помнить, что полученные границы интервалов являются теоретическими. Фактически же они могут слегка сдвигаться в ту или иную сторону, поскольку длина их зависит от величины стандартной ошибки измерения. Например, если Z-оценка испытуемого равна 1,25, то истинное значение его балла может быть больше или меньше этого числа на значение ошибки. Таким образом, можно отнести к категории ответивших хорошо и оценить четырьмя баллами испытуемого с истинным баллом большим 1,25.
Введение одиннадцатибалльной шкалы в качестве общепринятой вместо пятибалльной может дать ряд преимуществ, связанных с повышением дифференцирующей способности педагогической оценки более чем в 2 раза. Особенно четко в одиннадцатибалльной шкале дифференцируется 1 % лучших и худших испытуемых. Определенное преимущество психологического характера есть у одиннадцатибалльной шкалы и по сравнению с девяти- и десятибалльной шкалами. Оно связано с тем, что в качестве опорных точек шкалы используются привычные для обучаемых понятия: низшая оценка — балл 1, средний уровень — балл 6, высшая оценка — балл 11.
В заключение хотелось бы отметить, что в практике деятельности различных тестовых центров встречаются попытки оценки знаний по сильно растянутой, например по двадцатибалльной, стобалльной или даже тысячебалльной шкале. Однако такие попытки следует признать не очень удачными, так как они находятся в противоречии с ограниченными психологическими возможностями человека, которому трудно определить место своего результата на столь широком диапазоне и отнести его тем самым к категории плохих или хороших.
Как правило, используемые в процессе преобразования Z-показателей новые значения среднего и стандартного отклонения выбирают из соображений удобства. Особенно удобны Z-показатели в том случае, если распределение сырых баллов можно аппроксимировать нормальной кривой, поскольку пропорции между площадями различных сегментов поднормальной кривой известны. Следовательно, Z-показатели легко преобразовать в проценты и проинтерпретировать в терминах процентилей.
Однако к такой интерпретации нужно относиться с определенной осторожностью, если сравниваются результаты, полученные на различных выборках по нескольким тестам. Например, нельзя делать вывод, что процентильный ранг 84 по одному тесту обязательно эквивалентен Z-оценке +1,0 по другому тесту. Этот вывод может иметь место лишь в том случае, когда каждый тест обеспечивает нормальное распределение сырых баллов и обе шкалы основаны на одинаковых или очень похожих выборках людей (Test Service Bulletin, № 48).
Возможность искусственной нормализации любого распределения сырых баллов некоторыми исследователями подвергается вполне обоснованному сомнению, поскольку зачастую нормализация приводит к неизбежным искажениям исходного распределения. Поэтому нормализованные стандартные показатели рекомендуется использовать лишь в том случае, когда исходное распределение близко к нормальному и для предположения о близости есть веские теоретические основания. Во всех остальных случаях предпочтение следует отдать стандартным показателям, основанным на вычислении отклонения сырых баллов от среднего. Стандартные показатели, подвергнутые линейному преобразованию в единую шкалу с удобными значениями среднего и стандартного отклонения, обеспечивают сравнимость результатов, полученных испытуемыми по различным тестам. Одинаковые стандартные показатели находятся на одинаковом расстоянии от среднего.
Хотелось бы также отметить некоторую терминологическую путаницу, встречающуюся в переводах на русский язык англоязычной литературы по тестовой проблематике. В ряде изданий термины «нормализованные стандартные» оценки и «нормальные стандартизованные» оценки используются как рядоположенные, хотя для этого нет никаких оснований. Вследствие преобразования сырых баллов в Z-шкалу получаются стандартные оценки, которые в отдельных случаях подвергаются нормализации. В то время как термин «нормальные стандартизованные» оценки используется в ряде других случаев, не имеющих отношения к вопросам шкалирования.
При построении шкалы по тесту возникают определенные проблемы, связанные с ее устойчивостью, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета. В качестве таких шагов при конструировании шкалы Торндайк предложил следующие [48]:
• получить репрезентативную выборку испытуемых для вычисления устойчивых оценок уровня знаний с известными стандартными ошибками измерения;
• предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения;
• определить средний балл для каждой подгруппы, шкалировать результаты;
• интерполировать шкалированные результаты между соседними средними для тех сырых баллов, которые не наблюдались в выборке;
• экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту;
• результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты сырых баллов в различных возрастных подгруппах или с учетом определенного периода обучения.
Шкала логитов
Зарубежные исследования конца 80-х годов показали плодотворность шкалирования тестовых результатов испытуемых посредством использования математических моделей, разработанных в рамках IRT. Согласно основным положениям IRT, уровень подготовки испытуемых и трудность заданий теста считаются некоторыми латентными параметрами, оценки которых предстоит получить в процессе шкалирования результатов выполнения теста. При этом предполагается, что вероятность правильного ответа определяется значениями двух латентных параметров, один из которых — уровень подготовки испытуемых, а второй — трудность заданий теста. Зависимость между вероятностью правильного ответа и значениями параметров выражается с помощью ряда математических моделей, предполагающих введение единой шкалы как для уровня знаний испытуемых, так и для трудности заданий теста (см. разд. 5.3).
Таким образом, латентные оценки параметров испытуемых и заданий располагаются вдоль одной шкалы логитов. Благодаря этому каждую точку шкалы, соответствующую оценке уровня подготовки испытуемого, можно соотнести с трудностью заданий, лежащих на шкале логитов левее и правее этой точки. Пример подобного соотнесения показан на рис. 7.3.
Рис. 7.3. Графическая интерпретация распределения
Точками pj, Р2,... на шкале логитов отмечены значения, соответствующие трудности теста, причем pt < Р2 < р3 <..., т. е. задания расположены по нарастанию трудности на всем протяжении теста. Точки 0р 02,... соответствуют уровням подготовки подгрупп испытуемых, а высота столбиков пропорциональна количеству испытуемых, обладающих одинаковым уровнем подготовки в каждой подгруппе.
Расположение значений параметров 0 и р на одной оси позволяет провести интересную геометрическую интерпретацию. Любой испытуемый группы в состоянии выполнить с вероятностью больше 0,5 все задания, лежащие на оси левее точки, соответствующей оценке его уровня подготовки. И наоборот, вероятность правильного выполнения всех заданий, расположенных правее этой точки, меньше 0,5. Например, три испытуемых с уровнем подготовки 06 наверняка смогут выполнить верно 1-е, 2-е и 3-е задания теста. Вероятность правильного выполнения 4-го задания для трех испытуемых этой подгруппы немногим больше 0,5. А вот задания с трудностью Р7 и Р8 для этих трех учеников явно слишком сложные.
Как следует из результатов разд. 5.3, наиболее эффективными для тестирования испытуемых с уровнем подготовки 9 являются задания с трудностью р ~ 0. Опираясь на это правило подбора заданий в тест, удобно визуально с помощью рисунка оценить эффективность создаваемого теста. В том случае, когда большая часть заданий теста расположена на шкале логитов значительно левее или правее множества значений 0, как, например, в случаях А и Б, рис. 7.4, тест не годится для оценки знаний рассматриваемого контингента учеников.
Совсем иначе обстоит дело в случае В, когда основная часть заданий расположена на оси логитов именно там, где находится множество параметра 0 для тестируемой группы учеников. В последнем случае тест явно удался, так как по подбору трудности заданий рассчитан на тестируемую группу.
Так как матрица тестовых результатов дает наблюдаемые, сырые значения тестовых баллов, а не оценки латентных параметров испытуемых и заданий в логитах, то необходимы специальные алгоритмы вычисления параметров 9 и b, подобные тем, которые были подробно рассмотрены в гл. 5.
Условно процесс шкалирования можно подразделить на три этапа. Первый предполагает построение шкалы логитов уровня знаний, второй — шкалы логитов трудности заданий и третий этап позволяет свести две шкалы в общую шкалу стандартных оценок для уровня подготовки испытуемых и трудности заданий теста.
Процедура построения шкалы латентных переменных связана с процедурой шкалирования по Гуттману [47], когда задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисциплины. При этом предполагается, что любой испытуемый с правильной структурой знаний, справившийся с каким-либо заданием, может успешно выполнить все предыдущие, более легкие задания теста. Это предположение чаще всего не выполняется, как правило, по причине неудачно сделанного теста. Если тест разработан профессионально, то каждый профиль ответов испытуемого будет характеризовать ту или иную структуру знаний испытуемого и в совокупности с тестовым баллом определять качество его знаний. Это обстоятельство делает чрезвычайно привлекательной шкалу Гуттмана для педагогов, хотя ее довольно редко удается реализовать в практике.
Рис. 7.4. Визуальная оценка эффективности теста
Шкалирование по алгоритмам IRT в определенной степени преодолевает трудности построения шкалы Гуттмана, поскольку является ее вероятностной версией и отражает вероятностную сущность тестовых процессов. Согласно модели Г. Раша, о правильном выполнении любого задания /-м испытуемым можно говорить лишь с некоторой вероятностью и прогнозировать успешность лишь в том случае, если эта вероятность больше 0,5.
Единая шкала, содержащая новые единицы измерения, называемые логитами, позволяет реализовать преимущества математических моделей теории IRT. Первое преимущество вытекает из стандартизованного характера оценок параметров испытуемых и заданий в шкале логитов. Как и любые стандартизованные величины, оценки латентных параметров представляют собой результат преобразования исходных сырых оценок разного происхождения в единую интервальную шкалу. Это дает возможность объективного сравнения достижений испытуемых по различным предметам, что, конечно, особенно важно в процессе экзаменов.
Второе преимущество связано с введением единицы измерения, позволяющей измерять в единой шкале уровень подготовки испытуемых и трудность заданий теста. В отличие от стандартных шкал (типа Z-шкалы, Т-шкалы и им подобных) шкала латентных переменных является интервальной. Равные приращения сырых баллов испытуемых не соответствуют равным приращениям шкалированных оценок латентных параметров, зато последние разности приобретают вполне интерпретируемый смысл, поскольку их можно считать мерой отличия уровня подготовки испытуемых по предмету.
Третье преимущество вытекает из специфических особенностей математических моделей, используемых для оценоклатентных параметров испытуемых и заданий. Получаемые с их помощью статистические оценки параметров обладают относительной независимостью друг от друга, хотя ряд авторов (Лорд (Lord), Чопин (Chopin) [11]) считают такое утверждение явным преувеличением.
Возможна эмпирическая проверка этого утверждения, которая должна быть разбита на два этапа. Первый этап — проверка независимости оценок латентного параметра трудности заданий от уровня подготовленности тестируемой выборки — включает ряд шагов. В результате их выполнения удается отобрать задания, удовлетворяющие выдвинутому предположению о существовании такой независимости.
Второй этап, гораздо более важный, посвящен проверке инвариантности оценок латентного параметра испытуемых относительно различных наборов заданий, отобранных на первом этапе, и состоит из нескольких шагов. На первом шаге все задания, прошедшие проверку, делятся на две группы: одна содержит самые легкие, а другая — наиболее трудные задания теста. На втором шаге вычисляются оценки латентных параметров испытуемых по каждой из двух групп заданий и связанные, с ними стандартные ошибки измерения. Если задания удовлетворяют требованиям моделей латентно-структурного анализа и прошли первый этап, то с точки зрения теории оценки параметра испытуемых в пределах стандартной погрешности должны быть примерно одинаковыми как по группе самых легких, так и по группе самых трудных заданий теста. Однако на практике это выполняется далеко не всегда.
Нередко наблюдаемые существенные отклонения в оценках испытуемых указывают на необходимость удаления или пере формулировки прошедших первый этап отбора заданий теста. Однако следует иметь в виду, что для выводов о наличии инвариантности или об отсутствие ее одной выборки испытуемых недостаточно. Работу по шкалированию можно считать завершенной, если эффект инвариантности обретает характер стабильности и наблюдается на различных выборках каждый раз.
В некоторых случаях эффект инвариантности может быть искажен угадыванием ответов, плохой формулировкой дистракторов либо отсутствием внутренней согласованности заданий теста. Проверка внутренней согласованности заданий осуществляется специальной процедурой, получившей название Within population item-fit, и проводится после оценивания латентных параметров [59]. По результатам проверки выбраковываются эмпирические данные тестирования, не удовлетворяющие требованиям моделей измерения. Оставшиеся задания дают основания для построения одномерной шкалы латентных параметров или в традиционной терминологии являются внутренне согласованными, однородными, удовлетворяющими задаче создания гомогенного теста. Таким образом, возможность получения независимых оценок латентных параметров устанавливается путем двухэтапного исследования и в случае необходимости достигается с помощью специальной процедуры подгонки эмпирических данных тестирования под требования модели. При этом часто как-то забывается, что этап работы над заданиями, их отбор, шкалирование и переформулировка являются первичными, поскольку качество заданий определяет качество оценок испытуемых, полученных с помощью теста. Если этот этап не пройден, то никогда не может быть достигнута инвариантность оценок испытуемых от трудности заданий теста, т. е. не будет реализовано важнейшее преимущество математических моделей теории латентно-структурного анализа.
Четвертым преимуществом рассматриваемых моделей является устойчивость оценок латентных параметров, основанная на их относительной независимости друг от друга. Хотя о полной независимости оценок говорить, конечно, нельзя, но все же оценки параметров в шкале логитов имеют тенденцию к стабилизации, что, несомненно, делает эту шкалу наиболее привлекательной на всем множестве шкал тестовых измерений.
Помимо достоинств, у шкалы логитов есть и определенный недостаток. Поскольку оценки параметров обычно лежат в интервале (—5; 5) и имеют несколько знаков после запятой, они малопригодны для сообщения испытуемым. Преподаватели-практики, как правило, категорически возражают против применения отрицательных дробных значений параметра для оценки уровня подготовки учеников. По этой причине возникает необходимость преобразования оценок в другую, более удобную для сообщения результатов шкалу.
преобразование шкал логитов
В процессе преобразования можно выделить два момента. Первый — это умножение всех значений параметра на один и тот же шкалирующий множитель для перевода результатов в область целых чисел. Второй — перенос всех значений параметра на множество положительных чисел путем прибавления некоторой константы, позволяющей избавиться от всех отрицательных оценок параметра 9. Второе преобразование, связанное с выбором нового начала шкалы, выполнить довольно просто. Например, если оценки параметра 0 расположены в интервале (-5,8; 5,2), то прибавление константы 10 позволит исключить из рассмотрения отрицательные числа. В результате оценки испытуемых будут располагаться в интервале (4,2; 15,2) и число 4,2 можно считать началом новой шкалы.
Гораздо сложнее обстоит дело с первым преобразованием, поскольку неправильный выбор шкалирующего множителя и последующее округление результатов могут свести на нет все усилия по дифференциации испытуемых с помощью теста. Неудачный выбор размерности новой шкалы, связанный с введением шкалирующего множителя, неизбежно приведет к потере полезной информации о подготовке учеников. Например, интервал (4,2; 15,2) легко преобразовать в промежуток (42; 152), выбрав в качестве шкалирующего множителя число 10 и округлив все полученные результаты до целых. Однако такой выбор шкалирующего множителя вызовет потерю информации, если в группе были испытуемые, незначительно отличающиеся, но все же разные по подготовке с 0, = 4,25 и 62= 4,23. После перевода в новую шкалу и тот и другой испытуемый получат балл 42.
Именно поэтому в процессе преобразования шкалы логитов первостепенное значение придается правильному выбору шкалирующего множителя, и операция умножения всех значений является первым преобразованием. После выбора новой единицы и установления новой размерности осуществляется перенос всех шкалированных значений на множество положительных чисел.
В общем виде преобразование шкалы логитов можно записать как
где Q, и b2 — оценки параметров испытуемых и заданий соответственно на множестве положительных целых чисел; 0 и р — оценки параметров в интервале (—5; 5) шкалы логитов; а — константа переноса, определяющая начало новой шкалы; у — шкалирующий множитель, определяющий ее размерность.
Стандартные ошибки измерения преобразуются по формулам
SE(Q,) = ySE(Q);
SE(b,) = ySE(b),
где SE(pj) и SE(02) — новые стандартные ошибки измерения. Для выполнения преобразования необходимо выбрать станты а и у, вернее, именно константу у, так как а может быть выбрана множеством способов. Процесс выбора приемлемых значений для у основан на анализе перехода наименьшей наблюдаемой разницы сырых баллов (LOD) в наименьшую разницу (LMD) оценок параметра 0 в шкале логитов. В рамках другого подхода оценка шкалирующего множителя у основана на анализе значений стандартной ошибки измерения 9.
Вне зависимости от подхода все исследователи связывают значение у с длиной теста. Как правило, у выбирают на основании одного из трех неравенств
В качестве обобщения различных подходов к выбору шкалирующего множителя у предлагается табл. 7.8, где сообразно трем неравенствам, приведенным выше, даются возможные минимальные значения у,, у2 и у3.
Таблица 7.8. Минимальные значения множителя у
Длина теста n | Yi | Y2 | Y3 |
2 | 1 | ||
1 | |||
Анализ табл. 7.8 показывает, что выбор шкалирующего множителя целиком зависит от длины теста. В практике деятельности тестовых служб обычно останавливаются на значениях у=10, так как редко применяются тесты, включающие менее 30 заданий. При фиксированной длине теста значение множителя будет зависеть целиком от желания пользователя добиться определенного уровня дифференциации тестовых баллов испытуемых. При этом необходимо помнить о том, что уменьшение размаха шкалы огрубляет оценки, а увеличение — повышает ошибочный компонент. При у= 10 стандартная ошибка измерения увеличится в 10 раз, а при у = 100 — в 100. В целом же и то и другое ухудшает качество сырых оценок. Поэтому при выборе у недопустимо как неоправданное занижение, так и излишнее завышение у.
Конечно, оценки латентных параметров в логитах можно подвергать и нелинейным преобразованиям, однако линейное преобразование предпочтительнее, так как оно сохраняет интервальный характер шкалы. Среди линейных наиболее распространенным является преобразование при
а = 50, у=4,55, предложенное Чопином (Chopin). В этом случае
В результате линейного преобразования с а = 50 и у= 4,55 получают положительные значения вир, расположенные в интервале (30, 70), которые затем округляют до целых. Новые значения латентных параметров 0 и р представлены в так называемой шкале W, или Wits [5]. Выбор значений а и у обусловлен соображениями удобства, поскольку при увеличении значения |6 - р| на 5 единиц по сравнению со значением 0 - р = 0 вероятность правильного выполнения задания возрастет или уменьшится в 3 раза.
Другое линейное преобразование связано с именем Вудкока (Woodcock). В определенной им шкале для Woodcock—Johnson Psycho-Educational Battery
.
Уровень трудности заданий пересчитывается по формуле В шкале Вудкока значениям разности 0 — р=20,10,0, —10,20 соответствуют вероятности правильных ответов 0,90; 0,75; 0,50; 0,25; 0,10.
К разряду линейных относится преобразование Райта (Wright) [59] при , когда
Подводя итог сказанному, можно отметить, что при переходе от сырых показателей к производным используются шкалирующие модели двух классов. В рамках первого строятся шкалы, основанные на оценке различий между сырыми баллами и нормативными показателями, определенными в процессе стандартизации теста. При этом предполагается, что есть некоторая связь между уровнем подготовки испытуемого и алгебраической суммой баллов, полученной им в результате выполнения теста. Этот класс моделей применяется в рамках классической теории тестов и позволяет реализовать, как правило, порядковую, а в лучшем случае квазиинтервальную шкалу.
Второй класс моделей имеет дело с зависимостями между сырыми баллами и производными показателями, получаемыми как для заданий, так и для испытуемых в одной и той же шкале. Сопоставление таких, казалось бы, несравнимых величин проводится в шкале логитов переменной, обеспечивающей общую единицу измерения для уровня знаний испытуемых и трудности заданий теста. Шкала латентных переменных подвергается одному из линейных преобразований для сообщения результатов испытуемым, выполнявшим тест. Параметры преобразования выбираются из соображений удобства, однако так, чтобы не потерять никакой полезной информации, полученной в процессе применения теста.
Выводы
1.Шкалирование тестовых баллов предназначено для выявления истинных различий в уровне подготовки испытуемых при интерпретации результатов выполнения теста.
2.Адекватность интерпретации достигается путем сопоставления индивидуальных результатов с нормами выполнения теста.
3.Профессионально разработанные нормативно-ориентированные тесты проходят обязательный процесс стандартизации, суть которого заключается в определении норм теста.
4.Операция шкалирования первоначальных эмпирических данных предполагает различные уровни измерения, среди которых оптимальным является интервальный, позволяющий построить количественную шкалу с определенной единицей измерения.
5.Каждая из шкал имеет свои достоинства и свои недостатки. Среди многих других наиболее предпочтительной является шкала логитов, обеспечивающая сравнение оценок параметров трудности заданий и уровня подготовки испытуемых благодаря введению единой единицы измерения. .
ВОПРОСЫ И ЗАААНИЯ
1. Какие нормы теста вы знаете?
2. Как называется процесс определения норм теста?
3. Приведите примеры измерения величин в номинальной шкале и шкале отношений.
4. Предположите, что группа учеников выполняла ранжированные по нарастанию трудности задания теста. Если индивидуальные баллы четырех учеников таковы, что X1 = 5, X2=10, Х3= 40, Х4 = 45, то имеет ли смысл интерпретировать равенство Х2 – Х1 - Х4 — Х3 при сопоставлении результатов учеников?
5. Можно ли выбрать единую шкалу тестовых баллов и пользоваться ею в любых шкалах и любых тестах?
6. Переведите в Z-шкалу сырые баллы 10 учеников: Х1 = 2,Х2 = = 7,Х3=\, Х4 = 5,Х5 = 5, Х6 = 11, X7 = 9,X8 = 2, X9=15,X10 = 3, выполнивших 25 заданий теста.
7. Установите соответствие.
Шкала 1. Номинальная 2. Порядковая 3. Интервальная |
Возможность оценить
A) Во сколько раз один ученик знает больше другого
Б) Наличие или отсутствие планируемого уровня подготовки
B) На сколько один ученик знает больше другого
Г) Ранг ученика
ОСНОВНЫЕ ПОДХОДЫ К ОЦЕНКЕ КАЧЕСТВА ПОДГОТОВКИ
8.1. качество полготовки обучаемых
КАК ПРЕДМЕТ ОБСУЖДЕНИЯ
В отличие от нашей страны, где поиск решения проблемы оценки качества обучения идет в основном по пути теоретико-методологических исследований [ 1 ], в ряде европейских стран, в США, Австралии большинство исследований носит прикладной характер и сами исследования по сути своей крайне прагматичны. Прагматичность зарубежных подходов выглядит очень привлекательно. Дело в том, что результаты теоретико-методологических исследований выполняют для преподавателя-практика исключительно ориентирующую функцию в силу своего абстрактного характера, но ничего не говорят педагогу о том, что же такое качество обучения и как его оценить в повседневном учебном процессе. Конечно, эта точка зрения может показаться спорной, особенно тем, кто далек от практической работы с учениками и студентами. Однако она представляется единственно верной. Не отрицая важности концептуальных исследований, следует признать, что пришла пора перейти от слов к делу, от рассуждений о том, что такое качество подготовки, к его непосредственной оценке и контролю за его достижением.
Таким образом, можно считать наиболее ценными те определения качества подготовки, которые поддаются операционализации. Процедура операционализации предполагает доведение определений до уровня, на котором понятие «качество подготовки» выражается правилами измерения и конкретными измеряемыми элементами. Именно с этих позиций, с позиций уровня операционально подходов и представлений о качестве подготовки, выстроен материал, в котором приоритет отдан понятиям, идентифицируемым совокупностью конкретных эмпирических референтов.
Извечные попытки ученых и практиков найти ответ на вопрос, что же такое качество подготовки обучаемых, позволяют сделать лишь один несомненный вывод о неоднозначности подходов к трактовке этого понятия. Дополнительные трудности появляются в тех случаях, когда одновременно используют и противопоставляют два понятия «качество» и «количество». Типичным примером последнего подхода может служить термин «качественная оценка», который обычно применяется именно для того, чтобы подчеркнуть не количественный характер оценки, ее субъективизм и отсутствие явных количественных референтов. Еще один пример — Закон РФ «Об образовании», где цель и содержание аттестации определяются как установление соответствия содержания, уровня и качества подготовки выпускников образовательных учреждений требованиям государственных образовательных стандартов, т.е. в самом законе декларируется существование двух рядоположенных объектов проверки.
В этой связи прежде всего необходимо уточнить оттенки словоупотребления в материале главы, где термины «качество» и «количество» не противопоставляются, а «вкладываются» один в другой. Количество — уровень подготовки — рассматривается как одна из характеристик качества подготовки. Обсуждению более широкого понятия «качество образования» Международный институт планирования образования посвятил две конференции в 1969 и 1978 г. Итогом многолетних дискуссий стал вывод о том, что дать однозначное определение понятию «качество образования» просто невозможно. Однако для практических целей под качеством образования решили понимать «качественные изменения» в учебном процессе и в среде, окружающей обучаемого, которые можно идентифицировать как улучшение знаний, умений и ценностей, приобретаемых обучаемым по завершении определенного этапа.
УРОВНИ АНАЛИЗА ИНФОРМАЦИИ О КАЧЕСТВЕ ПОДГОТОВКИ ОБУЧАЕМЫХ
Как результат сужения понятия «качество образования» возникает понятие «качество подготовки», обсуждение которого можно вести на различных уровнях. Первый уровень — планирование обучения, когда определенные представления о планируемом качестве подготовки закладываются в образовательные программы по каждому предмету.