Отраслевой терминологический стандарт
По материалам Т.М. Балыхиной, М.Е. Кошелюка, В.Ж. Куклина, А.Н. Майорова, В.А. Хлебникова, М.Б. Челышковой, А.Г. Шмелева (www. ege.edu.ru)
Адаптивное (последовательное) тестирование – вид компьютерного тестирования, при котором тестовые задания с известными характеристиками последовательно изображаются на экране компьютера, а уровень подготовленности испытуемого со все возрастающей точностью оценивается сразу же после каждого его ответа. Очередное задание в зависимости от ранее данных ответов испытуемых подбирается так, чтобы его уровень трудности позволял наилучшим образом оценить уровень подготовленности тестируемого. Количество заданий теста заранее не фиксируется, а процесс тестирования заканчивается по достижении заданной точности оценки уровня подготовленности испытуемого.
Апробация теста – предварительное тестирование стратифицированной выборки испытуемых для определения соответствия теста его целям и априорным характеристикам. Апробация – необходимый этап для создаваемого теста перед его использованием.
Ассоциации в тестовом задании – словесная подсказка в содержании задания, позволяющая тестируемому угадать правильный ответ; свидетельство некорректности задания.
Балл истинный – латентный параметр, представляющий собой тот балл, которому объективно соответствует уровень подготовленности данного испытуемого при указанной методике оценивания (при этом условно предполагается, что ошибки измерений отсутствуют).
Балл категории ответа на тестовое задание – балл, соответствующий определенной категории ответа на политомическое задание теста в зависимости от полноты ответа (например, категория ответа на уровне узнавания – один балл, на уровне репродукции – два балла, на уровне оперативного применения – 3 балла и т.д.).
Балл критериальный – граничное значение тестового балла, с помощью которого заданная выборка тестируемых разделяется на выполнивших данный тест (зачет) и не выполнивших (незачет).
Балл первичный дихотомического задания – количество участников тестирования, верно выполнивших данное задание, отражает некоторую меру трудности задания.
Балл первичный испытуемого – сумма баллов за ответы на тестовые задания, которые испытуемый указал в качестве правильных. Для тестов, состоящих из дихотомических заданий, количество верно выполненных заданий отражает некоторую меру подготовленности данного испытуемого относительно данного теста.
Балл первичный категории задания – количество участников тестирования, указавших данную категорию ответа для определенного задания в качестве правильного ответа, в случае дихотомического задания совпадает с первичным баллом этого задания.
Балл тестовый – окончательное количественное выражение по определенной шкале индивидуальной оценки уровня подготовленности тестируемого, полученное на основании стандартизованной обработки результатов выполнения испытуемым тестовых заданий.
Банк тестовых материалов – совокупность систематизированных тестовых заданий и тестов, разработанных различными авторами для различных целей, прошедших апробацию и имеющих известные характеристики.
Бланк ответа – стандартный бланк для ответов на задания теста; тестируемый отмечает или записывает номера выбранных ответов или сами ответы.
Валидизация – процедура улучшения валидности теста по результатам критериальной оценки.
Валидность теста критериальная – характеристика теста, отражающая показатель соответствия диагноза и прогноза теста определенным внешним критериям, характеризующим объект измерения.
Валидность теста прогностическая – частный случай валид–ности критериальной. Отражает эффективность прогноза теста о возможностях испытуемых в будущем.
Валидность теста содержательная – характеристика теста, выражающая показатель охвата заданиями теста той области знания, подготовленность в которой этот тест оценивает.
Валидность сопоставительная (текущая) – частный случай валидности критериальной. Отражает соответствие текущего диагноза теста результатам другого измерения того же объекта.
Валидность теста – комплексная характеристика теста, отражающая его способность измерять именно то, для чего он предназначен. Характеризует возможности генеральной совокупности заданий в тестируемой области знаний несмещенно оценить объект измерений теста.
Валидность теста факторная – характеристика теста, выражающая корреляцию между данным тестом и каждым из выбранных факторов контроля знаний, умений и навыков.
Варианты теста – набор неидентичньгх тестов, созданных по единой спецификации и имеющих одинаковую структуру.
Время тестирования – интервал времени, отводимого на выполнение теста.
Выравнивание вариантов теста – определенный метод решения комплекса вопросов, связанных с отображением на определенной шкале латентных характеристик всех тестовых заданий (в том числе составляющих его различные варианты).
Генеральная совокупность тестовых заданий – гипотетическое множество тестовых заданий, связанных общей целью и теоретически полностью отражающих определенную область знаний.
Дистрактор (отвлекающий ответ) – вариант ответа на тестовое, задание закрытого типа, похожий на правильный, но не являющийся таковым.
Дихотомическое (альтернативное) тестовое задание – задание, выполнение которого оценивается только альтернативно: выполнено верно (обычно символизируется единицей) или выполнено неверно (обычно символизируется нулем).
Длина теста – количество заданий в тесте.
Задание закрытое (задание закрытой формы) – задание теста с выбором ответа из нескольких предложенных вариантов. В бланке ответов ЕГЭ эти задания помечены буквой A.
Задание открытое (открытой формы) – задание теста с кратким свободным ответом, в котором отсутствуют варианты ответа и экзаменуемый должен сам самостоятельно сформулировать ответ и записать словом, словосочетанием или числом. В бланке ответов ЕГЭ эти задания помечены буквой В.
Задания с развернутым ответом – тестовые задания, на которые учащийся должен записать ответ в виде одного или нескольких предложений или формул. Является частным случаем заданий открытых. В бланке ответов ЕГЭ эти задания помечены буквой С. Проверка правильности ответов на эти задания производится независимыми экспертами–предметниками.
Ключ к заданию – это правильный ответ на тестовое задание. В случае заданий с развернутым ответом единственный формализованный ключ к тестовому заданию отсутствует, и правильность ответа устанавливают независимые эксперты (проверяющие), действующие на основе авторской инструкции и эталонных ответов на конкретные задания этого типа.
Инструкция о проведении тестирования – документ, устанавливающий порядок и организацию тестирования, которые определяются используемой методикой, техническими и организационными средствами и запланированными способами обработки.
Инструкция тестового задания – словесные указания испытуемому, связанные с выполнением тестового задания (выбором правильного ответа из нескольких вариантов, решением математической задачи и т.п.). Указывается способ записи правильного ответа (что, каким образом и где надо отметить, вписать и т.д.). Инструкция может быть единой для нескольких заданий теста, если эти задания однотипны по требованиям их выполнения.
Ключ к тесту (ключи ответов) – это набор ключей ко всем заданиям, включенным в данный тестовый вариант (КИМ).
Коэффициент дискриминации (дифференцирующая способность) тестового задания – количественная характеристика способности тестового задания дифференцировать испытуемых по уровню их подготовленности. Изменяется от–1 до +1.
Логит – единица измерения уровней подготовленности участников тестирования и трудности тестовых заданий в рамках логистических моделей текстов. Если разность между упомянутыми параметрами составляет 1 логит, то вероятность верного выполнения испытуемым такого задания равна 0,73.
Матрица ответов – прямоугольная таблица, в каждой позиции которой указываются ответы участника тестирования. Обычно номер строки соответствует номеру испытуемого, а номер столбца соответствует номеру задания теста.
Метод Кронбаха – обобщение метода Кьюдера—Ричардсона для случая, когда задания теста не являются дихотомическими.
Метод Кьюдера—Ричардсона – оценка надежности теста, основанная на вычислении по одноименной формуле среднего значения коэффициента надежности методом Рюлона при расщеплениях теста на две половины, при этом задания теста оцениваются дихотомически.
Метод расщепления – оценка надежности теста, основанная на сопоставлении результатов тестирования по двум или нескольким эквивалентным частям теста.
Метод Рюлона – метод оценивания числителя отношения, определяющего коэффициент надежности, по разностям результатов тестирования испытуемых по двум эквивалентным половинам одного и того же теста.
Модель двухпараметрическая – логистическая модель, в которой функция успеха зависит от разности между уровнем подготовленности тестируемого и уровнем трудности тестового задания и от коэффициента дискриминации тестового задания.
Модель однопараметрическая – логистическая модель, в которой функция успеха зависит только от разности между уровнем подготовленности тестируемого и уровнем трудности тестового задания.
Модель тестирования – одна или несколько функциональных зависимостей, гипотетически связывающих подлежащие определению параметры участников тестирования и тестовых заданий с такими величинами, которые реально проявляются в результате выполнения соответствующего теста (например, с вероятностью правильного выполнения испытуемым определенного уровня подготовленности тестового задания определенной трудности).
Модель частичного оценивания – обобщение логистических моделей для политомических тестовых заданий, позволяющее дополнить альтернативное оценивание заданий (выполнено верно, выполнено неверно) оцениванием частично правильного ответа.
Модератор – комплексная характеристика контингента испытуемых (возраст, пол, регион и т.п.).
Надежности коэффициент – количественная характеристика надежности, изменяющаяся от 0 до 1; показывает, в какой мере результаты тестирования можно считать реальными, а в какой – приписать влиянию случайных ошибок. Представляет собой отношение дисперсии измеряемого объекта в выборке (обычно истинного балла) к реально полученной полной дисперсии с учетом неизбежных ошибок измерений (обычно тестового балла).
Надежность теста – показатель точности и устойчивости результатов измерения с помощью теста при его многократном применении. Характеризует степень адекватности отражения тестом соответствующей генеральной совокупности заданий.
Нормативная выборка стратифицированная – группа тестируемых, содержащая представителей всех наиболее значимых страт, реально существующих в генеральной совокупности потенциальных испытуемых, причем в той же пропорции.
Нормы (нормы теста) – это границы между интервалами на шкале тестовых баллов, которым ставятся в соответствие определенные школьные отметки.
Окончательная обработка результатов – это статистическая обработка, выполняемая на основе всех собранных результатов по данному тесту, на основе этой обработки вносят поправки в предварительные тестовые нормы, а также производится более точный расчет сертификационного балла с учетом реальной трудности тестовых заданий.
Оценивание – формализованный или экспертный процесс, который завершается оценкой уровня образовательных достижений учащихся.
Ошибка измерения – статистический показатель, характеризующий степень точности отдельных измерений, погрешность измерений; величина интервала на шкале тестовых баллов, внутри которого истинная оценка учащегося может находиться фактически с равной вероятностью.
Параллельные варианты теста – варианты теста, имеющие одинаковые характеристики.
Педагогические измерения – область педагогики, разрабатывающая и применяющая методы и средства измерений и оценки результатов учебной деятельности испытуемых.
План теста – таблица, в которой каждое тестовое задание соотносится с определенным элементом содержания учебного предмета, конкретным видом знаний или умений, позволяющим объективно судить об уровне подготовленности испытуемых. Указывается также планируемое время выполнения каждого тестового задания и всего теста в целом.
Политомическое тестовое задание – задание, выполнение которого допускает несколько категорий ответа, каждый из которых оценивается по–разному (например, полностью верный ответ – 2 балла, частично верный ответ – 1 балл, неверный ответ – 0 баллов).
Пользователь теста – юридическое или физическое лицо, использующее тест или результаты тестирования для оценки уровня подготовленности испытуемых в определенной области.
Разрешающая способность теста (РСТ) – длина промежутка на шкале уровня подготовленности испытуемых, соответствующая изменению первичного балла участника тестирования на единицу.
Ретестовый метод – оценка надежности теста, основанная на повторном, желательно многократном его использовании при примерно одинаковых условиях. Надежность теста характеризуется степенью соответствия полученных результатов.
Сертификат результатов тестирования – индивидуальный официальный документ государственного образца о результате централизованного педагогического тестирования определенного лица с указанием полученного тестового балла.
Ситуативные переменные – совокупность случайных факторов, влияющих на результаты тестирования (например, место и время проведения тестирования, особенности поведения тестирующего лица, волнение испытуемого и т.д.).
Спецификация теста – документ, в котором содержится информация о целях, задачах, плане и структуре теста, а также указаны основные требования к правилам проведения тестирования, обработки результатов тестирования и их интерпретации.
Стратификация – описание структуры определенного множества объектов (например, генеральной совокупности потенциальных участников тестирования), расслоение его на страты.
Страты – определенные слои в некотором множестве объектов, например в генеральной совокупности потенциальных участников тестирования. Характеризуются различными программами обучения, региональным представительством, бытовыми условиями и т.п.
Структура теста – совокупность сведений о числе и типе тестовых заданий по каждому элементу содержания учебного предмета и по каждому виду знаний или умений, позволяющих объективно судить об уровне подготовленности испытуемых. Указывается также предполагаемый уровень трудности каждого тестового задания и по возможности его коэффициент дискриминации.
Субтест – определенное подмножество тестовых заданий некоторого теста, допускающее независимую обработку результатов тестирования и позволяющее, таким образом, решать специфические частные задачи тестирования. Тест может содержать несколько субтестов, возможно перекрывающихся.
Теория моделирования и параметризации педагогических тестов (ТППТ) – теоретическая основа педагогических измерений, позволяющая ввести метрику шкалы, по которой фиксируются результаты тестирования. Основные задачи: разработка моделей тестирования; проверка адекватности различных тестов реальной действительности; измерение характеристик тестовых заданий и участников тестирования в виде оценки; шкалирование результатов тестирования и определение их точности.
Тест стандартизованный – педагогический тест, имеющий спецификацию и определенные характеристики, стабильно подтвержденные на представительной выборке испытуемых. Предназначен для многократного использования.
Тестовые нормы – наиболее важные статистические характеристики распределения результатов тестирования нормативной выборки испытуемых.
Тестолог – специалист, занимающийся теоретическими и практическими вопросами тестологии.
Тестология – наука в области педагогических измерений, дающая теоретико–методологическое и методическое обоснование разработке и применению педагогических тестов для определения характеристик и свойств личности.
Трудность тестового задания (уровень трудности) – основная количественная характеристика тестового задания, измеренная по определенной шкале и не зависящая от выборки испытуемых.
Тестовые шкалы (шкала) – упорядоченные множества числовых оценок результатов тестирования; для разных целей создаются различные тестовые шкалы (пятибалльная шкала, стобалльная шкала).
Шкалирование результатов – процесс формирования тестовых шкал и тестовых норм, т. е. правил начисления тестовых баллов по результатам тестирования на основе статистических данных.
Шкала нормализованная с постоянным шагом – порядковая шкала, индексы которой соответствуют равноудаленным значениям баллов с шагом z ( например, десятибалльная шкала с z = 0,5 будет иметь 20 значений).
Приложение 2