Степень надежности различных тестов
• Наибольшая стабильность наблюдается у графических и графологических тестов.
• Медленно изменяется почерк, качество линий рисунков и их композиция.
• Долго остается постоянным профиль характера.
• Наибольшая динамичность показателей наблюдается у интеллектуальных тестов.
Теории тестирования. Общие подходы.
Классическая эмпирико-статистическая теория тестирования
• Классическая теория тестирования была разработана для анализа и построения тестов.
• Она рассматривает оценки (набранные баллы) обучаемых как постоянные числа, соответствующие «истинным» значениям измеряемых свойств и качеств и основывается на изучении статистик от начальных данных.
• Классическая теория теста лежит в основе современной дифференциальной психометрии.
Предположения классической теории тестирования
• Одноразмерность: тест измеряет только одну черту или способность.
– Измеряемое психическое свойство считается линейным и одномерным.
• Вероятность получить тот или иной итоговый балл не зависит от того, какая подгруппа из популяции обучаемых будет проходить тест.
• Задания тестов не зависят друг от друга.
• Ответы экзаменуемых не зависят друг от друга.
В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест — такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения («качества» прибора, действий экспериментатора, внешних помех и т.д.).Любое свойство личности имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет.
Если тест проводить много раз, то среднее будет характеристикой «истинной» величины параметра. Отсюда выводится понятие ретестовой надежности: чем теснее коррелируют результаты начального и повторного проведения теста, тем он надежнее. Стандартная погрешность измерения.
Основная задача теста
• Получить значение истинного балла (T) i-го испытуемого исходя из наблюдаемого результата
(X), с учётом случайной ошибки измерения (E).
• Отсюда вытекает основной постулат классической теории тестирования:
Xi=Ti+Ei
Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.
Современные теории тестов
• В ответ на критику классической теории тестов был разработан ряд «современных» теорий, которые называются стохастическими или вероятностными.
• В них дополнительно вводятся два параметра:
– способность испытуемого и
– трудность задания теста.
• Эти параметры рассматриваются как латентные переменные, о которых делают выводы на основе наблюдаемых при тестировании реакций.
– Латентными называются положительные и отрицательные качества, не поддающиеся непосредственному измерению.
• Примерами являются: «подготовленность студентов», «знаниеучебной дисциплины», «способность понимать», «интеллектуальное развитие» и многое другое.
Предположения теории ответов на вопросы (ItemResponseTheory - IRT)
• Одномерность теста: только одна переменная измеряется данным набором заданий.
• Локальная независимость: ответы испытуемого на любую пару заданий статистически независимы.
• Характеристическая функция задания отражает истинную связь между ненаблюдаемыми переменными (уровнем подготовленности) и наблюдаемыми (ответами на задание).
• Модель измерения определяется математическим выражением для характеристической функции задания.
• Предположения о характеристиках заданий,которые влияют на выполнение задания
испытуемыми.
§ Цель IRT – это проведение высококачественных педагогических измерений уровня подготовленности испытуемых и уровня трудности заданий, куда входит поиск подходящих прогностических моделей и проведение расчётов пригодности модели для имеющихся данных.
§ Задачи IRT вытекают из этой цели и сводятся к разработке таких методов измерения, которые позволяют получить наилучшие (оптимальные) параметрические оценки уровня подготовленности испытуемых и оценки трудности заданий на основе выборочных статистик и других эмпирических данных.