Степень надежности различных тестов

• Наибольшая стабильность наблюдается у графических и графологических тестов.

• Медленно изменяется почерк, качество линий рисунков и их композиция.

• Долго остается постоянным профиль характера.

• Наибольшая динамичность показателей наблюдается у интеллектуальных тестов.

Теории тестирования. Общие подходы.

Классическая эмпирико-статистическая теория тестирования

• Классическая теория тестирования была разработана для анализа и построения тестов.

• Она рассматривает оценки (набранные баллы) обучаемых как постоянные числа, соответствующие «истинным» значениям измеряемых свойств и качеств и основывается на изучении статистик от начальных данных.

• Классическая теория теста лежит в основе современной дифференциальной психометрии.

Предположения классической теории тестирования

• Одноразмерность: тест измеряет только одну черту или способность.

– Измеряемое психическое свойство считается линейным и одномерным.

• Вероятность получить тот или иной итоговый балл не зависит от того, какая подгруппа из популяции обучаемых будет проходить тест.

• Задания тестов не зависят друг от друга.

• Ответы экзаменуемых не зависят друг от друга.

В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест — такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения («качества» прибора, действий экспериментатора, внешних помех и т.д.).Любое свойство личности имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шка­лы значения не имеет.

Если тест проводить много раз, то среднее будет характеристикой «истинной» величины параметра. Отсюда выводится понятие ретестовой надежности: чем тес­нее коррелируют результаты начального и повторного проведения теста, тем он на­дежнее. Стандартная погрешность измерения.

Основная задача теста

• Получить значение истинного балла (T) i-го испытуемого исходя из наблюдаемого результата

(X), с учётом случайной ошибки измерения (E).

• Отсюда вытекает основной постулат классической теории тестирования:

Xi=Ti+Ei

Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.

Современные теории тестов

• В ответ на критику классической теории тестов был разработан ряд «современных» теорий, которые называются стохастическими или вероятностными.

• В них дополнительно вводятся два параметра:

– способность испытуемого и

– трудность задания теста.

• Эти параметры рассматриваются как латентные переменные, о которых делают выводы на основе наблюдаемых при тестировании реакций.

– Латентными называются положительные и отрицательные качества, не поддающиеся непосредственному измерению.

• Примерами являются: «подготовленность студентов», «знаниеучебной дисциплины», «способность понимать», «интеллектуальное развитие» и многое другое.

Предположения теории ответов на вопросы (ItemResponseTheory - IRT)

• Одномерность теста: только одна переменная измеряется данным набором заданий.

• Локальная независимость: ответы испытуемого на любую пару заданий статистически независимы.

• Характеристическая функция задания отражает истинную связь между ненаблюдаемыми переменными (уровнем подготовленности) и наблюдаемыми (ответами на задание).

• Модель измерения определяется математическим выражением для характеристической функции задания.

• Предположения о характеристиках заданий,которые влияют на выполнение задания

испытуемыми.

§ Цель IRT – это проведение высококачественных педагогических измерений уровня подготовленности испытуемых и уровня трудности заданий, куда входит поиск подходящих прогностических моделей и проведение расчётов пригодности модели для имеющихся данных.

§ Задачи IRT вытекают из этой цели и сводятся к разработке таких методов измерения, которые позволяют получить наилучшие (оптимальные) параметрические оценки уровня подготовленности испытуемых и оценки трудности заданий на основе выборочных статистик и других эмпирических данных.

Наши рекомендации