Преимущества и недостатки классических тестов и тестов по моделям IRT.

Преимущества IRT

• Оценки уровня подготовленности испытуемых инварианты относительно тестовых заданий,

– по результатам выполнения которых они получены.

• Оценки трудности тестовых заданий инвариантны относительно контингента испытуемых,

– по результатам тестирования которых они получены.

• Ошибка измерения оценивается индивидуально для каждого испытуемого и каждого задания.

• Все параметры заданий и испытуемых находятся на единой шкале.

– Имеется общая шкала (логитов/пробитов) для измерения уровня

подготовленности испытуемых и уровня трудности заданий, эта шкала является интервальной.

• Возможен анализ влияния дополнительных факторов на оценки параметров заданий и мер испытуемых.

• Разработаны методы решения специфических проблем тестирования.

• Теория компьютерного адаптивного тестирования базируется на IRT.

Недостатки IRT

• Игнорирование проблемы валидности - способность изначально должна быть согласована со шкалой интервалов.

• Теория применима к факторно простым тестам (одномерность).

– В психологической практике практически не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним фактором.

– Даже при тестировании общего интеллекта модели IRT плохо неприменимы.

• Для того чтобы получить надежную и не зависимую от испытуемых шкалу свойств, требуется провести тестирование большой выборки (не менее 1000 испытуемых).

• Тестирование достижений показывает, что существуют значительные расхождения между предсказаниями модели и эмпирическими данными.

• Шкалирование способно привести к образованию бессмысленных шкал.

– Например, попытка применить его модель к опроснику EPQ Айзенка

породила смесь шкал N, Е, Р и L.

Перечень основныхнедостатковВ классической теории тестирования:

• Оценки уровня подготовленности испытуемых зависят от уровня трудности конкретного теста.

• Оценки трудности тестовых заданий зависят от уровня подготовленности конкретной выборки испытуемых.

• Шкала первичных баллов часто является порядковой и теория не показывает как повысить уровень шкалы.

• Методы оценивания надежности требуют существенных ограничений и дают искаженные результаты.

• Ошибка измерения является величиной постоянной для всех

испытуемых.

• Уровни подготовленности испытуемых и параметры заданий теста находятся на различных шкалах.

• Нет возможности решить специфические проблемы тестирования.

– Не подходит для компьютерного адаптивного тестирования.

– Невозможно предсказать исход выполнения данным испытуемым данного задания.

Возможности обработки данных

1. Оценка статистической сложности заданий.

2. Интеркорреляция между заданиями теста и корреляция баллов заданий и внешнего критерия (суммы баллов испытуемых), для определения валидности тестовых заданий.

3. Быстрая оценка качества теста на основе графического вида кривой распределения тестовых баллов испытуемых.

4. Получение оценки надёжности результатов тестирования посредством корреляционного анализа баллов испытуемых по тесту, либо по нескольким его вариантам.

5. Построение доверительного интервала, в пределах которого находится истинный балл испытуемого, либо получение точечной регрессионной оценки.

6. Интерпретация результатов - определение места (рейтинга) испытуемого в выборке.

Надежность теста. Понятие надежности. Ретестовая надежность.

Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность теста

Надежность теста - фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 - 0,9.

Надежность ретестовая — характеристика надежности психодиагностической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности (rt) соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкал применяется коэффициент корреляции произведения моментов Пирсона. Для шкал порядка в качестве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.При характеристике Н. р. особое значение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции имеют тенденцию к снижению, существенно повышается вероятность воздействия посторонних факторов — могут наступить закономерные возрастные изменения измеряемых тестом свойств, произойти различные события, влияющие на состояние и особенности развития исследуемых качеств. По этой причине при определении Н. р. стараются выбирать непродолжительные временные интервалы (до нескольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку возрастные изменения и развитие в этом случае происходят еще быстрее.

Наши рекомендации