Виды валиджности и способы валидизации теста
Выделяют три вида валидности – содержательную, критериальную и конструктную20. А.Майоров приводит следующую диаграмму видов валидности18:
КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.
КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.
Имеется два вида критериальной валидности – текущая и прогностическая.
Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.
Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.
СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.
Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений20.
Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.
Валидизация, основанная на критерии:
Метод требует демонстрации корреляции или другой статистической связи между тестовым баллом и уровнем выполнения «работы» (например, решением математических задач). Другими словами, люди с высоким тестовым баллом имеют тенденцию лучше выполнять работу, чем люди с более низким тестовым баллом. Если критерий для сравнения нам известен во время проведения теста, то это называется совместной валидностью, а если значения критерия проявляются в более позднее время, то это предиктивная валидность. Например, соответствие последующей успеваемости студента с баллом вступительных экзаменов – это предиктивная валидность, а согласованность с этим баллом результатов школьных выпускных экзаменов – совместная валидность.
Валидность, основанная на критерии измеряется коэффициентом валидности. Это число между 0 и 1, которое степень близости «r» между тестом и мерой выполнения «работы» (критерием). Чем больше значение коэффициента, тем более вы можете в предсказаниях, основанных на тестовом балле. Тем ни менее, один тест никогда не может полностью предсказать степень исполнения «работы», так как слишком много различных факторов влияют на успех в «работе». Поэтому коэффициент валидности, в отличии от коэффициентов надежности, редко превышает r = 0.40.
Валидизация, основанная на свойстве:
Метод требует демонстрации того, что тест измеряет свойство или характеристику, для которой он и предназначен. Этот метод часто применяется для тестов, которые меряют абстрактные величины. Например, валидность, основанная на свойстве, может быть использована, когда школа оценивает «хорошесть» учеников. В данном случае, «хорошесть» - не некая наблюдаемая величина, а концепция, созданная, чтобы объяснить возможное поведение учеников в будущем. Чтобы продемонстрировать, что тест имеет хорошую валидность, основанную на свойстве, школе будет необходимо показать, что, во-первых, тест действительно измеряет это свойство и, во-вторых, это свойство связано с хорошей успеваемостью учеников.
Валидность, основанная на свойстве, часто используется для измерения психологических черт личности, например, интеллигентность, самосознание или креативность. Есть несколько способов проверить валидность, основанную на свойстве. Например, можно продемонстрировать, что вопросы в тесте связаны и, таким образом, измеряют одну величину. Внутриклассовая корреляция и факторный анализ часто используются для того, чтобы продемонстрировать связь между вопросами. Другой подход – это продемонстрировать, что значения теста ведут себя так же, как вы ожидаете должны вести себя значения свойства. Например, предполагается, что мера креативности должна показывать большую корреляцию с артистическими способностями, чем со школьными успехами.
Также, для самопроверки полезно задать следующие вопросы:
- Действительно ли концептуальная основа для каждого тестируемого свойства хорошо обоснована и ясна?
- Почему мы предполагаем, что свойство связано с целью теста?
Анализ заданий.
В качестве дополнительной меры для улучшения валидности теста можно провести анализ заданий. По определению, наличие в тесте задания, провоцирующего социально одобряемые реакции, должно приводить к тому, что распределение ответов на него будет смещено, то есть не будет соответствовать нормальному распределению. Таким образом, устранением из теста заданий с распределением ответов, отличным от нормального, мы избавимся от действия установки на социально одобряемые ответы. Более того, если большинство заданий дают нормальное распределение ответов и они нагружены некоторым общим фактором, тогда установка на социально одобряемые ответы не может оказывать сильное влияние и на другие задания, относящиеся к тому же фактору. Подобные аргументы приводятся при анализе заданий с использованием бисериальной корреляции результатов выполнения каждого задания с общим показателем по тесту. Таким образом, при адекватном анализе те задания, результат выполнения которых подвержен влиянию установки на социально одобряемые ответы, должны быть устранены, если только, по нелепой случайности, все задания, выбранные нами для теста, не оказались измеряющими эту черту.