Контроль содержания теста с целью обнаружения установок на ответ и дальнейшего вмешательства
Установки респондентов на тот или иной ответ могут оставаться проблемой даже после того, как разработчики тестов попытались свести к минимуму их существование и их влияние на тестовые баллы. Несмотря на самые тщательные попытки предотвратить или уменьшить степень влияния установок, они все же могут оказывать определенное влияние на отдельные ответы, принимаемые на основе теста решения и проводимые по результатам теста анализы. В качестве дополнительной степени защиты против установок на ответ пользователи тестов могут различными способами определять те ответы, которые, вероятно, обусловлены установкой. В данном и следующем разделах будут обсуждаться методы идентификации респондентов, которые демонстрируют наличие той или иной установки на ответ. После того, как данных респондентов идентифицировали, у пользователей теста существует несколько вариантов действий по отношению к их ответам, такие как исключение из рассмотрения и статистический контроль.
Несколько известных тестов из области психопатологии и психологии личности включают в себя шкалы валидности. Шкалы валидности представляют собой наборы пунктов, включенные в опросник и направленные на количественную оценку той степени, в которой респондент склонен демонстрировать ту или иную установку на ответ. Пользователи тестов могут изучить паттерн ответов респондента на данный набор пунктов и количественно оценить степень, в которой этот паттерн ответов отражает угадывание, установку на согласие, искусственно «хорошие» или искусственно «плохие» ответы и т.д. Психометрика уделяла большое внимание созданию и оценке шкал валидности для таких широко используемых тестов, как стандартизованный многофакторный метод исследования личности (MMPI), клинический многоосевой опросник Милона (MCMI), опросник личности NEO-PI, Калифорнийский личностный опросник CPI.
Вероятно, наиболее известные шкалы валидности – те, которые входят в состав MMPI. Последнее издание MMPI (MMPI-2) включает в себя как минимум семь шкал, направленных на предоставление информации о склонности респондента к той или иной установке на ответ. Например, шкала L оценивает попытки респондента создать излишне положительное впечатление о себе. Согласно Graham (1990), шкала L (иногда называемая «Шкала лжи») состоит из 15 пунктов, описывающих «незначительные недостатки и слабости, которые большинство людей готовы в себе признать» (с.23). Люди, отрицающие в себе эти очень распространенные недостатки и слабости, получат по шкале L высокий балл. Таким образом, шкала L может быть рассмотрена как шкала социальной желательности. Шкала F (иногда именуемая «Шкала нечастой встречаемости») входит в состав MMPI и состоит из 64 пунктов, с утверждениями которых соглашается, как правило, очень незначительная часть респондентов. Высокий балл по шкале F отражает некую форму недобросовестных ответов, которая может быть обусловлена ответами наугад, симуляцией неблагополучия, склонностью соглашаться или, наоборот, не соглашаться со всеми пунктами – или же истинными нарушениями психологического состояния респондента. Дополнительные шкалы валидности, входящие в состав MMPI, включают в себя шкалу К (для обнаружения «симуляции здоровья»), шкалу VRIN (изменчивая непоследовательность в ответах), оценивающую склонность респондента отвечать наугад, и шкалу TRIN (направленная непоследовательность в ответах), оценивающую склонность респондента соглашаться или не соглашаться с большинством утверждений.
Один из вышеупомянутых примеров может помочь проиллюстрировать способ, с помощью которого паттерн ответов респондента может быть использован для обнаружения определенной установки на ответ. Рассмотрим снова гипотетические ответы респондентов, представленные в Таблице 10.1с. Как видим, установка на согласие создает довольно специфический паттерн ответов в сбалансированной шкале. Предположение об абсолютном «всезнании» позволило нам говорить о том, что респондент 1 отвечал под влиянием установки на согласие. Внимательный анализ ответов данного респондента показывает, что он непостоянен в довольно специфическом смысле. Как вы помните, рассматриваемый четырехпунктовый тест был сбалансирован при помощи двух прямых пунктов (1 и 3) и двух обратных пунктов (2 и 4), и в кодировании ответов также применялось обращение.
Основываясь на процессе обращения, можно ожидать от «добросовестного» респондента достаточно последовательные ответы. Например, человек с неподдельно высоким уровнем удовлетворенности работой должен выбирать ответы, в основном лежащие выше средней отметки по шкале. Респондент 2 проявляет такого рода последовательность – все его ответы (т.е. 7, 5, 6, 7) находятся выше средней отметки в 4 балла. Следовательно, ответы данного респондента последовательно указывают на высокую степень удовлетворенности работой. Ответы респондента 6 также последовательно находятся на уровне среднего или ниже среднего, и этот паттерн ответов указывает на относительно низкий уровень удовлетворенности работой.
В противоположность этому, человек с установкой на согласие будет склонен выбирать ответы так, что при правильной перекодировке они будут оказываться то выше, то ниже средней отметки. Например, респондент 1 так отвечал на вопросы теста, что после перекодировки баллы оказались разбросанными относительно среднего. Это противоречит тому, что ожидается от человека с действительно высоким либо низким истинным уровнем выраженности измеряемого признака. Пользователь теста, не располагающий «всезнанием», может рассмотреть данный непоследовательный паттерн ответов и обоснованно заподозрить, что это является доказательством наличия у респондента установки на согласие.
Если пользователь теста заметил, что респондент проявляет один или несколько типов установки на ответ, существует как минимум три варианта использования этой информации с целью внесения поправок в процесс оценки или анализа. Во-первых, можно исключить результаты данного респондента из последующего рассмотрения. На практике психодиагност может попросить человека снова пройти тест либо просто не обращать внимания на результаты тестирования для данного респондента. Согласно одному из экспертов по прикладной психодиагностике, если ответы индивида являются нечестными или «недобросовестными», тогда соответствующие результаты «должны считаться невалидными и исключаться из дальнейшего рассмотрения» (Graham, 1990, с.22). В ситуации научного исследования психодиагност может исключить показатели данного респондента из статистических анализов. Второй вариант – сохранить результаты, но использовать их с осторожностью. В прикладном контексте пользователь теста может принять во внимание «подозрительные» баллы, но не делать на них основной упор в итоговой оценке или диагностике индивида. В исследовательском контексте пользователь теста может оставить данные и просто принять тот факт, что различные типы установок на ответ могут так или иначе искажать результаты анализа. Третий вариант для исследователя - сохранить любые потенциально ненадежные данные, но использовать соответствующие статистические методы контроля и поправки. Такие процедуры, как частичная корреляция или множественная регрессия позволяют исследователям использовать баллы по шкалам валидности для «статистического контроля» потенциально невалидных ответов. Например, такие методы позволяют исследователю рассмотреть связь между удовлетворенностью работой и самооценкой престижности отдельно для тех респондентов, которые отвечают добросовестно, и для тех респондентов, которые при ответах руководствуются той или иной установкой.
Несмотря на то, что шкалы валидности кажутся полезными, специалисты в области психометрики и пользователи тестов нуждаются в объективном доказательстве их полезности. Некоторые исследования показывают несостоятельность таких шкал (например, Piedmony, McCrae, Riemann, & Angleitner, 2000), но многие все же свидетельствуют в пользу «валидности шкал валидности». Пример типичного исследования представлен Ханом (Hahn, 2005). В этом исследовании использовался «аналоговый» дизайн, при котором участники разделялись на несколько групп. Одна группа состояла из пациентов психиатрических клиник. Поскольку никто из этих пациентов не запросил за участие в тестировании какой-либо компенсации, их посчитали репрезентативными по отношению к добросовестным респондентам с выраженной психопатологией. Вторая группа состояла из студентов, которых попросили давать невалидные ответы. Их проинструктировали сознательно симулировать психологическое неблагополучие, что позволило считать этих студентов «аналогом» всех респондентов, которые стремятся по результатам теста выглядеть более психологически неблагополучными, чем на самом деле. Все участники выполнили MMPI-2, анализировалась способность шкал валидности к обнаружению различий между двумя группами. Результаты показали, что, как и ожидалось, симулянты получили более высокие баллы по шкалам валидности, оценивающим склонность респондента симуляции неблагополучия (например, шкала F). Хотя можно обоснованно сомневаться в том, насколько можно распространять на генеральную совокупность результаты, полученные на студентах, которые притворялись психологически неблагополучными (или склонными к социальной желательности), по большей части данное исследование доказывает, что шкалы валидности действительно дифференцируют подобные группы (Baer & Miller, 2002; Rogers, Sewell, Martin, & Vitacco, 2003).
В целом встроенные в тест шкалы валидности могут быть достаточно полезным методом обнаружения у респондента той или иной установки на ответ. Включая подобные шкалы в состав более обширного набора шкал, диагностирующих свойства личности или психопатологические симптомы, разработчики тестов предоставляют пользователям возможность обнаружить потенциально невалидные тестовые баллы и вмешаться тем или иным способом. Несмотря на некоторое беспокойство по поводу применимости данных исследований в реальности, солидное их количество доказывает, что шкалы валидности хорошо работают для дифференциации «намеренно обманывающих» и искренних респондентов.