Понятия "Содержательная" и "Конструктная" валидность. Их соотношение

Содержательная валидность (внутренняя, логическая) - это комплекс сведений о том, насколько задания теста репрезентируют измеряемые свойства и особенности. Одним из основных требований при установлении содержательной валидности методики является отражение в содержании теста ключевых сторон изучаемого психологического феномена.

Если область поведения или особенность очень сложна, то содержательная валидность требует представления в заданиях теста всех важнейших составных элементов исследуемого явления. Так, при разработке теста «вербального интеллекта» необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по своему операциональному составу навыков письма и чтения.

Конструктная валидность. Это один из основных типов валидности, отражающий степень представленности (репрезентации) исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость и т. д. Иначе говоря, конструктная валидность определяет область теоретической структуры психологических явлений, измеряемых тестом.

Поскольку проявления таких конструктов, как, например, интеллект в деятельности человека многообразны и неоднозначны с точки зрения их выделения, процедура установления конструктной валидности по сравнению с валидностью критериальной или содержательной более сложна.

При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.

Среди конкретных методов характеристики конструктной валидности, в первую очередь, необходимо назвать сопоставление исследуемого на предмет конструктной валидности теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом указывает на то, что разрабатываемый тест «измеряет» примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика. Такая процедура валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве независимого критерия [3].

Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе конструктной валидности не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с точки зрения создания параллельной формы теста. Смысл процедуры конструктной валидности состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений конструктной валидности. В англоязычной психодиагностике такое операциональное определение конструктной валидности обозначается как "предполагаемая валидность" (assumed validity).

Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид конструктной валидности - факторную валидность.

Важным аспектом конструктной валидности является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Как уже было отмечено, анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. Следует отметить, что критерий внутренней согласованности указывает лишь на меру связи всего содержания теста с измеряемым конструктом, давая лишь косвенную информацию о природе измеряемого свойства.

При определении конструктной валидности важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из таких подходов является применение критерия возрастной дифференциации, что предусматривает согласование результатов теста с ожидаемыми изменениями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап развития. Этот метод конструктной валидности особенно важен для валидизации тестов интеллекта, достижений в обучении.

В комплекс сведений о конструктной валидности методики входят также данные, относящиеся к сфере критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, позволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики конструктной валидности необходимы связь с практическими формами деятельности, достоверность прогноза реального поведения.

Однако конструктная валидность является качественно более высоким и комплексным уровнем описания теста, характеризуя область измеряемого поведения в широких психологических понятиях. Благодаря данным конструктной валидности мы можем с психологических позиций закономерно объяснить результаты теста и их дисперсию, обосновать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.

Следует учитывать, что понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений автора теста об измеряемом свойстве. Для иллюстрации приведем пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка [15]. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала (МАS) "тревожность" Тейлор положительно коррелирует со шкалой "нейротизм" Айзенка и отрицательно со шкалой "экстраверсия" Айзенка.

С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Тейлор: МАS коррелирует не только с релевантным фактором "нейротизм", но и с иррелевантым фактором "интроверсия". С этой точки зрения опросник Тейлор оказывается просто нечувствительным к особой разновидности "нейротизма" - к нейротизму (тревожности) экстравертов: в перечне пунктов МАS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения того теоретического смысла, который приписывают показателям МАS Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства, поскольку МАS измеряет общий уровень драйва - неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация по Г. Айзенку) и интроверсии (неспецифическая активация).

Таким образом, не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.

4. Конвергентная и дискриминантная валидность. Известно [1, 6, 15, 16], что от того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство "нейротизм" как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты.

Если же на практике окажется, что в тесте будут преобладать пункты из квадранта "нейротизм-интроверсия", то, с точки зрения теории Айзенка, это означает, что шкала "нейротизм" оказывается нагруженной иррелевантным фактором - "интроверсией". (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов).

Чтобы избежать таких сложностей, желательно иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения.

Поэтому основная задача состоит в специальном подборе пунктов так, чтобы все потенциальные иррелевантные факторы были уравновешены: ни один из них не встречался бы чаще других на множестве пунктов, включенных в тест. В связи с этим, можно дать следующее определение конвергентной и дискриминантной валидности.

Конвергентная валидностьтеста–этосоответствие пунктов измеряемому фактору.

Дискриминантная валидностьтеста – этосбалансированность пунктов относительно иррелевантных факторов.

Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Тейлор не обладает дискриминантной валидностью по отношению к фактору "экстраверсия-интроверсия", хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - "нейротизм".

5. Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность, психодиагност оказывается перед необходимостью привлечения к валидизации теста экспертов [1, 15].

В отличие от экспертного анализа содержания теста эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Экспертам следует обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если мы предприняли серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности "полевому" наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций, то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа, к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним [15]. С учетом этого процедура оценивания приспосабливается к обычным людям, не являющимися психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу.

В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - "групповая оценка личности"[1, 15]. Для того, чтобы групповая оценка была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию.

Для измерения согласованности должна быть построена таблица с оценками (табл. 5). Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц "испытуемые - пункты". В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех К оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли теста. Рассчитывая попарные корреляции между различными столбцами таблицы 5 можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить тот же коэффициент надежности α Кронбаха.

Таблица 5.

Оценщики Испытуемые	О₁	О₂	…	О_к	∑
И₁	х₁₁	х₂₁	…	х_к1	С₁
И₂	х₁₂	х₂₂	…	х_к2	С₂
…	…	…	…	…	…
И_н	х_1н	х_2н	…	х_кн	С_н

Если сама групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений - тестовыми баллами и суммарными баллами экспертной оценки [1, 15].

6. Анализ пунктов по критерию валидности. Известно [1, 6, 15, 16], что валидность целого теста зависит от валидности входящих в него пунктов, причем максимальная валидность по критерию достигается за счет отбора таких пунктов из теста, которые, обладая значимой корреляцией с критериальным показателем, минимально коррелируют между собой.

Следует напомнить, что отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста.

Реально такой отбор можно произвести, рассчитывая бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи.

Таким образом, еще раз подчеркнем, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства.

На основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства [1, 15].

7. Порядок работы психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ.

Для прагматически ориентированных тестологов (какими традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы "автоматически" - в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов.

Но, конечно, неверно было бы приписывать этому подходу "бездумность в опоре на статистику": ведь статистика только тогда позволяет выявить валидное подмножество тестов (пунктов), когда исходное множество подобрано не случайно, а с использованием априорных корректных содержательно-психологических представлений.

Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности [15].

1. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности.Провести теоретический анализ диагностического конструкта, разработать теоретическую концепцию тестируемого психического свойства. Выявить (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которых новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями.

2. Конструирование пунктов теста.Выявить составные части теоретического конструкта, сформулировать системы "эмпирических индикаторов" - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях.

3. Формулирование релевантного социально-прагматического критериядля проверки валидности - эффективности методики.

4. Оценка валидности эмпирических индикаторов.Спланировать и провести корреляционное исследование (или квазиэксперимент) на специально подобранной выборке испытуемых, для которых известно значение (или будет известно) критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых провести дополнительные тесты с целью - получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации).

5. Оценка достоверности* эмпирических индикаторов.Провести исследование достоверности результатов, если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью.

6. Отсев пунктов (индикаторов), не удовлетворяющих критериям валидности и достоверности. Измерить надежность для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 и уточняет теоретические представления.

-----------------

*О достоверности см. §9.

Контрольные вопросы для самопроверки: §7, 8. Дискриминативность теста.Валидность теста.

1. Что понимается под дискриминативностью теста?

2. Как рассчитать дискриминативность отдельных заданий теста?

3. Что понимается под валидностью теста?

4. С чем больше связано понятие валидности - с предметом или объектом измерения?

5. Что понимается под термином "эмпирическая валидность"?

6. Что включает в себя процедура экспертной валидизации?

7. Что понимается под проспективной валидностью теста?

8. Что понимается под ретроспективной валидностью теста?

9. Какие задачи решаются с помощью доказательства проспективной и ретроспективной валидности теста?

10. Что понимается под содержательной валидностью теста?

11. Что понимается под конструктной валидностью теста?

12. Дайте определение конвергентной валидности теста.

13. Дайте определение дискриминативной валидности теста.

14. Какова суть процедуры экспертной эмпирической валидизации?

15. Что из себя представляет процедура ГОЛ "групповая оценка личности"?

16. Какие действия последовательно должен произвести психолог при доказательстве валидности теста?

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.

4. Клайн П. Справочное руководство по конструированию тестов. - Киев: ПАН Лтд, 1994.

5. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

6. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

Достоверность самоотчета.

Внутри проблемы валидности целесообразно выделить вопрос об обеспечении валидности процедур стандартизованного самоотчета, к которым относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Специфические проблемы валидности, связанные с активностью человека как объекта в психодиагностике, целесообразно обозначить особым образом - проблемы обеспечения "достоверности".

Beрбальная форма подачи тестового материала порождает у испытуемого определенные размышления о цели тестирования. Если ситуация (например, экспертиза) диктует испытуемому необходимость фальсификации ответов, то испытуемый редко отказывается от этой возможности.

Психологические факторы, от которых зависит достоверность данных самоотчета, условно можно сгруппировать в следующие классы [15]:

1. Факторы знания. У испытуемого может быть более или менее осознанное представление о следующем:

- свойственно или нет ему в действительности тестируемое поведение (с некоторыми ситуациями, имплицитно подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться);

- какое личностное свойство скрывается за тем или иным конкретным поведением, описанным в суждении;

- как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.

2. Фактор "социальной желательности".Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию "Я-образа" и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования (диагностическая ситуация). Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность опросника и связать диагностируемое свойство с тем или иным полюсом "социальной желательности".

Таким образом, действие этого фактора до некоторой степени опосредовано действием фактора "знание". Однако при диагностике личностных свойств, тесно связанных с психической "нормальностью" или "социальной успешностью", фактор "социальной желательности ответа" обусловливает очень серьезные искажения.

3. Факторы "индивидуальной тактики". Здесь подразумевается действие "Я-концепции" ("Я" для себя) и "Я-образа" ("Я" для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест-опросник, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить "Я-концепцию" или фальсифицировать определенный "Я-образ" с заданными свойствами.

Как правило, в ситуациях высокого социального риска "Я-образ" полностью доминирует.

Например, преступник при экспертизе стремится, прежде всего, предстать больными или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонные подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу-психотерапевту (чтобы вызвать к себе повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.

Заслуживают внимания также особые формы отказа испытуемого от тестирования: позиционный стиль ответа ("соглашательство" или, наоборот, "отрицание"), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер:

- для исключения влияния соглашательства ("отрицания") применяются перечни с "прямыми" (ответ "верно" в пользу измеряемого свойства) и "обратными" (ответ "неверно" в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса "подтверждающих" и "отвергающих" ответов: если баланс резко нарушается, то протокол признается бракованным;

- для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перифразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.

Более сложные методы требуются для борьбы с социальной желательностью. Рассмотрим три наиболее часто используемых варианта.

1. Введение особых шкал "лжи" в диагностический вариант методики. Они составляются из "вопросов-ловушек": тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по шкале лжи, его протокол бракуется. Более тонкий вариант - введение шкал "коррекции" (например, в MMPI). Получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства).

2. Использование инструкции на преднамеренную фальсификацию результатов для устранения или сбалансирования "социальной желательности". Участникам предварительных замеров кроме обычной инструкции дается (во вторую очередь) дополнительная: "Заполните опросник от лица человека, желающего произвести самое благоприятное впечатление". Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (где 50% - величина, ожидаемая для пунктов, являющихся нейтральными с точки зрения "социальной желательности").

В качестве меры желательности в данном случае можно воспользоваться следующим коэффициентом:

Понятия "Содержательная" и "Конструктная" валидность. Их соотношение - student2.ru где:

N(+) - сумма ответов "верно" на данный пункт при инструкции на фальсификацию;

N(-) - сумма ответов "неверно" в тех же условия;

n - численность испытуемых.

Значимость коэффициента приближенно оценивается по критерию "хи-квадрат" (см. стр. 197). В данном случае в правой части формулы вместо φ подставляется Понятия "Содержательная" и "Конструктная" валидность. Их соотношение - student2.ru :

Поскольку инструкция на преднамеренную фальсификацию создает условия, в которых социальная желательность суждений акцентируется, то значимыми следует считать такие высокие по модулю значения, при которых расчетное χ² превышает теоретическое (табличное) значение χ² . Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо число "положительных" и "отрицательных" должно быть уравновешено.

Подобным образом, могут быть отобраны и пункты для шкалы лжи. В качестве критерия разделения испытуемых на шкале лжи выбирается такая точка, которая позволяет минимизировать ошибки типа "пропуск" (зачисление "лживых" испытуемых в число "правдивых") и ошибки типа "ложная тревога" (зачисление "правдивых" в число "лживых"). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях "пропуск" гораздо опаснее, чем "ложная тревога" [15].

Фальсифицирующая инструкция используется также и для исследования степени "скрытности-открытости" формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику Тейлор. В этом случае, ответы на многие пункты значимо изменяются.

Такие пункты являются слишком открытыми - информируют испытуемого об измеряемом свойстве и позволяют ему вносить тенденциозные искажения в результаты в своих интересах.

3. Стратегия "сбалансирования социальной желательности" стала применяться с распространением факторного анализа. Ставиться цель обеспечить дискриминативную валидность теста относительно шкалы "социальной желательности". Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ, в применении к одномерному тест-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности.

Из перечисленных выше трех методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы "лжи". Методы 2 и 3 позволяют отобрать только такие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становится ортогональным (независимым) к социальной желательности.

При необходимости диагностики свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна.

Однако, в ситуациях, когда сам испытуемый заинтересован в точных результатах ("ситуация клиента"), психодиагност может пользоваться опросниками, не опасаясь артефакта социальной желательности.

При подготовке особенно значимого психодиагностического обследования, в котором надо принципиально исключить всякую возможность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы "лжи" еще одним критерием, основанным на использовании "фальсифицирующей" инструкции" [15]. Для этого после обычной инструкции той же самой пилотажной выборке психолог дает инструкцию: "А теперь снова выполните задание, но старайтесь описать себя так, чтобы выглядеть максимально благоприятно в глазах большинства других людей". В результате применения такой инструкции психолог получает дополнительную таблицу, содержащую фальсифицированные данные.

В таком случае кроме подсчета очень грубого индекса "желательности" ( Понятия "Содержательная" и "Конструктная" валидность. Их соотношение - student2.ru ) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и "фальсифицированной" диагностической ситуации. Очевидно, что недостоверным следует считать вопрос, ответы на который будут изменены в "фальсифицированной" ситуации в определенном систематическом направлении.

Здесь может пригодится простейший критерий значимости изменений основанный на распределении "хи-квадрат". Для каждого пункта строится четырех клеточная матрица сопряженности:

"ПОСЛЕ"

+ -

+ A=40 B=36

"ДО" - C=22 Д=48

Здесь в клеточке А указана частота сохранения ответа "верно" на некоторый i-тый вопрос (например, из 76 ответивших "верно" таких оказалось только 40 испытуемых), в клетке В - частота изменения ответа "верно" на ответ "неверно" и т.п. Как видим, в этом примере показано, что смена инструкции привела к значительным изменениям.

Для оценки значимого направления этих изменений используется критерий Макнимара, который предложил сравнивать между собой по критерию хи-квадрат только элементы В и С этой таблички:

Понятия "Содержательная" и "Конструктная" валидность. Их соотношение - student2.ru

где Понятия "Содержательная" и "Конструктная" валидность. Их соотношение - student2.ru -вычисленное эмпирическое значение статистики хи-квадрат с одной степенью свободы. Для нашего примера Понятия "Содержательная" и "Конструктная" валидность. Их соотношение - student2.ru = 2,91, что ниже, чем граничное значение χ² = 3,84, и, следовательно, нулевая гипотеза об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значимо нагруженным артефактным фактором социальной желательности и может быть включен в диагностический вариант тест-опросника без изменений.

По результатам такого исследования удобно составить таблицу Кх2: в первом столбце - показатели корреляции пунктов со шкалой лжи, во втором - показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значимых коэффициентов ни в первом ни во втором столбце.

Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди недостоверных пунктов достаточно много таких, которые обладают существенной внутренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к тактике балансирования: ввести в основную шкалу поровну "прямых" и "обратных" пунктов по шкале "социальной желательности" так, чтобы все четыре квадранта были заполнены пунктами равномерно (среди "прямых" по основной шкале было бы поровну "прямых" и "обратных" по "желательности", и среди "обратных" по основной - также поровну) [15].

Без указанных предосторожностей тест-опросник неизбежно будет давать систематические искажения результатов всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.

Другой путь - управление процессами категоризации в ходе самой диагностики. В так называемой "репертуарной модификации" теста-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей - "большинство людей", "моральный человек", "преуспевающий человек" и т.п.

Однако применение таких методов требует сложной компьютерной обработки, а, следовательно, не всегда доступны.

Контрольные вопросы для самопроверки: §9.Достоверность теста.

1. Что понимается под достоверностью методики?

2. Какие основные факторы влияют на достоверность данных самоотчета?

3. Какие методы необходимо применить, для того чтобы существенно повысить достоверность методики?

4. Как определить ту критическую точку на "шкале лжи", при которой суммарный балл, набранный испытуемым по этой шкале, позволяет не браковать протокол по всему тесту?

5. В чем суть стратегии "сбалансирования социальной желательности"?

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

4. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.