Вычисление и оценка конвергентной и дивергентной валидности
В предыдущей главе были представлены теоретические основы валидности и обобщены те виды эмпирических данных, которые могут использоваться для оценки конструктной валидности. Было показано, что конвергентная и дивергентная валидность выражает то, насколько «правильны» паттерны взаимосвязи тестовых баллов с другими переменными. В данной главе будет приведено более подробное объяснение методов оценки ковергентной и дивергентной валидности, а также обсуждение вопросов, касающихся интерпретации соответствующих показателей.
Как уже говорилось, психологические конструкты окружены неким теоретическим контекстом. Другими словами, концептуальное основание конструкта включает в себя взаимосвязи между данным конструктом и рядом других психологических конструктов. Такие взаимосвязи получили название «номологическая сеть», т.е. сеть «значений», окружающих конструкт (Cronbach & Meehl, 1955). Так, Baumeister и Leary (1995) ввели в обиход понятие «потребности в принадлежности», которое было ими определено как «стремление формировать и поддерживать по крайней мере минимальное количество продолжительных, позитивных и значимых межличностных взаимоотношений» (с.497). Хотя они и предполагали, что потребность в принадлежности – одна из фундаментальных для человека, по их наблюдениям оказалось, что разные люди испытывают эту потребность в разной степени. Некоторые испытывают относительно высокую потребность в частых межличностных взаимодействиях на основе близости и заботы, некоторые же, похоже, нуждаются в таких взаимодействиях меньше. Leary, Kelly, Cottrell и Schreindorfer (2006) описывали номологическую сеть, окружающую конструкт потребности в принадлежности. Они предположили, что потребность в принадлежности чем-то похожа на такие характеристики, как потребность в аффилиации, стремление к близости (интимности), общительность и экстраверсия. Кроме того, потребность в принадлежности, по их мнению, совсем не должна быть связана с такими конструктами, как добросовестность, открытость опыту и самооценка.
Номологическая сеть взаимосвязей между конструктами предполагает определенную картину взаимосвязей между баллами тестов, направленных на измерение этих конструктов. Номологическая сеть, окружающая конструкт, подразумевает, что соответствующий тест должен коррелировать с другими тестами, измеряющими другие конструкты, причем в одних случаях ожидаются сильные корреляции, в других – слабые. Например, Leary с коллегами (2006) прогнозировали, что разработанный ими десятипунктовый тест на потребность в принадлежности (Need to Belong, NTB) будет обладать слабыми или умеренными взаимосвязями с тестами на потребность в аффилиации, стремление к близости и экстраверсию, отрицательно коррелировать с тестом социальной изоляции и практически не будет обладать корреляциями с тестами на добросовестность, открытость опыту и самооценку. Эти прогнозы в дальнейшем использовались для оценки конвергентной и дивергентной валидности NTB.
Ключевой частью процесса валидизации является оценка степени соответствия реальной и спрогнозированной картины корреляций. В данной главе представлены некоторые методы, использующиеся для этого, а также некоторые факторы, влияющие на результат этой проверки, и некоторые базовые соображения в плане интерпретации результатов анализа.
МЕТОДЫ ОЦЕНКИ КОНВЕРГЕНТНОЙ И ДИВЕРГЕНТНОЙ ВАЛИДНОСТИ
Существует по меньшей мере четыре метода оценки конвергентного и дивергентного характера взаимосвязей между тестами. Все они отличаются по нескольким аспектам: концептуальная сложность, статистическая сложность, необходимость в четко выраженных и конкретных прогнозах. Одни из них относительно новы, возраст же других насчитывает десятилетия. Несмотря на эти различия, описанные ниже методы являются (или же могут стать) полезными и распространенными способами оценки конвергентной и дивергентной валидности теста.
Единичные корреляции
Некоторые тесты имеют явное отношение к небольшому четко очерченному набору переменных. Оценка валидности таких тестов может быть сфокусирована на взаимосвязях между тестовыми баллами и этими немногочисленными переменными. В каком-то смысле данные взаимосвязи являются ключевой точкой принятия решения о конвергентной или дивергентной валидности теста в терминах «да или нет» (третьего не дано). Если полученная корреляция совпадает с прогнозом, это является сильным свидетельством в пользу валидности; если же полученная корреляция с прогнозом не совпадает, это является серьезным поводом для сомнения в качестве теста.
Как говорилось в предыдущей главе, субтест SAT на логическое мышление направлен на измерение «навыков критического мышления, [необходимых] для достижения успеха при обучении в колледже» (College Board, 2006). В этом определении предполагается, что для оценки субтеста SAT на мышление особый интерес представляют две переменные. Во-первых, будучи мерой сформированности «навыков критического мышления», SAT должен коррелировать с другими тестами на критическое мышление. Во-вторых, поскольку исследуемый конструкт необходим для «успешного обучения в колледже», SAT должен коррелировать с показателем академической успеваемости.
Исследуя качество теста SAT, Совет колледжей в основном заинтересован во взаимосвязях между тестовым баллом SAT и показателем академической успеваемости. В ряде документов, предоставляемых студентам, преподавателям и исследователям, акцентируется взаимосвязь тестового балла по SAT и таким показателем, как оценки за первый год обучения в колледже. К примеру, Программное руководство по SAT, выпущенное Советом колледжей для школьных психологов и специалистов приемных комиссий, включает в себя несколько упоминаний валидности (College Board, 2006). В первом разделе Руководства, посвященном валидности, указано, что по результатам исследования свыше 110 000 студентов из более чем 25 колледжей средний коэффициент корреляции между тестовым баллом по SAT и отметками первокурсников составил 0.55. В дальнейшем в Руководстве упоминаются и другие исследования, посвященные возможностям прогноза отметок по тестовым баллам SAT. Очевидно, что College Board сосредоточивает все аргументы относительно валидности теста на корреляциях между SAT и определенным набором критериальных переменных, связанных с академической успеваемостью в колледже.
Таким образом, первый метод оценки валидности интерпретации тестовых баллов – фокусировка на небольшом количестве релевантных критериальных переменных. Если тестовые баллы в действительности взаимосвязаны с этими ключевыми переменными, доверие разработчиков и пользователей к тесту повышается. Данные корреляции, называемые иногда коэффициентами валидности, имеют для исследования валидности фундаментальный смысл. Если по результатам исследований оказывается, что коэффициенты валидности теста высоки, высока будет и уверенность разработчиков, пользователей и оценщиков теста в его способности качественно измерить изучаемый конструкт.
Обобщение показателей валидности – это процесс оценки коэффициентов валидности теста, полученных в большом массиве исследований (F.L.Schmidt, 1988; F.L.Schmidt & Hunter, 1977). В отличие от SAT, многие тесты, используемые в науках о поведении, разрабатывались в рамках относительно немногочисленных исследований. Фактически, многие (если даже не все) исследования валидности основаны на выборках менее 400 человек – особенно в тех случаях, когда в исследовании использовались еще какие-то данные кроме самооценочных. В большинстве случаев исследователь, проводящий валидизацию теста, набирает одну выборку от 50 до 400 респондентов, проводит тестирование этих респондентов по исследуемому тесту, измеряет дополнительные критериальные переменные и вычисляет корреляцию между этими переменными и тестовыми баллами. Подобного рода исследования составляют основу многих диагностических инструментов, используемых для исследований в области психологии личности, клинической психологии, психологии развития, социальной психологии, организационной психологии и психологии образования. Отдельные исследования валидности зачастую включают в себя относительно небольшие выборки, что обусловлено ограниченностью времени, финансирования и других ресурсов исследователя.
Несмотря на то, что исследования, использующие относительно небольшие выборки, довольно распространены, а их проведение подкреплено целым рядом практических соображений, всем этим исследованиям присущ потенциально важный недостаток. Исследование, проведенное в одной географической местности с одной небольшой выборкой, может привести к обнаружению приемлемых показателей конвергентной и дивергентной валидности теста, однако результаты могут не распространяться на другие географические местности или другие выборки.
Например, результаты исследования банковских служащих могли бы свидетельствовать о том, что баллы по шкале «Добросовестность» опросника NEO-PI-R довольно хорошо прогнозируют профессиональную успешность банковских служащих. Несмотря на то, что эта информация может оказаться ценной и полезной для менеджеров по персоналу в банковской сфере, означает ли это, что она будет так же полезна для бухгалтеров, сферы недвижимости или индустрии продаж? Другими словами, является ли корреляция между баллами по шкале добросовестности и профессиональной успешностью такой сильной только лишь для банковских служащих, распространяется ли эта корреляция на другие выборки? Возможно также, в некоторых областях занятости добросовестность играет большую роль, а в некоторых – нет. Если это так, нам не следует полагать, что NEO-PI-R не дает валидного прогноза профессиональной успешности во всех профессиях.
Исследования по обобщению показателей валидности ставят своей целью оценку предсказательной способности тестовых баллов в широком спектре условий, ситуаций, временных контекстов и т.д. Исследование по обобщению показателей валидности представляет собой одну из форм мета-анализа, при котором результаты нескольких отдельных исследований объединяются и количественно обобщаются (F.L.Schmidt, Hunter, Pearlman, & Hirsh, 1985). Например, представим себе, что было проведено 25 исследований, в которых оценивалась взаимосвязь шкалы добросовестности из опросника NEO-PI-R и профессиональной успешности работника. В одном из этих исследований использовались банковские служащие, в другом выборку составили школьные учителя, в третьем – продавцы, и т.д. Во всех этих исследованиях были использованы разные выборки, но не исключено также, что во всех этих исследованиях использовались и разные инструменты измерения профессиональной успешности. Например, в некоторых случаях оценка могла производиться путем экспертной оценки работников менеджерами по персоналу, в некоторых случаях оценка могла быть более объективной, например, по количеству вырученных на сделках денег. Таким образом, в результате можно было бы обнаружить, что анализируемые 25 исследований привели к получению достаточно разных данных относительно взаимосвязи добросовестности и профессиональной успешности.
Исследования по обобщению показателей валидности могут направлены на решение как минимум трех важных проблем. Во-первых, они могут выявить общий уровень прогностической валидности при обобщении всех отдельных и не столь масштабных исследований. Например, средний коэффициент корреляции между шкалой добросовестности NEO-PI-R и профессиональной успешностью для 25 гипотетических исследований, рассматриваемых нами, мог бы составить 0.30. Во-вторых, исследования по обобщению показателей валидности могут показать степень вариативности[5] в результатах отдельных небольших исследований. В рассматриваемом случае могли бы быть получены данные, скажем, о том, что в некоторых исследованиях коэффициент корреляции между шкалой добросовестности и профессиональной успешностью достаточно высок (например, от 0.40 до 0.50), тогда как в других исследованиях этот коэффициент достаточно низок (например, от 0 до 0.10). В таком случае мог бы быть сделан вывод о том, что взаимосвязь между шкалой добросовестности NEO-PI-R и профессиональной успешностью не распространяется на все исследования. При другом раскладе событий могли бы быть получены данные о том, что во всех 25 исследованиях обнаружены умеренные корреляции между данными двумя переменными (например, от 0.20 до 0.40). В данном случае, поскольку степень вариативности полученных данных меньше, можно было бы заключить, что взаимосвязь между добросовестностью и профессиональной успешностью распространяется на все выборки и исследования. В любом случае полученные данные предоставили бы немаловажную информацию для оценки валидности NEO-PI-R и для использования этого опросника в принятии решений о найме.
Третья проблема, которую можно решать средствами обобщения показателей валидности, это проблема источников вариативности отдельных исследований. Если первоначальный статистический анализ выявил широкий разброс коэффициентов валидности в различных исследованиях, дальнейший анализ может быть направлен на выявление того, с чем связаны эти различия. Например, таким образом можно обнаружить методологические различия между отдельными исследованиями, которые оказываются связанными с результатами, получаемыми в этих исследованиях. Можно было бы обнаружить, скажем, что высокие коэффициенты валидности принадлежат исследованиям, где профессиональную успешность работников оценивали менеджеры по персоналу, тогда как в исследованиях, использовавших в качестве показателя профессиональной успешности более объективные показатели (например, выручку), получались более низкие коэффициенты валидности. В таком случае различия в методах измерения критериальной переменной вносят вклад в различия коэффициентов валидности. Такого рода методологические источники вариативности следует учитывать при оценке степени применимости среднего коэффициента валидности к различным исследованиям и выборкам.
Таким образом, некоторые психологические тесты, как ожидается, должны быть взаимосвязаны в первую очередь с небольшим количеством специфических переменных. Если результаты исследования подтверждают сильную корреляцию теста с некоторой специфической критериальной переменной, разработчики, пользователи и оценщики теста получают свидетельство того, что тестовые баллы, отражающие измеряемый психологический конструкт, обладают хорошей конвергентной валидностью. Чтобы оценить степень того, насколько взаимосвязь между тестом и критериальной переменной может быть распространена на другие исследования, выборки, условия и т.д., следует использовать мета-анализ показателей валидности.
Наборы корреляций
Номологическая сеть, окружающая конструкт, не всегда сфокусирована на небольшом количестве релевантных конструкту критериальных переменных. Иногда номологическая сеть исследуемого конструкта затрагивает множество других конструктов, и сила их взаимосвязи варьируется. В таких случаях исследователь, оценивающий конвергентную и дивергентную валидность теста, должен изучить широкий спектр критериальных переменных.
Для этого исследователи зачастую вычисляют коэффициенты корреляции исследуемого теста с большим количеством показателей критериальных переменных, после чего «просматривают» полученные корреляции и выносят несколько субъективное решение относительно того, насколько полученная картина взаимосвязей соответствует гипотетически ожидаемой.
К примеру, Hill с коллегами (2004) разработали новый опросник перфекционизма (PI) и опубликовали результаты его конвергентной и дивергентной валидности. Опросник разработан для измерения восьми компонентов перфекционизма, то есть авторы заложили в него многокомпонентную структуру (см. обсуждение внутренней структуры теста в предыдущей главе). Среди компонентов перфекционизма, входящих в авторский конструкт, - озабоченность по поводу совершения ошибок, организованность, склонность к планированию, стремление к совершенству и потребность в одобрении. Для оценки конвергентной и дивергентной валидности опросника в исследовании наряду с PI использовались еще 23 критериальных переменных. Критериальные переменные включали в себя другие (уже существующие) тесты на перфекционизм, а также, поскольку перфекционизм теоретически может быть связан с разнообразными психологическими нарушениями, методики измерения нескольких психологических симптомов (например, обсессивно-компульсивного расстройства, тревоги и боязни получить отрицательную оценку). Корреляции между шкалами PI и шкалами 23 критериальных переменных были представлены в виде корреляционной матрицы, состоящей более чем из 200 ячеек (см. Таблицу 9.1).
Оценивая конвергентную и дивергентную валидность опросника, Hill с коллегами (2004) внимательно изучили полученную картину взаимосвязей и проинтерпретировали ее в соответствии с исходными теоретическими предположениями. Например, было замечено, что шкала «Озабоченность по поводу совершения ошибок» опросника PI имеет сильную корреляцию с аналогичной шкалой из другого теста перфекционизма. Кроме того, было замечено, что шкала «Стремление к совершенству» имела сильные корреляции с такими шкалами других тестов перфекционизма, как «Личностные стандарты» (шкала, выражающая высокие ожидания респондента по поводу собственной успешности и склонность основывать на успешности свою самооценку) и «Самоориентированный перфекционизм» (шкала, выражающая нереалистичные притязания и склонность к фиксации на ошибках и моментах несовершенства в выполняемой деятельности). Кроме того, были изучены взаимосвязи шкал PI с различными показателями неблагополучия. Например, было обнаружено, что 3 шкалы PI (навязчивые мысли / застревание, озабоченность по поводу совершения ошибок и потребность в одобрении) тесно взаимосвязаны со страхом отрицательной оцени, а также с частотой и интенсивностью проявления симптомов обсессивно-комульсивного расстройства личности.
Таблица 9.1. (см. отдельный файл)
Данный подход к оценке валидности весьма широко распространен. Сначала исследователь набирает большое количество данных с использованием оцениваемого теста и других тестов, гипотетически связанных с ним. Затем анализируется паттерн корреляций и выносится суждение относительно того, насколько этот паттерн соответствует концептуальному значению конструкта, заложенного в тест.