Квантификация конструктной валидности
Последний метод оценки конвергентной и дивергентной валидности, который будет рассмотрен в данной главе, является более современным. Westen и Rosenthal (2003) разработали процедуру, которая получила название «квантификации конструктной валидности» (QCV). В этой процедуре исследователь количественно измеряет степень соответствия между а) теоретическими предсказаниями относительно набора корреляций, выражающих конвергентные и дивергентные взаимосвязи и б) эмпирически полученным набором корреляционных взаимосвязей.
В какой-то степени такой подход может показаться читателю если и не избыточным, то далеко не новым. В самом деле, до сих пор в представленных в данной книге рассуждениях красной нитью проходила мысль о том, что теоретическое понимание измеряемого конструкта определяет особенности как самого исследования валидности, так и интерпретации его результатов. Например, в предыдущих разделах было показано, что существует несколько методов определения критериальных переменных, используемых в исследованиях конвергентной и дивергентной валидности, особо подчеркивалась необходимость интерпретации корреляций теста с этими переменными именно в терминах концептуального соответствия (или несоответствия) исследуемому конструкту.
Тем не менее, доказательства конвергентной и дивергентной валидности зачастую остаются основанными на достаточно субъективных интерпретациях коэффициентов корреляции, полученных при валидизации теста. Несколько ранее при обсуждении того, как могут применяться для оценки ковергентной и дивергентой валидности «наборы корреляций», говорилось о том, что исследователь «просматривает» полученные корреляции и выносит несколько субъективное суждение относительно того, насколько полученная картина взаимосвязей соответствует теоретически ожидаемой в соответствии с номологической сетью, окружающей изучаемый конструкт. Говорилось также и о том, что исследователь оценивает, насколько паттерн корреляций, полученных при изучении дивергентной и конвергентной валидности теста, «имеет смысл» с точки зрения теоретического понимания конструкта. Но что если суждение одного исследователя не совпадает с суждением другого исследователя? И насколько сильно (в количественном плане) полученная при валидизации картина взаимосвязей соответствует теоретически ожидаемой?
Сходным образом, при описании и анализе матриц МММП говорилось, что одни корреляции «в целом превышали» другие или «в целом были заметно ниже» других. Следует признать, что до сих пор мы пытались обойтись без четкого определения того, что значит «в целом превышали», и не давали ответа на вопрос о том, насколько конкретно должны различаться два коэффициента корреляции, чтобы говорить, что один из них «заметно ниже» другого. В итоге, хотя сами коэффициенты корреляции и являются точной мерой взаимосвязи переменных, интерпретация общей картины этих взаимосвязей зачастую проводилась в субъективной и неточной манере.
Процедура QCV была разработана для получения точного и объективного количественного показателя, выражающего общую степень соответствия полученной картины взаимосвязей теоретически ожидаемой. Таким образом, важным отличием этого метода от всех предыдущих является акцент на точности и объективности. Процедура QCV нацелена на то, чтобы дать исследователю ответ на единственный вопрос: «соответствует ли этот тест ряду других тестов так, как это предполагается теоретически?» (Westen & Rosenthal, 2003, с.609).
Анализ QCV приводит к получению двух взаимодополняющих результатов. Во-первых, исследователь получает две величины эффекта, отражающие степень соответствия между эмпирическим и теоретически предсказанным паттернами корреляций. Обе эти величины эффекта, получившие обозначения ralerting-CV и rcontrast-CV, сами являются коэффициентами корреляции, значение которых варьируется от – 1 до + 1. Более подробно смысл этих величин будет раскрыт ниже, однако для обеих из них высокие положительные значения говорят о том, что эмпирический паттерн распределения конвергентных и дивергентных корреляций тесным образом соответствует паттерну, предсказанному на основе концептуального значения измеряемого конструкта. Второй результат, получаемый в анализе QCV, - это тест статистической значимости. Тест статистической значимости показывает, насколько вероятно, что обнаруженная степень соответствия между эмпирически полученными и теоретически предсказанными корреляциями была получена случайно. Исследователь, проводящий валидизацию теста с применением процедуры QCV, надеется получить высокие значения обеих величин эффекта, а также свидетельства того, что этот результат является статистически достоверным.
Процедура QCV может быть описана как состоящая из трех этапов. На первом этапе исследователю необходимо сформулировать четкие предположения относительно того, какой именно паттерн взаимосвязей он ожидает обнаружить по результатам проверки конвергентной и дивергентной валидности теста. Необходимо внимательно проанализировать те критериальные переменные, которые были использованы в исследовании, и предсказать для каждой из них величину предполагаемой корреляции с валидизируемым тестом. Так, например, Furr с коллегами (Furr, Reimer, & Bellis, 2004; Nave & Furr, 2006) разработали тест социальной мотивации, где социальная мотивация была определена как общее желание респондента производить положительное впечатление на других людей. Для оценки конвергентной и дивергентной валидности этого теста респонденты, наряду с самой шкалой социальной мотивации, заполняли еще 12 личностных опросников. Для того, чтобы использовать процедуру QCV, авторам необходимо было сформулировать предположения о том, какие именно корреляции будут получены между шкалой социальной мотивации и 12 дополнительными личностными тестами. Это было сделано с помощью пяти профессоров психологии, выступающих в роли экспертов. Каждый из экспертов читал описание каждой из шкал и выдвигал свои предположения относительно паттерна корреляций, который будет получен по итогам исследования. Далее прогнозы пяти экспертов были усреднены, что привело к формированию единой матрицы теоретически ожидаемых взаимосвязей.
Названия критериальных шкал и теоретически предсказанные коэффициенты корреляции приведены в Таблице 9.4. Таким образом, теоретически обоснованные предположения о показателях конвергентной и дивергентной валидности выражены в четкой и конкретной форме. К примеру, экспертами было предсказано, что социальная мотивация будет относительно сильно взаимосвязана с социальным самосознанием (public self-consciousness) (например, «Я беспокоюсь о том, что люди думают обо мне» и «В глазах других людей я хочу казаться кем-то значительным»), а также с потребностью в принадлежности (например, «Мне необходимо знать, что есть люди, к котором я могу обратиться в случае необходимости» и «Я хочу, чтобы окружающие люди принимали меня»). Эксперты ожидают, что респонденты, обладающие желанием произвести положительное впечатление на других, будут отмечать у себя склонность переживать по поводу того, что думают окружающие, и хотеть быть принятыми среди людей. С другой стороны, эксперты заключили, что социальная мотивация не будет связана с такими показателями, как недоверие и противоречивость характера, что отражает предполагаемую дивергентную валидность теста.
Таблица 9.4. Пример процесса квантификации конструктной валидности
Критериальные шкалы | Предсказанные корреляции | «Реальные» корреляции | z-преобразованные корреляции |
Зависимость | 0.58 | 0.46 | 0.50 |
Маккиавелизм | 0.24 | 0.13 | 0.13 |
Недоверие | -0.04 | -0.24 | -0.24 |
Самодостаточность | 0.06 | -0.03 | -0.03 |
Самоэффективность | -0.04 | 0.12 | 0.12 |
Экстраверсия | 0.18 | 0.03 | 0.03 |
Податливость | 0.36 | 0.39 | 0.41 |
Противоречивость характера | 0.08 | 0.06 | 0.06 |
Социальное самосознание | 0.64 | 0.51 | 0.56 |
Самоконтроль | 0.56 | 0.08 | 0.08 |
Тревожность | 0.36 | 0.24 | 0.24 |
Потребность в принадлежности | 0.56 | 0.66 | 0.79 |
На втором этапе анализа QCV исследователь набирает эмпирические данные и вычисляет реальные показатели (корреляции) дивергентной и конвергентной валидности. Разумеется, данные корреляции отражают то, насколько исследуемый тест взаимосвязан с критериальными переменными в действительности. Так, Furr с коллегами (2004) вычисляли коэффициенты корреляции между шкалой социальной мотивации и 12 критериальными переменными, включенными в исследование. Как показано в Таблице 9.4, данные корреляции варьировались от -0.24 до 0.51. Респонденты, набравшие высокие баллы по шкале социальной мотивации, были склонны отмечать в себе относительно высокие уровни социального самосознания и потребности в принадлежности. Кроме того, они были склонны отмечать в себе относительно низкие уровни недоверия к окружающим. Однако взаимосвязей с противоречивостью характера и экстраверсией не обнаружилось.
На третьем этапе исследователь количественно оценивает степень того, насколько эмпирическая картина корреляционных взаимосвязей соответствует теоретически предсказанной. Высокая степень соответствия является свидетельством валидности предполагаемой интерпретации разработанного теста, в то время как низкая степень соответствия указывает на недостаточную валидность. Как уже говорилось, степень соответствия количественно выражается в двух видах показателей – величинах эффекта и тесте статистической достоверности.
Две величины эффекта дают обобщенную количественную оценку всех показателей конвергентной и дивергентной валидности. Величина эффекта ralerting-CV – это коэффициент корреляции между набором теоретически ожидаемых корреляций и набором эмпирически полученных корреляций. Высокое положительное значение ralerting-CV означает, что коэффициенты корреляции, которые эксперты оценили как высокие, на самом деле оказались высокими, а коэффициенты корреляции, которые эксперты оценили как низкие, на самом деле оказались низкими. Рассмотрим корреляции, приведенные в Таблице 9.4. Заметьте, например, что эксперты предположили, что наиболее высокими корреляциями со шкалой социальной мотивации будут обладать показатели зависимости, социального самосознания, самоконтроля и потребности в принадлежности. По результатам эмпирического исследования выяснилось, что три из этих четырех показателей действительно коррелируют с социальной мотивацией сильнее всего. С другой стороны, эксперты предположили, что наименьшими корреляциями с социальной мотивацией будут обладать показатели недоверия, самодостаточности, самоэффективности и противоречивости характера. По результатам исследования оказалось, что три из этих четырех корреляций действительно наименьшие по сравнению со всеми остальными. Таким образом, эмпирические взаимосвязи в целом соответствовали теоретически предсказанным. Отсюда достаточно высокое положительное значение коэффициента ralerting-CV – для данных, представленных в Таблице 9.4, он составляет 0.79. Значение ralerting-CV вычисляется как корреляция между теоретически ожидаемым набором корреляций и набором z-преобразованных эмпирических корреляций. Z-преобразование выполняется по техническим соображениям, связанным с распределением корреляционных коэффициентов. Для практических целей, впрочем, достаточно понимать, что величина эффекта ralerting-CV означает степень того, насколько коэффициенты корреляции, которые по экспертной оценке должны являться высокими (низкими), действительно таковыми являются.
Хотя вычисление величины эффекта rcontrast-CV несколько более трудоемко, эта величина похожа на ralerting-CV в том, что большие положительные значения повышают уверенность исследователя в конвергентной и дивергентной валидности теста. Говоря конкретнее, при вычислении rcontrast-CV делается поправка на интеркорреляции между критериальными переменными и на абсолютную величину корреляций между критериальными переменными и исследуемым тестом. Для данных, полученных в исследовании Furr и др. (2004) значение rcontrast-CV составляет приблизительно 0.68, что опять же означает высокий уровень конвергентной и дивергентной валидности. Поскольку процедура QCV была разработана относительно недавно, до сих пор не существует четких критериев того, какие именно значения рассмотренных величин эффекта могут интерпретироваться как свидетельство удовлетворительной валидности. На данном этапе можно просто утверждать, что чем выше значение этих величин, тем выше валидность исследуемого теста.
Помимо данных величин эффекта, анализ QCV приводит к вычислению показателей статистической достоверности. Будучи основанной на ряде таких факторов, как величина выборки и степень подтверждаемости конвергентной и дивергентной валидности, z-оценка уровня статистической значимости показывает, насколько вероятным было случайное обнаружение полученного результата.
Хотя анализ QCV потенциально весьма полезен для оценки конвергентной и дивергентной валидности, он тоже не совершенен. Так, низкая величина эффекта (т.е. низкие значения коэффициентов ralerting-CV и rcontrast-CV) может и не означать низкой валидности теста. Низкие значения этих коэффициентов могут являться результатом неприемлемого набора теоретически предсказанных корреляций. Если теоретически предсказанные корреляции плохо отражают номологическую сеть, окружающую конструкт, хороший тест, направленный на измерение этого конструкта, приведет к получению такого набора корреляций, который не соответствует теоретическому. Сходным образом, на величинах эффекта может отразиться неправильный выбор критериальных переменных. Если критериальные переменные, использованные в исследовании валидности, не связаны с валидизируемым тестом, такие переменные не являются адекватным отображением номологической сети. Таким образом, для получения четко выраженных данных о конвергентной и дивергентной валидности критериальные переменные, выбранные для анализа QCV, должны отображать широкий спектр сильных и слабых корреляционных взаимосвязей. В самом деле, Westen и Rosenthal (2005) указывают, что «один из наиболее важных недостатков всех индексов пригодности заключается в том, что они не учитывают, был ли выбор пунктов, показателей, наблюдателей и т.д. адекватен поставленным задачам» (с.410).
Кроме того, анализ QCV критиковали за то, что в результате он дает «высокие коэффициенты корреляции в тех случаях, когда теоретические предсказания и эмпирические наблюдения мало согласованы» (G.T.Smith, 2005, с.404). Исследователь может получить достаточно большие значения коэффициентов ralerting-CV и rcontrast-CV даже тогда, когда наблюдаемый паттерн корреляций, свидетельствующих о конвергентной и дивергентной валидности, недостаточно тесно соответствует реальному. Westen и Rosenthal (2005) признают, что в некоторых случаях такое явление может иметь место. Впрочем, они поясняют, что анализ QCV должен рассматриваться лишь как «пособие», а его результаты должны очень внимательно изучаться в контексте множества концептуальных, методологических и статистических факторов (с.411).
Итак, мы описали четыре стратегии, которые могут использоваться во множестве областей оценки тестов, однако единственного идеального метода или статистической процедуры для оценки ковергентной и дивергентной валидности интерпретации тестовых баллов не существует. Хотя и QCV не совершенен, он имеет несколько важных преимуществ перед всеми остальными стратегиями. Во-первых, он вынуждает исследователя внимательно рассматривать паттерны конвергентных и дивергентных корреляций в свете теоретического понимания измеряемого конструкта. Во-вторых, для его проведения необходимы явные и конкретные предсказания относительно взаимосвязей переменных. В-третьих, при анализе QCV внимание исследователя целиком сконцентрировано на валидизируемом тесте, и «ненужные» интеркорреляции между критериальными переменными не рассматриваются. В-четвертых, такого рода анализ приводит к получению небольшого набора показателей, которые дают общее выражение степени соответствия между эмпирически наблюдаемым паттерном корреляций и тем паттерном, который был предсказан экспертами на основе исходных теоретических соображений; кроме того, для этих показателей возможно вычисление уровня статистической достоверности. Если использовать QCV с определенной долей осторожности, он может послужить полезным дополнением к психометрическому инструментарию.