Другие подходы к проблеме валидности
До сих пор в данной главе валидность понималась в терминах того, насколько точно тестовые баллы могут быть интерпретированы как показатель определенного психологического конструкта. В данном подходе подразумевается, что тестовые баллы взаимосвязаны с конструктом, имеющим четко выраженную теоретическую основу. В самом деле, те типы эмпирических свидетельств валидности, которые обсуждались выше, имеют отношение к соответствию между различными аспектами ответов респондента на утверждения теста и различными аспектами теоретических оснований исследуемого конструкта. Исходя из такой сильной привязки тестовых баллов к теоретически обоснованным психологическим характеристикам можно утверждать, что этот подход к валидности, в сущности, является ориентированным на теорию. Тем не менее, существует по крайней мере три альтернативных подхода к проблеме валидности, которые могут встретиться читателю в научном обиходе, в связи с чем приводим здесь их краткое описание.
Критериальная валидность – один из таких альтернативных подходов, который снимает акцент с концептуального значения или интерпретации тестовых баллов. Возможно, что пользователи тестов хотят только лишь дифференцировать группы респондентов или предсказать значения каких-то переменных, которые будут измеряться в будущем. Например, менеджеру по персоналу тест может быть необходим для того, чтобы предсказать, кто из кандидатов на работу окажется успешным сотрудником, а кто – нет. С сугубо практической точки зрения менеджеру неважно, какой именно психологический конструкт измеряется в тесте, как неважно и то, каков содержательный психологический смысл низких либо высоких баллов. В данном случае единственное, что интересует менеджеры по персоналу – способность теста отличать хороших работников от плохих работников. Если тест с этим «справляется», то для нужд работодателя он достаточно «валиден».
В традиционной трехкомпонентной теории валидности критериальная валидность выражает прогностическую способность тестовых баллов по отношению к определенным критериальным переменным. С этой точки зрения ключевым показателем валидности является эмпирически полученная взаимосвязь между баллами валидизируемого теста и баллами по критериальной переменной, такой как «профессиональная успешность». В свою очередь, так как конкуррентная и прогностическая валидность также вычисляются через взаимосвязь теста с определенными критериальными переменными, эти два типа валидности традиционно рассматривались как разновидности критериальной. Согласно традиционному подходу к критериальной валидности, психологическое содержание тестовых баллов не имеет особого значения – все, что имеет значение, это способность теста дифференцировать группы респондентов и предсказывать определенные результаты.
Хотя термин «критериальная валидность» в психометрике весьма распространен и рассматривается как отдельный вид валидности, современная точка зрения предполагает, что взаимосвязи валидизируемого теста с критериальными переменными необходимо рассматривать в более широком контексте – в рамках конструктой валидности (Messick, 1993). С этой точки зрения доказательство критериальной валидности само по себе не является достаточным, даже если речь идет о прикладном использовании теста, например, в целях отбора персонала. Messick (1993) полагает, что «даже в целях принятия решений в прикладной области полагаться на критериальную валидность или широту содержательного наполнения теста недостаточно. Всегда необходимо исследовать значение теста, следовательно, его конструктную валидность, и делается это не только для подтверждения интерпретации тестовых баллов, но и для обоснования применения теста в той или иной сфере» (с.17).
В другом альтернативном подходе к проблеме валидности подчеркивается необходимость исследования значения тестовых баллов в противоположность тестированию определенных гипотез о нем. Другими словами, вместо того, чтобы предполагать, что теоретические основы конструкта полностью разработаны, а затем тестировать определенные гипотезы относительно этой теории, пользователи и разработчики теста могут провести его оценку исходя из того, что тестовые баллы сами по себе являются важным и информативным объектом исследования. Такой «индуктивный» подход к исследованию валидности предполагает изучение взаимосвязей между тестовыми баллами и большим набором потенциально важных и существенных психологических переменных (Gough, 1965; Ozer, 1989). Тот подход к исследованию валидности, которому в данной главе было уделено наибольшее внимание, называется «дедуктивным» (Ozer, 1989), т.к. в нем оценка валидности осуществляется путем дедуктивного вывода определенной гипотезы на основе теоретического понимания конструкта и дальнейшего эмпирического тестирования этой гипотезы. Если дедуктивный подход больше ориентирован на эмпирическую проверку теории, то индуктивный подход является в большей степени разведочным. Целью индуктивного подхода является понимание всех нюансов значения тестовых баллов даже за пределами того значения, которое приписывается им на основе теоретического понимания исходного конструкта. В данном случае исследователь «позволяет конструктам развиваться и изменяться в самом процессе разработки теста» (Tellegen & Waller, в печати).
Индуктивный подход к валидности может быть наиболее оправданным в исследовательском контексте, и рассмотреть его можно как возвратно-поступательный процесс. В прикладном контексте разработчики и пользователи теста, вероятно, акцентируют внимание на использовании теста в четко определенных целях, например, для прогноза профессиональной успешности. В исследовательском же контексте разработчики и пользователи теста могут быть заинтересованы в том, чтобы обнаружить новую область интересов и разработать под нее новый теоретический конструкт. В таком случае разработка и психометрическая оценка теста протекают параллельно с эволюционирующим пониманием исходного конструкта. Так, Tellegen и Waller (в печати) описывают процесс разработки и оценки Многофакторного опросника личности (Multidimensional Personality Questionnaire, MPQ). Последняя версия MPQ включает в себя 11 первичных шкал (например, «социальная эффективность», «достижения», «стрессовые реакции»), сгруппированные в четыре обобщенные черты (напр., позитивная эмоциональность темперамента, негативная эмоциональность темперамента). Разработка MPQ была обусловлена «желанием прояснить и акцентировать природу нескольких важных или центральных факторов, постоянно упоминающихся или подразумевающихся в литературе по психологии личности» (с.10). На протяжении многолетнего процесса разработки пункты MPQ постоянно формулировались, диагностировались, анализировались и формулировались заново. В процессе этой работы исследователи уточнили свое понимание теоретических конструктов, лежащих в основе этого теста.
Хотя индуктивный подход и является полезным в плане расширения и уточнения представлений исследователя о теоретических и практических основах теста, в литературе по психодиагностике он упоминается не слишком часто. Как правило, тесты разрабатываются на основе строго определенных конструктов, а сами разработчики направляют свои усилия на оценку интерпретации тестовых баллов относительно этих заранее определенных конструктов. Время и усилия на исследование более широкого спектра областей применимости теста затрачивается учеными гораздо реже.
Третий альтернативный подход к проблеме валидности акцентирует исключительно взаимосвязь между тестом и психологическим конструктом. Borsboom, Mellenbergh и Van Heerden (2004) полагают, что единственной проблемой валидности теста является то, обусловлены ли ответы респондентов именно тем конструктом, на измерение которого направлен тест. Другими словами, тест является валидной мерой конструкта если и только если предполагаемый конструкт действительно оказывает влияние на балл, который получает респондент по результатам тестирования. Исходя из этих соображений, Borsboom и др. отвергают аргумент о том, что последствия тестирования важны для оценки валидности. Кроме того, они полагают даже, что корреляции баллов по валидизируемому тесту с другими психологическими характеристиками также не относятся напрямую к валидности теста. Авторы утверждают, что «первоначальной целью валидизации является предоставление теоретического объяснения процессов, которые приводят к результатам измерения» (с.1067).
Подход, предложенный Borsboom (2004), представляет собой интересную альтернативу тем концепциям, которые описывались в данной главе. Очевидно, что он в сильной степени противопоставлен тем подходам, в которых акцентируется важность критериальной валидности и индуктивного исследования валидности. Последние два подхода либо минимизируют значение психологического конструкта как такового (критериальная валидность), либо предполагают, что понимание исследователем теоретического наполнения конструкта эволюционирует и изменяется в процессе разработки теста (индуктивный подход). В противоположность этому, в подходе, предложенном Borsboom с коллегами, акцентируется значение четко выраженного теоретического понимания отдельно взятого конструкта, для которого разрабатывается тест. Другими словами, конструкты не только существуют и не только являются важной составляющей процесса оценки валидности, но и являются ведущим и определяющим компонентом разработки и валидизации теста. С точки зрения исходного определения валидности, предложенного в этой главе (и основанного на Стандарте образовательного и психологического тестирования, AERA, APA, & NCME, 1999), может показаться, что Borsboom с коллегами отбрасывают слишком много факторов, оставляя лишь необходимость рассмотрения конструктов и теоретически обоснованное исследование ответов респондентов на пункты диагностического инструмента.