Важность исследований валидности
Надеемся, что значение валидности читателю теперь очевидно. Надеемся, что приведенные примеры убедили его в том, что валидность является, возможно, наиболее важным аспектом психометрического качества теста. В данном разделе подчеркивается важность валидности в психологических исследованиях и психологической практике. Когда психологическое измерение проводится в каких-либо серьезных целях, результаты этого измерения имеют смысл лишь тогда, когда тест достаточно валиден. При отсутствии валидности такого рода измерения бессмысленны с научной точки зрения, а иногда даже и опасны.
На валидности основана способность ученых интерпретировать подавляющую часть исследований в науках о поведении. Цели научного исследования включают в себя описание, предсказание и объяснение некоторой области реального мира, будь это область физическая или психологическая. Точность описания, предсказания и объяснения зависит, в свою очередь, от способности исследователя манипулировать существенными переменными и измерять их. Так, в рамках социальной психологии исследовалась гипотеза о том, что увлечение жестокими видеоиграми увеличивает склонность человека к агрессивному поведению (напр., Anderson & Dill, 2000; Bartholow, Sestir, & Davis, 2005). Результаты исследований указывают на то, что видеоигры и в самом деле оказывают влияние на агрессивность. Однако следует помнить о том, что такого рода исследование частично основано на измерении такой переменной, как «склонность к агрессивному поведению». Если данная переменная измерена достаточно валидна, уверенность в результатах описанного исследования увеличится. Если же «склонность к агрессивному поведению» измерена недостаточно валидно, в исследовательском выводе можно усомниться. В отсутствии валидности теста научное понимание роли видеоигр в подростковой агрессивности сильно искажено.
Таким образом, влияние валидности на научный процесс несколько абстрактно: валидность влияет на точность научного понимания реальности. Валидность теста в исследовательском контексте может иметь и более конкретное значение. Как известно, одна из целей научного исследования – сопровождение решений в различных областях общественной жизни. Такие решения могут применяться как для всего общества в целом, так и для отдельно взятого человека, но в обоих случаях валидность будет иметь большое значение.
В отсутствии валидности решения по социальным вопросам могут быть необоснованными, бесполезными и даже опасными. В июне 2006 года в Палате представителей Конгресса США проводились слушания по поводу насилия, изображаемого в популярных видеоиграх. Причиной послужила обеспокоенность по поводу того, что наблюдение насилия в видеоиграх имеет разрушительные последствия для тех, кто в них играет, особенно для молодых людей. Таким образом, проведенные слушания были основаны на предположении о том, что насилие в видеоиграх увеличивает агрессивность в поведении людей. Разумеется, ключевым вопросом является вопрос об эмпирической обоснованного этого предположения. Если существуют сильные эмпирические свидетельства в пользу правомерности приведенного утверждения, можно говорить о том, что слушания конгресса проходили на относительно хорошей научной базе. Если же исследования проводились с использование тестов, обладающих низкой валидностью, необходимо серьезно усомниться в значении этих исследований. Как следствие, любые управленческие решения, принятые на основе таких сомнительных исследований, сами являются сомнительными.
Если бы Конгресс США принял закон на основе научных исследований, валидность которых сомнительна, каковы могли бы быть последствия? Время и усилия конгрессменов были бы потрачены зря, а принятый закон был бы необоснованным. Кроме того, можно себе представить, что на «предотвращение» агрессии путем кампаний против агрессивных видеоигр было бы потрачено немало бюджетных денег. Если тесты, применяемые в научных исследованиях, обладали низкой валидностью, то эти деньги были бы потрачены зря. Если же деньги на такие кампании были выделены путем сокращения бюджета каких-либо других социальных программ (возможно, действительно полезных для общества), данное управленческое решение в конечном итоге навредило бы тем людям, которые могли выиграть от участия в этих программах. Следует пояснить, что мы ни в коем случае не пытаемся опорочить качество исследований по психологическому эффекту агрессивных видеоигр. Большинство исследований в этой сфере действительно хорошо спланировано и проведено. Данный пример используется лишь в целях иллюстрации фундаментальных взаимосвязей между валидностью теста, качеством исследования и принятием общественно значимых решений.
И наконец, в отсутствии валидности теста необоснованными или даже опасными могут быть решения, принимаемые в отношении отдельных людей. Среди решений, которые хотя бы частично основаны на результатах психологического тестирования, помещение детей в специализированные классы, прием абитуриентов в колледж, принятие клинических решений и предоставление кандидатам на работу той или иной должности. Такого рода решения могут изменить жизнь человека, проходившего тестирование, а качество самого теста может оказать сильное влияние на заключение, принятое по его результатам. Пока эти решения принимаются на основе хорошо валидизированных тестов, можно надеяться, что их использование принесет и респондентам, и диагностам только лишь пользу. Если решения принимаются на основе адекватного использованных и хорошо валидизированных тестов, можно надеяться, что детей поместят в более подходящие для них классы; кандидаты на работу с большей вероятностью найдут такую должность, которая соответствует их интересам, склонностям и способностям; студентов примут в те учебные заведения, которые соответствуют уровню их возможностей; пациентам поставят такие диагнозы, которые повысят вероятность успешного лечения.
Тем не менее существует возможность, что решения будут приниматься на основе тестов, обладающих низкой валидностью, или, например, на основе некорректного применения тестов, которые были валидизированы для использования в других целях. В первой главе данной книги обсуждался один из законов Северной Каролины, гласящий: «умственно отсталый человек, осужденный за совершение убийства первой степени, не может быть приговорен к смертной казни» (Уголовно-процессуальный акт, 2007). Как уже говорилось, решение по поводу диагноза умственной отсталости принимается частично на основе «индивидуального, научно обоснованного, стандартизованного теста на коэффициент интеллекта, проводимого лицензированным психиатром или психологом». Надеемся, что слова научно обоснованный и стандартизованный читаются во многом как «научно валидизированный». Надеемся также, что эта проблема известна юристам.
РЕЗЮМЕ
В данной главе были описаны концептуальные основы валидности теста. По определению, приведенному в Стандарте образовательного и психологического тестирования, валидность – это «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования» теста (AERA, APA, & NCME, 1999, с.9). Выше были описаны несколько ключевых следствий из такого понимания валидности: валидность имеет отношение к интерпретации тестовых баллов, это количественный показатель, и он основан как на эмпирических свидетельствах, так и на теории. Поскольку эмпирические свидетельства являются при исследовании и оценке валидности ключевым моментом, выше также описывались пять типов эмпирических свидетельств, имеющих существенное отношение к валидности теста: содержание теста, его внутренняя структура, процесс ответа на утверждения или вопросы теста, взаимосвязь с другими переменными и последствия тестирования. Далее было проведено сопоставление современного подхода к пониманию валидности и традиционных подходов, все еще имеющих широкий обиход, а также сопоставление валидности и надежности. Наконец, была еще раз обозначена важность исследования валидности в контексте научной работы и прикладного использования тестов.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
Недавняя работа по валидности теста, содержащая обширный обзор основополагающих подходов к проблеме валидности и уже ставшая классической:
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). New York: Macmillan.
Еще один основательный обзор современных достижений в области валидности тестов:
Shepard, L. A. (1993). Evaluating test validity. In L. Darling-Hammond (Ed.), Review of research in education (Vol. 19, pp. 405-450). Washington, DC: American Educational Research Association.
Классическая в истории исследований валидности статья, одна из наиболее часто цитируемых психологических статей:
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 51, 281-302.
Интересное дополнение к современным теориям конструктной валидности:
Schmidt, F. L. (1988). Validity generalization and the future of criterion-related validity. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 173-189). Hillsdale, NJ: Lawrence Erlbaum.
Интересные комментарии о понятии валидности последствий тестирования:
Lees-Haley, P. R. (1996). Alice in validityland, or the dangerous consequences of consequential validity. American Psychologist, 51, 981-983.
Наиболее современный взгляд на проблему валидности с точки зрения трех ведущих организаций, занимающихся психологическим тестированием:
American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
ГЛАВА 9
ВАЛИДНОСТЬ