Критерии валидности и надежности в психологическом тестировании
Обоснование качества результатов психологических исследований требует обращения к внепсихологическим понятиям и критериям: философским, логическим, математико-статистическим. В частности, философский элемент в теорию психологических измерений вносит известный тезис о неизбежности погрешности измерений. Критики психологических тестов нередко апеллируют к этому тезису как к основанию принципиальной порочности тестов в смысле точности измерений. Неточные измерения, считают они, науке вообще не нужны. При этом как-то забывается, что формой преодоления этого философского скепсиса является тезис о возможности приближенного измерения с достаточно приемлемой точностью. Применение на практике последнего тезиса позволило получить, например в физике, те фундаментальные результаты, которыми эта наука по праву гордится.
Не вдаваясь в детальный анализ концепции надежности, представляющей предмет отдельного рассмотрения в данной книге, отметим здесь лишь ее связь с понятием «тест». Действительный отход от упрощенного понимания тестов требует наполнения интересующего нас понятия элементами научного языка, восхождения на более высокую ступень абстракции. Концепция надежности составляет одну из основ переосмысления сущности теста, а также одну из характеристик его качества. С появлением корреляционного анализа (в начале XX в.) были предложены три основных методических подхода к определению надежности теста. Это - повторное тестирование, использование параллельных форм одного и того же теста и, наконец, однократное тестирование с последующим разбиением матрицы исходных результатов (X) на две или большее число частей. За показатель надежности принимается значение коэффициента корреляции.
Значительно позже появились попытки теоретического осмысления этой концепции. Исходным пунктом всех построений является уже упоминавшийся тезис о неизбежности погрешности измерений и, как следствие, признание множественности возможных причин искажения истинного результата измерения.
Как результат факторно-аналитического переосмысления концепции надежности и гомогенности теста родилась новая технология расчета коэффициента надежности теста. Ее появление надо рассматривать как реакцию на неприемлемость и искусственность ряда таких условий и ограничений, как, например, параллельность форм одного и того же теста, равенство дисперсий всех высказываний, одинаковая их коррелируемость друг с другом. Д. Армор использовал известный факт корреляции тестовых высказываний между собой и стал рассматривать ее как аргумент, статистической функцией которого является надежность теста.
Если все высказывания измеряют один и тот же признак (свойство), то для фиксированного их числа чем больше корреляция между ними, тем более надежен тест. С другой стороны, высокая корреляция обеспечивает хорошую факторизуемость корреляционной матрицы (К) и, следовательно, является залогом выделения такого одного фактора, который может объяснить связь большей части дисперсии в R. Следовательно, надежность тестов должна быть связана с результатом факторного анализа.
Помимо надежности в понятие «тест» входит и концепция валидности. Поскольку в психологии нередки случаи увлечения точностью измерения неточно выделенных свойств, соотношение между надежностью и валидностью можно образно представить в виде кучной стрельбы, но не в центр мишени, т. е. стрельба ведется из оружия вполне надежного, но прицел стрелок выбрал не совсем точно.
Современный тест - это не только надежный, но и валидный тест, однако не на все случаи жизни, а разработанный для конкретной цели. Нет тестов вообще надежных и валидных. Эти качества характеризуют не только инструмент измерения, но обязательно характер, цель и время его применения. В историческом разрезе концепция валидности, так же как и надежности, начиналась с наивного предположения о том, что метод «работает», т. е. каждый создаваемый тест рассматривался как валидный, примерно так, как если бы каждая создаваемая социологами анкета годилась для решения поставленных задач. Первые же проявления действительно научной критики развенчали эту, по сути дела, «веру» в валидность. Они же стимулировали поиск. Привлечение известных ученых к созданию тестов было для научной общественности в начале нынешнего века гарантией убедительности обоснования валидности как бы по авторитету. Но это был дотеоретический, доэмпирический, по существу, донаучный этап оценки качества тестов.
Поскольку в те годы тесты разрабатывались исключительно для решения практических проблем, эмпиризм и соответствующая ему методология стали главными для обоснования качества инструментария. Это особенно проявилось в создании тестов для решения кадровых проблем: профотбора, профориентации, профконсультации, а также распределения принятого контингента по специальностям и отделениям внутри производства или учебного заведения.
С точки зрения истории, можно выделить два основных, эмпирических подхода к валидизации тестов. Первый назовем прогностическим. Его логика такова. Если те, кто хорошо работает (по критерию У), показывают высокие результаты по какому-либо теcту (X), значит, здесь есть связь, быть может, и причинная. Иначе говоря, Y, вероятно, зависит от X. Отдавая предпочтение при приеме на работу тем, у кого выше результаты по X, предполагается, что они покажут и более высокую производительность труда. Ожидания такого рода часто сбываются, но в различной степени. Другой подход к эмпирической валидизации тестов основан на использовании экспертных оценок. Здесь логика еще проще: если эксперты (множество авторитетов) согласованно считают одних более способными, других - менее, значит, «это так». В случае когда результаты теста указывают на сходную тенденцию, т. е. данные по тесту коррелируют с данными экспертизы, то принимается, что тест является валидным и его можно далее примерять и в других подобных ситуациях. Так проводилась валидизация первого теста для измерения интеллектуальных способностей (Бине А. и Симон Т.), а в наше время - некоторых тестов для измерения социальных потребностей молодежи (Прогнозирование социальных потребностей молодежи. М., 1978).
Развитие тестов в тесных рамках эмпиризма не могло продолжаться сколь-нибудь долгое время. Без теоретического мышления, как указывал Ф. Энгельс, невозможно связать между собой хотя бы два факта природы или уразуметь существующую между ними связь (Маркс К., Энгельс Ф. Соч., т. 20, с. 382). Обращение к внеэмпирическим критериям истинности было неизбежным. Отсюда последовали такие подходы к валидизации, в которых теория сочеталась с эмпирией. В качестве примера можно взять важную для традиционной психологии область научных конструктов, ключевых психологических понятий. Именно понятия и конструкты стали основным предметом многих исследований с помощью тестов. Последние призваны уточнить эмпирический состав индикаторов (высказываний), соответствующих таким конструктам-понятиям, как личность, темперамент, интеллект, экстраверт и многим другим. В современной психологии они стали предметом эмпирического исследования, и делается это с целью фундаментального обоснования практической значимости теоретических суждений.
Теперь пора ответить на последний вопрос - что же такое современный психологический тест? Это теоретически и эмпирически обоснованная система высказываний (заданий), позволяющая получить измерения соответствующих психологических свойств. Теоретическое обоснование предполагает всесторонний анализ теста и результатов его применения в свете известных достижений современной психологической науки. Эмпирическое же обоснование связано с обращением к опыту, измерениям и эксперименту.
Здесь может возникнуть ошибочная ассоциация с неопозитивистским принципом верификации. Этому способствует наличие в обоих случаях требования эмпирического согласования теоретических концепций (конструктов). Но, как справедливо отмечал Э. М. Чудинов, наука до и независимо от неопозитивизма руководствовалась требованием принципиальной проверяемости своих теорий. Это всегда отличало науку от религии и натурфилософских построений, обеспечивало ей строгость и точность. Неопозитивизм абсолютизировал эту грань научного познания, обратив ее против философии и против самой науки. Он трансформировал указанное требование в принцип верификации, который накладывает на науку непомерные ограничения и несовместим с ней (Чудинов Э. М., 1977).
Отмеченными выше критериями надежности и валидности проблема обоснования научности тестов не закрывается. Из используемых сейчас двух критериев первый назовем общенаучным, а второй -специально научным. Их широкое применение - всего лишь дань сложившейся в теории тестов традиции. В ряде наук идеи валидности преломляются в виде стремления обосновать истинность, необходимость, системность, рациональность и др. Ключевым критерием является истинность, которая связана со всеми остальными. Валидность теста соотносится с истинностью через принцип предметности знания, указывающего на степень его соотнесенности с познаваемым. Но все это - область специального исследования, которое еще предстоит провести в процессе дальнейшего развития теории и практики применения психологических тестов.