Критерии валидности и надежности в психологическом тестировании.

Обоснование качества результатов психологических исследова­ний требует обращения к внепсихологическим понятиям и критери­ям: философским, логическим, математико-статистическим. В част­ности, философский элемент в теорию психологических измерений вносит известный тезис о неизбежности погрешности измерений. Критики психологических тестов нередко апеллируют к этому тезису как к основанию принципиальной порочности тестов в смысле точ­ности измерений. Неточные измерения, считают они, науке вообще не нужны. При этом как-то забывается, что формой преодоления это­го философского скепсиса является тезис о возможности приближен­ного измерения с достаточно приемлемой точностью. Применение на практике последнего тезиса позволило получить, например в фи­зике, те фундаментальные результаты, которыми эта наука по праву гордится.

Не вдаваясь в детальный анализ концепции надежности, представ­ляющей предмет отдельного рассмотрения в данной книге, отметим здесь лишь ее связь с понятием «тест». Действительный отход от уп­рощенного понимания тестов требует наполнения интересующего нас понятия элементами научного языка, восхождения на более высокую ступень абстракции. Концепция надежности составляет одну из ос­нов переосмысления сущности теста, а также одну из характеристик его качества. С появлением корреляционного анализа (в начале XX в.) были предложены три основных методических подхода к определе­нию надежности теста. Это - повторное тестирование, использова­ние параллельных форм одного и того же теста и, наконец, однократ­ное тестирование с последующим разбиением матрицы исходных результатов (X) на две или большее число частей. За показатель на­дежности принимается значение коэффициента корреляции.

Значительно позже появились попытки теоретического осмысле­ния этой концепции. Исходным пунктом всех построений является уже упоминавшийся тезис о неизбежности погрешности измерений и, как следствие, признание множественности возможных причин ис­кажения истинного результата измерения.

Как результат факторно-аналитического переосмысления концеп­ции надежности и гомогенности теста родилась новая технология расчета коэффициента надежности теста. Ее появление надо рассмат­ривать как реакцию на неприемлемость и искусственность ряда та­ких условий и ограничений, как, например, параллельность форм од­ного и того же теста, равенство дисперсий всех высказываний, оди­наковая их коррелируемость друг с другом. Д. Армор использовал известный факт корреляции тестовых высказываний между собой и стал рассматривать ее как аргумент, статистической функцией кото­рого является надежность теста.

Если все высказывания измеряют один и тот же признак (свой­ство), то для фиксированного их числа чем больше корреляция меж­ду ними, тем более надежен тест. С другой стороны, высокая корре­ляция обеспечивает хорошую факторизуемость корреляционной мат­рицы (К) и, следовательно, является залогом выделения такого одно­го фактора, который может объяснить связь большей части дисперсии в R. Следовательно, надежность тестов должна быть связана с резуль­татом факторного анализа.

Помимо надежности в понятие «тест» входит и концепция валидности. Поскольку в психологии нередки случаи увлечения точностью измерения неточно выделенных свойств, соотношение между надеж­ностью и валидностью можно образно представить в виде кучной стрельбы, но не в центр мишени, т. е. стрельба ведется из оружия впол­не надежного, но прицел стрелок выбрал не совсем точно.

Современный тест - это не только надежный, но и валидный тест, однако не на все случаи жизни, а разработанный для конкретной цели. Нет тестов вообще надежных и валидных. Эти качества характеризу­ют не только инструмент измерения, но обязательно характер, цель и время его применения. В историческом разрезе концепция валидности, так же как и надежности, начиналась с наивного предположения о том, что метод «работает», т. е. каждый создаваемый тест рассматри­вался как валидный, примерно так, как если бы каждая создаваемая социологами анкета годилась для решения поставленных задач. Пер­вые же проявления действительно научной критики развенчали эту, по сути дела, «веру» в валидность. Они же стимулировали поиск. При­влечение известных ученых к созданию тестов было для научной об­щественности в начале нынешнего века гарантией убедительности обоснования валидности как бы по авторитету. Но это был дотеоретический, доэмпирический, по существу, донаучный этап оценки ка­чества тестов.

Поскольку в те годы тесты разрабатывались исключительно для решения практических проблем, эмпиризм и соответствующая ему методология стали главными для обоснования качества инструмен­тария. Это особенно проявилось в создании тестов для решения кад­ровых проблем: профотбора, профориентации, профконсультации, а также распределения принятого контингента по специальностям и отделениям внутри производства или учебного заведения.

С точки зрения истории, можно выделить два основных, эмпири­ческих подхода к валидизации тестов. Первый назовем прогности­ческим. Его логика такова. Если те, кто хорошо работает (по крите­рию У), показывают высокие результаты по какому-либо теcту (X), значит, здесь есть связь, быть может, и причинная. Иначе говоря, Y, вероятно, зависит от X. Отдавая предпочтение при приеме на работу тем, у кого выше результаты по X, предполагается, что они покажут и более высокую производительность труда. Ожидания такого рода ча­сто сбываются, но в различной степени. Другой подход к эмпиричес­кой валидизации тестов основан на использовании экспертных оце­нок. Здесь логика еще проще: если эксперты (множество авторите­тов) согласованно считают одних более способными, других - менее, значит, «это так». В случае когда результаты теста указывают на сход­ную тенденцию, т. е. данные по тесту коррелируют с данными экс­пертизы, то принимается, что тест является валидным и его можно далее примерять и в других подобных ситуациях. Так проводилась валидизация первого теста для измерения интеллектуальных способ­ностей (Бине А. и Симон Т.), а в наше время - некоторых тестов для измерения социальных потребностей молодежи (Прогнозирование со­циальных потребностей молодежи. М., 1978).

Развитие тестов в тесных рамках эмпиризма не могло продолжать­ся сколь-нибудь долгое время. Без теоретического мышления, как ука­зывал Ф. Энгельс, невозможно связать между собой хотя бы два фак­та природы или уразуметь существующую между ними связь (Маркс К., Энгельс Ф. Соч., т. 20, с. 382). Обращение к внеэмпирическим критериям истинности было неизбежным. Отсюда последо­вали такие подходы к валидизации, в которых теория сочеталась с эмпирией. В качестве примера можно взять важную для традицион­ной психологии область научных конструктов, ключевых психологи­ческих понятий. Именно понятия и конструкты стали основным пред­метом многих исследований с помощью тестов. Последние призваны уточнить эмпирический состав индикаторов (высказываний), соответ­ствующих таким конструктам-понятиям, как личность, темперамент, интеллект, экстраверт и многим другим. В современной психологии они стали предметом эмпирического исследования, и делается это с целью фундаментального обоснования практической значимости те­оретических суждений.

Теперь пора ответить на последний вопрос - что же такое совре­менный психологический тест? Это теоретически и эмпирически обо­снованная система высказываний (заданий), позволяющая получить измерения соответствующих психологических свойств. Теоретичес­кое обоснование предполагает всесторонний анализ теста и результатов его применения в свете известных достижений современной пси­хологической науки. Эмпирическое же обоснование связано с обра­щением к опыту, измерениям и эксперименту.

Здесь может возникнуть ошибочная ассоциация с неопозитивист­ским принципом верификации. Этому способствует наличие в обоих случаях требования эмпирического согласования теоретических кон­цепций (конструктов). Но, как справедливо отмечал Э. М. Чудинов, наука до и независимо от неопозитивизма руководствовалась требо­ванием принципиальной проверяемости своих теорий. Это всегда отличало науку от религии и натурфилософских построений, обеспе­чивало ей строгость и точность. Неопозитивизм абсолютизировал эту грань научного познания, обратив ее против философии и против са­мой науки. Он трансформировал указанное требование в принцип верификации, который накладывает на науку непомерные ограниче­ния и несовместим с ней (Чудинов Э. М., 1977).

Отмеченными выше критериями надежности и валидности про­блема обоснования научности тестов не закрывается. Из используе­мых сейчас двух критериев первый назовем общенаучным, а второй -специально научным. Их широкое применение - всего лишь дань сло­жившейся в теории тестов традиции. В ряде наук идеи валидности преломляются в виде стремления обосновать истинность, необходимость, системность, рациональность и др. Ключевым критерием яв­ляется истинность, которая связана со всеми остальными. Валидность теста соотносится с истинностью через принцип предметности зна­ния, указывающего на степень его соотнесенности с познаваемым. Но все это - область специального исследования, которое еще пред­стоит провести в процессе дальнейшего развития теории и практики применения психологических тестов.

ТЕМЫ: « Психодиагностика как направление теоретической и прикладной психологии. Структура и этапы психодиагностического процесса. Общая характеристика объекта и предмета психодиагностического процесса».

УЧЕБНЫЕ ВОПРОСЫ:

1. Психодиагностика как направление теоретической и прикладной психологии.

2. Психодиагностические задачи.

Рекомендуемая литература

2. А.А.Бодалев, В.В.Столин Общая психодиагностика.-СПб,2000.-440с.

2. А.Анастази Психологическоле тестирование.-М.,1982,2003.-688с.

ЛЕКЦИЯ №2.

«Психодиагностика как наука и как практическая деятельность».

Наши рекомендации