Стандартизация психодиагностических тестов
Получение достаточно объективных результатов при проведении психодиагностических процедур во многом зависит от выполнения ряда организационных требований, таких как точность представления материалов, лимит времени, характеристика подачи инструкции, ее форма, даже интонация и жесты экспериментатора, интерпретация данных. Выделим в связи с этим понятие стандартизации, которое рассматривается в двух планах. Первый заключается в постоянстве основных экспериментальных процедур. Второй полностью относится к понятиям нормы. Без понятия нормы тестовые оценки вообще не могут быть интерпретированы. Тесты в принципе не имеют определенных стандартов. Поэтому индивидуальная оценка тестового испытания может быть получена только путем сравнения с оценками других испытуемых. Основная статистическая концепция, с помощью которой в большинстве диагностических методик решается проблема нормы, базируется на кривой распределения Гаусса – кривой нормального распределении. Она получается в некоторых случаях в результате обследований больших популяций.
Стандартизация теста проходит два этапа. Первый относится ко времени конструирования теста и непосредственно связан с xapактеристикой наполняющих тест задач. Исторически этот этап берет начало с работ А. Бине, впервые расположившего задачи в порядке возрастающей трудности. Процедура определения трудности задач хотя и носила эмпирический характер, позволяла, тем не менее, повысить объективность испытаний. Такой принцип определения трудности задач в основном сохранил свою значимость и в настоящее время. Классификация и выбор задач для включения в тест всегда связаны с необходимостью соблюдать определенную пропорции в степени трудности применяемых задач, так как трудность теста непосредственно зависит от трудности вопросов, которые в него входят. Поэтому окончательная проверка трудности самого теста обеспечивается испытанием его на репрезентативной выборке, которая, как правило, имеет достаточно большой количественный объем -до 2-4 тыс. испытуемых. Эта процедура позволяет расположить оценки, получаемые отдельными индивидами, по их уровню так, чтобы имелась группировка индивидуальных оценок около центра шкалы и распределения и демонстрировалось постепенное ее снижение в обе стороны по мере приближения к крайним точкам. Практически кривая нормального распределения вполне удовлетворительно описывает результаты испытаний подобного рода. Однако это имеет место в конце процесса конструирования теста, так как на начальныхэтапах его формирования, как правило, наблюдаются того рода отклонения. Кривая, например, может иметь асимметрию в том случае, если тест наполнен очень легкими или, наоборот очень трудными задачами. Регулировка структуры и содержания теста продолжается до тех пор, пока распределение оценок истуемых не приблизится к нормальному. Фактически это достигается подбором испытуемых с разным уровнем развития исследуемой функции. Тесты умышленно конструируются и специально модифицируются таким образом, чтобы получить среднюю оценку направлено выполненных заданий, равную примерно 50%. Только таким путем можно достигнуть максимальной дифференцировки индивидуальных различий при употреблении того или иного теста. Пятидесятипроцентный уровень правильно решаемых задач является, таким образом, максимально удобным для получения нормального распределения. В. М. Мельников выделяет три основных преобразования тестовых результатов:
1. приведение к нормальному виду;
2. приведение к стандартной форме;
3. кватильная стандартизация.
Рассмотрим содержание каждого из выделенных видов.
Приведение к нормальному виду Стандартизация психодиагностических методик основана на так называемой аксиоме нормальности, т.е. опирается на предположение, что все психические характеристики распределены в популяции по нормальному закону Гаусса. Нормальное распределение имеет вид симметричной колоколообразной кривой, которая растянута до бесконечности в положительном и отрицательном направлениях. Предположение о нормальности распределения тестовых результатов является некоторой идеализацией. На практике многие тесты дают результаты, распределение которых отличается от нормального. Поэтому часто возникает вспомогательная задача нахождения способа преобразования данных к нормальному распределению. В самом начале поиска способа преобразования большую помощь может оказать построение гистограммы и полигона распределения. Они позволяют легко выявить и классифицировать отклонение от нормальности.
Приведение к стандартной формеКак правило, разные тесты имеют различные средние (м) и стандартные отклонения (у), поэтому их результаты имеют различную размерность. Чтобы сделать возможным сопоставление результатов и устранить различия в размерности, необходимо тестовые оценки нормировать, введя единый для всех оценок масштаб. С этой целью максимум фактической кривой распределения совмещается с осью ординат. Эта операция называется центрированием случайной величины и выполняется путем вычитания из исходной тестовой оценки ее среднего значения. Затем полученные разности делятся на стандартное отклонение.
Другой способ приведения нормированных оценок к виду, удобному для практического использования, предложен Р. Б. Кэттеллом . Он представляет собой перевод исходных тестовых оценок в 10-бальную равноинтервальную шкалу. Это достигается путем разбиения оси значений тестовых оценок на 10 интервалов, соответствующих долям стандартного отклонения. При этом среднее арифметическое по группе принимается за среднюю точку и ей приписывается значение, равное 5,5 балла по стандартной десятибалльной системе. Всякая оценка в интервале (х + 0,25σ) переводится в 6 баллов, а оценка (х – 0,25σ) дает стандартный балл, равный 5,0. Любое дальнейшее увеличение или уменьшение тестовой оценки на 0,5σ увеличивает или уменьшает стандартную оценку на один балл.
При такой системе стандартизации диапазон, который принято называть средним или нормой (диапазон 1ст), характеризуется стандартными оценками от 4 до 7 баллов. Только при получении стандартных оценок в 3 или 8 баллов следует думать о значительных индивидуальных отклонениях, выходящих за границы средней нормы. Оценки 2 и 9 баллов получаются при отклонении индивидуальных оценок на 1,75σ выше или ниже среднегруппового значения. Максимальная оценка в 10 баллов по десятибалльной системе достигается при отклонении индивидуального тестовою результата на 2,0 σ вверх от средней нормы. Однако чтобы включить в анализ 0,6% выборки с отклонениями выше 2,0о, оценка в 10 баллов распространяется и на все остальные оценки, отклоняющиеся от средней более чем на две сигмы. Аналогичным образом оценка в один балл ставится за все отклонения от средних значений ниже двух сигм.
Метод стандартизации, предложенный Р. Б. Кэттеллом, – это метод огрубленного интервального представления данных, поэтому его разумно применятьв случаях, когда не требуетсявысокой точности измерения.
Квантильная стандартизация В некоторых случаях знания степени отклонения индивидуального результата от среднегруппового бывает недостаточно. Экспериментатору необходимо оценить место, которое занимает в популяции испытуемый по исследуемому показателю, т.е. узнать, какой процент испытуемых выполняет тест хуже или лучше обследованного лица, имеет более высокие или более низкие оценки и т.п. Ответы на вопросы могут быть получены на основе распределения накопленных частот. Оно представляет собой S-образную кривую, где по оси абсцисс отложены нормированные значения тестовых оценок, а по оси ординат– накопленная частота (рис. 8).
Кривая накопленной частоты позволяет легко определить место испытуемого в нормативной выборке, т.е. перейти от одной шкалы оценок к другой. Исходные оценки выражают результаты тестирования через задания теста, а преобразованные – через популяцию. Изменением шкалы по оси ординат кривая может быть превращена в прямую линию.
Однако на практике используются не точные, а интервальные оценки и места испытуемого в популяции. С этой целью ось накопленной частоты разбивается на фиксированное число равных интервалов. Точка на оси накопленной частоты, делящая ось в установленной пропорции, называется квантилем, поэтому этот вид стандартизации называется квантильной стандартизацией. Квантиль - это общее понятие, а квартили, квинтили, децили и процентили – его наиболее частные реализации.
Рис. 8.График распределения накопленных частот.
Имеются, например, три квартиля (Q1 Q2 Q3), которые делят выборку на четыре равные части (кварты) таким образом, что 25% испытуемых располагаются ниже q1, 50% – ниже Q2, и 75%– ниже Q3. Четыре квинтеля (К1, К2, К3, К4) делят выборку аналогичным образом на пять частей, девять децилей (D1, D9)–на десять, а 99 процентилей (Р1 ..., Р99)– на 100 равных частей. Номер квантиля используется в качестве новой преобразованной тестовой оценки. Он показывает относительное положение испытуемого в нормативной выборке. Например, квартильная оценка 3 и процентильная оценка 75 указывают, что более высокую тестовую оценку могут иметь только 25% испытуемых (рис. 9)
Таким образом, в процессе подготовки тестов к практическому использованию тестовые результаты претерпевают три вида преобразований: приведение к нормальному виду, приведение к стандартной форме и квантилъную группировку. Эти три вида преобразования следует рассматривать не как самостоятельные и независимые процедуры, а как последовательность шагов представления результатов тестирования в виде, удобном для осмысления и интерпретации.
Использование понятия нормы на этапе интерпретации резулультатов тестового обследования несколько отличается от этапа составления теста. Непосредственные результаты тестового испытания (сырые оценки) в этом случае используются редко. Так как по исходным оценкам мы можем судить только о том, что чем выше оценка, тем больше выражена соответствующая характеристика, но о том, какова она по отношению к среднему значению этого свойства в популяции, мы ничего сказать не можем. Исходные тестовые оценки ничего не скажут нам о степени выраженности исследуемой характеристики и о вероятности появления такогоеезначения у других лиц. Вместе с тем именно эта информация ocобенно интересует экспериментатора, поскольку чаще всего тестовые обследования проводятся для сравнения испытуемых по исследуемой психологической характеристике
Рис. 9. График распределения квантильных оценок.
.Приведенные показателиЕще одним существенным недостатком исходных тестовых оценок является невозможность сопоставления результатов, полученных с помощью разных тестов. Материалом, дающим основание для учений о результатах психологического тестирования, являются так называемые приведенные показатели. Преимущества приведеных показателей заключаются в следующем. Прежде всего, они позволяют определить положение индивидуальной оценки на оси нормального распределения. Более того, приведенные показатели обеспечивают экспериментатора мерой сравнения результатов деятельности отдельных индивидов. На практике используются основаннные группы приведенных показателей:возрастные, перцентильные и стандартные.
Концепция умственного возраста, введенная в период реконструкции шкалы Бине–Симона в стэнфордской редакции, соотносит успешность выполнения тестовых задач с хронологическим возрастом испытуемого. Однако существенный недостаток понятия умственный возраст – его значительная изменчивость во времени. В этом и заключается основная трудность интерпретации. Кроме того, как показала практика, нормировка базального возраста после 15 лет практически невозможна из-за большого разброса параметров. С течением времени на результатах тестовых испытаний начинают сказываться также различного рода неучитываемые дополнительные влияния. Основное употребление понятия «умственный возраст» и процедуры возрастного приведения относится к определению интеллектуального уровня.
Следующая группа приведенных показателей –перцентили(процент испытуемых, выполнивших определенную часть теста). Как правило, перцентили высчитывают при выполнении тестов способностей и достижений. Значительное преимущество перцентилей состоит в легкости вычислительных процедур и отсутствии шепни при интерпретации получаемых результатов, что в известной мере обеспечивает их универсальность. Однако недостаток перцентилей – существенное неравенство единиц отсчета в том случае, когда анализируют крайние точки распределения. При использовании перцентилей определяется только относительное положение индивидуальной оценки, но не величина различия между отдельными показателями.
Последний вид приведенных показателей –стандартные показатели, среди которых различают линейные и нормализованные. Первые из них подразумевают обычную линейную трансформацию исходных показателей в показатели стандартного отклоненния. Нормализованные показатели позволяют наиболее удовлетворительно получать приведенные показатели, когда исходные данные трансформируются с помощью таблиц в нормальное распределение. Единственным ограничением в употреблении нормализованных стандартных показателей и одновременно требованием к ним является необходимость выведения окончательных оценок на больших репрезентативных выборках.
Отклонения от нормы с высоким уровнем статистической значимости в этих случаях объясняются недостатками самого теста, а неиндивидуальными особенностями ответов отдельного индивида.
Несколько слов скажем о соотношении приведенных показателей. Как правило, при соблюдении двух условий – тщательности процедуры приведения показателей тестовых измерений и разумной их интерпретации – становится возможной (с помощью специальных шкал и таблиц) трансформация одного вида показателей в другой.
Понятие нормы включает в себя элементы специфичности. Дело в том, что норма тесно связана с контрольной выборкой, являющейся совокупностью конкретных лиц и показателей, извлекаемых из исходной популяции. Следовательно, норма не есть абсолютный и универсальный фактор, поэтому в отдельных случаях возможны и даже необходимы специализированные нормы. Речь идет о стандартизации тестов на узко заданных выборках, формирование которых преследует локальные цели. Тесты в этих случаях весьма специфичны и наиболее эффективны [Гуревич, 1981].
Подводя общий итог, подчеркнем, что практически любой вид психологической диагностики, психологического тестирования требует профессионального опыта. Он поможет психологу адекватно учесть, как пишет А. Г. Шмелев, действие разнообразных факторов, которые снижают достоверность тестирования, и своевременно отказаться от «далеко идущих выводов» [Шмелев, 1999]. Приобрети подобный опыт можно в процессе стажировки под руководством опытных специалистов. Подобная практика принята во всем мири. При наличии корпоративной культуры профессиональная методика должна распространяться только среди лиц, имеющих сертификаты на право ее самостоятельного использования.
Методы стандартизации тестов Цель стандартизации – облегчить понимание и интерпретацию тестовых результатов. Стандартизация психодиагностических тестов представляет собой линейное или нелинейное преобразование тестовых оценок. Смысл преобразований исходных тестовых оценок заключается в изменении характера их распределения. Стандартизация подразумевает единообразие процедуры проведения и оценки выполнения теста. Если показатели, полученные разными индивидами, должны быть сравнимыми, то, очевидно, условия тестирования должны быть одинаковыми для всех. Такое требование есть лишь конкретное применение требования контролируемости условий любого научного наблюдения. В тестовой ситуации единственной независимой переменной обычно является тестируемый индивид. Чтобы обеспечить единообразие условий тестирования, создатель теста дает подробные указания по проведению каждого вновь разработанного теста. Формулирование таких указаний составляют основную часть стандартизации нового теста. Такая стандартизация включает точные указания относительно используемых материалов, временных ограничений, устных инструкций испытуемому, предварительного показа заданий, способов трактовки вопросов со стороны испытуемого и другие детали проведения теста. На выполнение некоторых тестов испытуемым могут влиять другие, более тонкие факторы. Поэтому, давая инструкцию или читая задания устно, следует принимать в расчет скорость речи, тон голоса, модуляцию, паузы и выражение лица.
Другим важным этапом в стандартизации теста является определение норм. Психологические тесты не имеют заранее определенных стандартов успешности или неудачи в выполнении теста, нндуальные показатели оцениваются в сравнении с показателями, полученными другими. Сам термин «норма» уже указывает Нормальное, или среднее, выполнение. Поэтому, если обычные 8-летние дети правильно решают 12 задач из 50 в тесте на типичное арифметическое рассуждение, значит, норма для 8-летнего ребенка в этом тесте соответствует показателю 12. Такой показатель принято называть первичным (необработанным, сырым) показателем. Он может выражаться числом правильно решенных заданий, временем, необходимым для их выполнения, числом ошибок и другими объективными единицами измерения, соответствующими и содержанию теста. Такой первичный показатель ни о чем говорит до тех пор, пока не оценивается в соответствующей системе норм.
Стандартизация теста осуществляется его проведением на большой репрезентативной выборке испытуемых того типа, для которого предназначен. Относительно этой группы испытуемых, называемой выборкой стандартизации, вырабатываются нормы, определяющие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. Поэтому можно оценить разные степени успешности и неуспешности в тесте. Это позволяет определить положение индивида относительно нормативной выборки или выборки стандартизации. Следует отметить, что нормы для личностных тестов устанавливаются и сущности точно так же, как и для тестов способностей. Для тестов обоих типов норма соответствует их выполнению обычными, или средними, индивидами. Например, в тесте на «лидерство–подчиние» норма приходится на промежуточную точку, представляющую собой уровень авторитарности или подчинения, характерный для среднего индивида. Подобным же образом в опроснике на эмоции нальную устойчивость норма не просто соответствует полному отсутствию неблагоприятных или недостаточно приспособленных ответов, поскольку некоторое количество таких ответов свойственно большинству нормальных индивидов из выборки стандартизации. Из этого ясно, что психологические тесты любого типа опираются на эмпирически установленные нормы.
Требования к конструированию психодиагностических методик
Рассматривая порядок проверки валидности, мы вплотную подошли к вопросу о целостной стратегии конструирования, эмпирической апробации и внедрения методики в практику. В реальности конструирование оригинальной методики или адаптация зарубежной методики не могут сводиться к проверке (или перепроверке) отдельных психометрических свойств – репрезентативности, надежности, валидности, достоверности – в произвольной последовательности. В одних случаях целесообразно начинать с одного, в других – с другого этапа работы.
В действительности любая реальная ситуация использования теста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами и каждая ситуация до определенной ступени удалена от обоих полюсов.
(«конструирование» <–––––> «применение»)
Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось «с нуля», «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста.
Но все это многообразие ситуаций, всю комбинаторику независимых параметров психологи-практики, как правило, пытаются редуцировать, свести к двум-трем типовым ситуациям.
1. Ситуация применения: тест кем-то разработан (возможно, в других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).
2. Ситуация адаптации. Тест кем-то разработан, проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.
3. Ситуация конструирования. Существует концепция психического свойства, но нет «подходящей» процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо «придумать» измерительную процедуру, проверить ее надежность, валидность, построить тестовые нормы.
Прежде всего остановимся на вопросах адаптации так называемых переводных тестов. Путь быстрого пополнения репертуара методик за счет множества «готовых» зарубежных методик кажется
многим психологам наиболее экономичным, кратчайшим к надежной и валидной психодиагностике. Но если при этом адаптация сводится только к построению нормативного распределения текстовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоритическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений. Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психологических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, т.е. структурно-динамические характеристики психической деятельности), причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т.п.). При тестировании интегральных психических свойств личности и индивидуального создания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, интересы и т.п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только формулировки задач, вопросов, но и исходную формулировку инструкции к тесту) и при использовании культурно-специфических критериев оценки правильности результата – во всех этих случаях ограничиваться только сбором тестовых норм при адаптации не допустимо!
Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему конструированию оригинальной методики. С этой точки зрения заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т.п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики
Укажем здесь в качестве образца необходимые этапы эмпирико-статистической работы при адаптации многомерного переводного тест-опросника.
1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот анализ призван показать, что некое общее диагностическое свойство, лежащее на пересечении всех эмпирических индикаторов, существует. Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например, к тест-опросникам Айзенка ЕРI и 16РF Кэттелла. А вот к опроснику «локус контроля» или ко многим основным клиническим шкалам MMPI требование внутренней согласованности применить необязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связаны в один фактор-пучок. Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом случае достаточно располагать настольным калькулятором. Для многомерных тестов необходимо использование специальной про граммы «анализ пунктов» на ЭВМ. По отношению к негомогенным шкалам анализ внутренней согласованности позволяет осуществить в снятом виде необходимую проверку информативности пунктов (процент правильных или подтверждающих ответов должен соответствовать оригинальной авторской версии).
2. Проверка устойчивости к перетестированию. Совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть совмещен с исследованием информативности отдельных пунктов теста, а также, возможно, и устойчивости отдельных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного прогноза.
3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т.е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана для сокращенной модифицированной версии MMPI коллективом Ф. Б. Березина.
4. Проверка или рестандартизация тестовых норм.
5. Специфичный этап для многомерных тестов – проверка воспроизводимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия – интроверсия» и «нейротизм – эмоциональная стабильность».
Таким образом, адаптация зарубежных тестов мало чем уступает объему эмпирико-статистической работы конструированию оригинальных методик.