З.1. Стандартизация теста

' ных, методических и статистических процедур, обеспечива­ющих создание строго фиксированных компонентов теста

Глава 1. Психометрическая парадигма конструирования тестов и шкал

(инструкции, набора заданий, метода обработки протоколов и подсчета баллов, способа интерпретации).

Как основное методическое требование, стандартизация теста содержится в современных определениях понятия «психологический тест». «Тест - стандартизованная методика психологического изме­рения, предназначенная для диагностики выраженности у индивида психических свойств или состояний при решении практических задач» [Психологический словарь, 1997. С. 379]. «Психологический тест - психодиагностическая методика, предполагающая стандарти­зованную процедуру проведения, количественную формализованную процедуру обработки результатов и подсчета тестовых показателей, готовый перечень рекомендаций по интерпретации полученных показателей» [Шмелев, 1996. С. 449]. Б. Д. Карвасарский (1982), В. М. Блейхер с соавт. (1996) акцентируют возможность установления с помощью стандартизованного психологического теста уровня раз­вития (выраженности) той или иной психической функции по срав­нению с усредненными показателями, характерными для данной по­пуляции (полученными ранее на соответствующей выборке больных и на здоровых испытуемых). По А. Анастази (1982, 2001), психологи­ческий тест - в сущности есть объективное и стандартизованное из­мерение выборки поведения.

В психодиагностике выделяют две формы стандартизации теста [Бурлачук, Морозов, 1999]. В первом случае под стандартизацией по­нимается регламентация процедуры проведения, унификация инструк­ции, бланков исследования, способов регистрации результатов, усло­вий проведения исследования. Во втором случае - преобразование первичных тестовых оценоквновую шкалу, основанную ужененаколи-чественныхэмпирическихзначенияхизучаемогопоказателя,анаегоот-носительном месте в распределении результатов в выборке испытуемых.

Стандартизация как преобразование первичных тестовых оценок в новую шкалу - это процедура получения шкалы, позволяющей срав­нивать индивидуальный тестовый результат с результатами испытуе­мых по выборке стандартизации. Эта процедура позволяет определить так называемые тестовые нормы или таблицы пересчета «сырых», пер­вичных оценок по тесту в стандартные.

Процедуру стандартизации психодиагностического теста можно представить в виде следующих шагов.

1. Определяется генеральная совокупность, для которой предна­значена методика.

2. Извлекается выборка из генеральной совокупности.

Компьютерная психодиагностика

3. По результатам исследования выборки строится эмпирическое распределение.

4. С помощью статистических критериев эмпирическое распреде­ление подвергается анализу на соответствие его нормальному виду.

5. Если распределение оказывается нормальным, можно сразу же на основе характеристик эмпирического распределения прово­дить линейную стандартизацию.

6. Если распределение отличается от нормального, то либо делает­ся попытка привести его к нормальному виду, либо проводится нелинейная стандартизация (она также называется процентиль-ной нормализацией).

Рассмотрим эти этапы последовательно.

1. Определение генеральной совокупности.Под генеральной совокуп­
ностью понимается множество потенциальных испытуемых, для кото­
рых предназначен конструируемый тест. Например, методика ис­
следования интеллекта Векслера подразумевает возможность
обследования всего взрослого населения страны, а патохарактероло-
гический диагностический опросникдля подростков (ПДО) - подро­
стков в возрасте 14-18 лет. Чтобы можно было судить о степени выра­
женности того или иного психического свойства у отдельного человека,
необходимо знать, как распределено это качество в генеральной сово­
купности. Поскольку процедура обследования всей генеральной сово­
купности проблематична, то для того, чтобы сделать достоверные пред­
положения о распределении, прибегают к извлечению из генеральной
совокупности некоторой небольшой ее части - выборки.

Таким образом, под выборкой стандартизации поммжт множество испытуемых, на котором собираются диагностические нормы и про­водится стандартизация конструируемого теста. Основное требование, предъявляемое к выборке, заключается в том, что она должна отвечать свойствурепрезентативности(представительности),тоестьвнейдол-жны отражаться все свойства генеральной совокупности. Существует два основных способа создания выборки стандартизации: построение случайным образом и моделирование по свойствам генеральной сово­купности.

2. Извлечение выборки из генеральной совокупности.Для построения
выборки случайным образом используются способы жеребьевки, отбор
по таблицам случайных чисел, устанавливаются какие-либо правила
отбора, например, каждый третий, каждый десятый и т. п. из списка.

Моделирование выборки осуществляется в определенной после­довательности. Выбираются те свойства, которые могут повлиять на

___ Глава 1. Психометрическая парадигма конструирования тестов и шкал

результат тестирования (как правило, это демографические показате­ли пола, возраста и др.). Внутри каждого свойства выделяются града­ции (интервалы возрастов, уровни образования и т. п.), на основании которых строится матричная модель генеральной совокупности. В каж­дой клетке матрицы по данным переписи населения или другим статистическим данным записывается число людей генеральной сово­купности, обладающих соответствующими свойствами. Выборка из­влекается пропорционально по отношению к каждой клетке матрицы. Например, если известно, что соотношение мужчин и женщин в неко­тором городе составляет 40%и 60%соответственно, то и в выборке должно соблюдаться это соотношение.

3. Построение эмпирического распределения.На этом этапе выбира­
ется интервал квантования, подсчитываем частота (количество слу­
чаев) для каждого интервала квантования и строится либо гистограм­
ма, либо кумулятивная гистограмма.

Компьютерное вычисление существенным образом облегчает этот процесс. Так, например, статистические процедуры системы 5ТАТ15-Т1СА, сгруппированные в нескольких специализированных статисти­ческих модулях, позволяют решать задачи предельной сложности как по объему и размерности обрабатываемых данных, так и по точности и скорости вычислений. Для решения задач этого этапа можно исполь­зовать модуль «Основные статистики и таблицы» (Bа81с ЪШ.Шс*/ ТаЫез), который как раз и нацелен на проведение предварительной обработкиданных,осуществлениеразведочного анализа, определение зависимости между ними, разбиение их различными способами на группы, просмотр этих групп визуально и построения гистограмм.

4. Анализ эмпирического распределения на соответствие его нормаль­
ному ввду.Стандартизация психодиагностических тестов основана на так
называемой аксиоме нормальности, т. е. опирается на предположение, что
все психические характеристики распределены в популяции по нормаль­
ному закону Гаусса. Нормальное распределение имеет вид симметрич­
ной колоколообразной кривой, которая растянута до бесконечности в
положительном и отрицательном направлениях. Следует отметить, что
значительная часть процедур классической статистики разработана для
случайных величин с гауссовым нормальным распределением.

На этом этапе полученное эмпирическое распределение оценива­ется с помощью статистических критериев. Так, например, система 5ТАТ15Т1САпредлагаетдля оценки нормальности распределения три критерия: Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса.

Предположение о нормальности распределения тестовых результа­тов является своего рода идеализацией. На практике многие тесты дают

Компьютерная психодиагностика

результаты, распределение которых отличается от нормального. По­этому часто возникает вспомогательная задача нахождения способа преобразования данных к нормальному виду. Построенная на преды­дущем этапе гистограмма или полигон распределения позволяют лег­ко выявить лево- или правостороннюю асимметрию, двугорбость и другие отклонения от нормальности. В психологических исследованиях часто встречаются логарифмические нормальные распределения, осо­бенностью которых является крутая ветвь полигона и пологая правая (то есть частоты резко падают с ростом тестовых оценок). При лога­рифмировании исходных тестовых данных левая ветвь кривой распре­деления растягивается, и распределение принимает приближенно нор­мальный вид. Для нормализации распределений с правосторонней асимметрией используются тригонометрические и степенные преоб­разования данных. Таким образом удается преобразовать тестовые оценки, не подчиняющиеся закону нормального распределения, что­бы распределение новых, преобразованных оценок стало нормальным.

Компьютер позволяет автоматизировать подбор и подгонку требу­емого преобразования первичных тестовых оценок из заданного клас­са аналитических функций, а также реализовать трудоемкую в ручном исполнении процедуру перехода к нормально распределенным оцен­кам путем новой оцифровки выходного тестового показателя.

5. Проведение линейней стандартизации.Результат тестирования испытуемого X, (/ = 1,..., т, где т -количество заданий теста), вычис­ленный с помощью диагностической модели У,= ЦХ,),обычно назы­вается первичной тестовой оценкой, или «сырым» баллом.

Пол линейной стандартизацией понимают перевод исходных («сы­рых») баллов по тесту в стандартную шкалу путем применения форму­лы линейного преобразования следующего вида:

^ = ^g _ Угт>

1 оу 1 <зу 9

где 2; - стандартная тестовая оценка /-го испытуемого; Г, - нормаль­ная оценка /-го испытуемого; и, и о, - среднее арифметическое зна­чение и среднеквадратическое отклонение К

Так как Z-оценки могут принимать дробные и отрицательные зна­чения, что неудобно для восприятия, на практике используются взве­шенные стандартные оценки V} = а + Ь2,где а и b - константы цент­рирования и пропорциональности, соответственно. Параметр а имеет смысл в данном случае среднего арифметического значения взвешен­ной стандартной оценки F, а Ъ интерпретируется как среднеквадрати­ческое отклонение К

Глава 1. Психометрическая парадигма конструирования тестов и шкал

В психодиагностике используется несколько типов стандартных шкал, позволяющих сравнивать между собой показатели разных тес­тов (субшкал одного теста) в едином масштабе. Как правило, стандарт­ные шкалы основаны на модели нормального распределения и описы­ваются двумя параметрами: значением среднего и стандартного (или среднеквадратического) отклонения.

Наиболее распространенными типами стандартных шкал являются:

а) шкала Z-оценок и производные от нее (например, Т-шкала:
а = 50;b =10; пример теста - MMР1);

б) шкалы стенов, станайнов, пяти- и семибалльные шкалы (напри­
мер, шкала стенов: а = 5,5; Ъ = 2; пример теста - 16РР);

в) шкала 10 (например, а= 100;Ъ= 15; пример теста-IQ Айзенка).

Компьютер позволяет достаточно просто осуществить линейную стандартизацию. Так, например, система 5ТАТ15Т1СА может вычис­лить практически все описательные статистики, включая медиану, моду, квартили, определенные пользователем процентили, средние и стан­дартные отклонения, доверительные интервалы для среднего, коэф­фициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие опи­сательные статистики.

6. Проведение нелинейнейстандартизации. Если эмпирическое рас­пределение отличается от нормального, например, оказывается асим­метричным или полимодальным, то в этом случае прибегают к не­линейной стандартизации (процентильной нормализации). Под процентильной нормализацией понимается перевод «сырых» оценок в любой вид стандартных путем нахождения процентильных границ групп в эмпирическом распределении так, чтобы они соответствова­ли процентильным границам групп, выделяемых на основе еди­ничного нормального распределения. При этом эмпирическое рас­пределение как бы нарезается процентильными значениями на вертикальные полосы, площади которых соответствуют площадям, нарезаемым под одной из шкал стандартизации для нормального рас­пределения.

При проведении процентильной нормализации надо убедиться в том, что полученные шкалы обладают устойчивостью, то есть нормы, получаемые для целой выборки и выделенной случайным образом ее половины, должны совпадать. Если результаты не устойчивы, то либо образуется более широкая выборка, либо проводится эмпирическая нормализация - изменяются формулировки вопросов, заданий так, чтобы распределение приблизилось к нормальному.

____________________Компьютерная психодиагностика____________________

Надежность теста

Вей шя^о^^'-^^^н^^я^о^^с^х

} испытаний и устойчивость теста по отношению к разнооб­разным источникам помех (шумовых, случайных факторов обследования).

В осно^^н^у^1н^^Те^т^с^^еор^Г грешностей измерения, полностью заимствованная из физики. Счи­тается, что тест - такой же измерительный прибор, как вольтметр, тер­мометр или барометр. Результаты, которые он показывает, зависят не только от величины измеряемого свойства у испытуемого, но также и от самой процедуры измерения («качества» прибора, действий экспе­риментатора, внешних помех и т. д.).

В связи с этим постулируется следующее утверждение. Любое изме­ряемое психическое свойство испытуемого (например, «экстраверсия», «тревожность» и пр.) имеет «истинный» показатель, а показания по тес­ту отклоняются от «истинного» на величину случайной погрешности. Поэтомуэмпирическиполученнаяоценкапотесту^представляетсякак сумма истинной оценки Гши ошибки измерения е: К= Уы+е.

Для анализа надежности вводится понятие «параллельных тестов» -этотесты,водинаковоймереизмеряющиеданноесвойствопосредством одних и тех же действий и операций, при этом параллельными тестами могут быть и параллельные формы, и повторные исследования испыту­емых одной и той же методикой. Если допустить, что измеряемые свой­ства испытуемых мало изменяются во времени, а ошибки полностью случайны и несистематичны, то параллельные тесты дают результаты с одинаковыми средними значениями, среднеквадратическими отклоне­ниями, интеркорреляциями и корреляциями с другими переменными.

Коэффициент надежности ^определяется как корреляция парал­лельных тестов, которая, в свою очередь, равна отношению

2
п _ °й(
КУУ 2 ,

где си - дисперсия истинной оценки, а о. - дисперсия эмпириче­ской оценки.

Корреляция параллельных тестов с какой-либо другой переменной ^опредeляeтcя соотношением

Куч = Ктг т[Щу , где Л** — корреляция истинных оценок Уы с переменной 2.

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Коэффициент надежности связан со стандартной ошибкой изме­рения (4- среднеквадратичное отклонение измерения ё) следующим образом:

8Е =Ьут11-Куу ■

Отсюда следует, что при увеличении коэффициента надежности уменьшается ошибка измерения.

Корреляция эмпирических и истинных оценок Кпы называется индексом надежности и определяется соотношением:

КУуШ = ^уу~ .

Существует три основных подхода к оценке надежности тестов: тест-ретест надежность, надежность параллельных форм теста и надежность как гомогенность тестов.

Тест-ретест надежность. Если тест проводить много раз на одних и тех же испытуемых, то среднее для каждого испытуемого будет ха­рактеристикой истинной величины параметра. Отсюда выводится по­нятие ретестовой надежности: чем теснее коррелируют результаты на­чального и повторного проведений теста, тем он надежнее. Тест-ретест надежность называют также надежность-устойчивость. Таким обра­зом, ретестовая надежность - это надежность теста, которая устанав­ливается путем проведения повторного тестирования на той же выборке испытуемых, которая проходила первое тестирование, с последующим расчетом коэффициента корреляции между двумя показателями.

Надежность параллельных форм теста. Коэффициент надежности равен корреляции параллельных форм теста. В данном случае ошибки измерения связаны с различиями в характере действий и операций, присущих параллельным формам теста. Высокое значение коэффици­ента корреляции указывает не только на высокую надежность резуль­татов сравниваемых тестов, но и на эквивалентность содержания этих тестов. Поэтому коэффициент надежности для параллельных форм теста носит еще одно название - эквивалентная надежность.

Надежность как однородность тестов. Тест может быть разбит на части, каждая их которых рассматривается как отдельный параллель­ный тест. В этом случае надежность оценивается путем вычисления корреляций частей или элементов теста. Такой подход справедлив для оценки тестов, задания которых являются внутренне согласованны­ми. Наиболее распространенная процедура расщепления теста на две части - разбиение тестовых заданий на четные и нечетные. Для определения надежности целого теста применяют формулу Спирме-на-Брауна:

Компьютерная психодиагностика

К -2-*

*УУ - 1+Л ’

где R - корреляция между половинами теста.

Тест, построенный на основе внутренней согласованности тестовых заданий, можно расщеплять на части разными способами. В этом слу­чае для оценки надежности используется коэффициент Кронбаха

а=Ь

V 2

где а - обозначение коэффициента Кронбаха; к - число заданий теста; а? - дисперсия/-го пункта теста; о1 - дисперсия целого теста.

Если ответы на каждый пункт теста являются дихотомическими переменными, то применяется аналогичная коэффициенту Кронбаха формула Кьюдера-Ричардсона

КЯ20 =

к-1

Хм/

1~*

где КЯ20 - традиционное обозначение данного коэффициента надеж­ности; р, - доля первого варианта ответа на /-й вопрос; д, = (1 - р,) -доля второго варианта ответа на /-й вопрос.

В литературе приводятся и другие коэффициенты для однородных тестов [Общая психодиагностика, 1987; Дюк, 1994; Клайн, 1994].

Надежность тестовых заданий. Эта надежность определяется как мера стабильности результатов по данному заданию при проведении повторного тестирования, то есть от устойчивости ответов испытуемых на отдельные тестовые задания. Для проверки этой устойчивости вы­числяется коэффициент корреляции ответов испытуемых на проверя­емый пункт с ответами при повторном тестировании. Для дихотоми­ческих пунктов обычно используется коэффициент ср и пункт считается недостаточно устойчивым, если ср < 0,5

Ьс-аа

ф = —1

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Валидность теста

} ния чего предназначен.

каждый из них соответствует разным аспектам этого значения.

Очевидная валидность - это характеристика такого теста, о кото­ром складывается впечатление, что он измеряет именно то, что подра­зумевается, особенно с точки зрения испытуемого. Очевидная валид­ность не имеет никакого отношения к истинной валидности, и важна лишь потому, что помогает добиться сотрудничества с испытуемым [Клайн, 1994].

Эмпирическая валидность - это совокупность характеристик теста, полученных с помощью сравнительного статистического анализа. По­казатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства [Дюк, 1994]. В качестве внешних критериев могут выступать эксперт­ные оценки, «жизненные» критерии, показатели других тестов, отда­ленные по времени критерии и т. д.

Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования Yс критериальным показателем Z.Известно,чтокорреляциядвухпеременных зависит от их надежности:

где Яшш - корреляция истинных значений теста и критерия; Я„-надежность теста; Кгг- надежность критерия.

Эта формула показывает, что максимально возможная валидность ограничена величинами надежности теста и внешнего критерия.

Содержательная валидность - это характеристика тестов достиже­ний, указывающая, что тест должен охватывать всю область изучаемо­го поведения.

Конструктная валидность - это валидность теста по отношению к психологическому конструкту - научному понятию или совокупнос­ти понятий, лежащих в основе конструируемого теста. Для установле­ния конструктной валидности необходимо полное описание измеряе­мой переменной, выдвижение системы гипотез о ее связях с другими переменными, а также эмпирическое (статистическое) подтверждение этих гипотез.

____________________Компьютерная психодиагностика____________________

Распространенным приемом определения конструктной валидно-сти теста является его соотнесение с известными методиками, отража­ющими другие конструкты, предположительно как связанные, так и не зависимые от данного. При этом делается попытка априорно пред­сказать наличие или отсутствие связи между ними. Тесты, которые по предположению высоко коррелируют с валидизируемым тестом, на­зываются конвергирующими, а не коррелирующие - дискриминант-ными. Конструктная валидность может считаться удовлетворительной, если коэффициенты корреляции валидизируемого теста с группой кон­вергирующих тестов статистически значимо выше коэффициентов корреляции с группой дискриминантных тестов. Подтверждение со­вокупности ожидаемых связей составляет важный круг сведений кон­структной валидности и в зарубежной литературе носит также назва­ние «предполагаемой валидности».

Валидность тестовых заданий может устанавливаться с помощью факторного анализа, позволяющего на основе выявляемых латентных свойств определять меру влияния каждого латентного свойства на ре­зультаты тестирования.

Наши рекомендации