Определение количества заданий (спецификация теста)
Прежде чем приступать к созданию теста, необходимо четко знать, для чего он нужен. Ясный ответ на этот вопрос — необходимое условие для работы. Поэтому первым шагом будет формулирование цели будущего теста.После этого следует обратиться к разработке спецификациибудущего теста. Наиболее удобно сделать это в виде таблицы, в которой по горизонтали будут располагаться содержательные области,которые предполагается измерять, а по вертикали — их манифестации,или пути, по которым содержательные области могут проявляться.
Например, при конструировании «опросника супружеского статуса» Дж. Руст и С. Голомбок (Rust, Golombok, 1988) основывались на опросе экспертов, в качестве которых выступали семейные терапевты и консультанты, а также на данных, полученных от клиентов этих специалистов. Экспертов просили назвать те области взаимоотношений между мужчиной и женщиной, которые они полагали наиболее важными для гармоничного брака. Информация от клиентов позволила обнаружить те проблемные зоны семейной жизни, в которые супруги хотели бы внести изменения. На этой основе были выделены такие содержательные области, как «совместные интересы и степень зависимости—независимости», «вербальная и невербальная коммуникации», «доверие и уважение» и др. Ясное понимание цели будущего теста, естественно, облегчает построение перечня того, что предстоит измерять. При спецификации манифестаций важно обеспечить выделение различных форм их реализации. Так, при конструировании вышеупомяну-
того опросника «установки и чувства, проявляющиеся в отношениях» рассматривались как манифестации «вербальных и невербальных коммуникаций» между супругами.
Из практических соображений обычно по каждой оси разрабатывается от 4 до 7 категорий. Меньшее число категорий часто приводит к созданию слишком узкого опросника, а большее может сделать обременительным процесс конструирования опросника. В итоге получается своего рода решетка, количество ячеек в которой будет равно количеству планируемых для изучения параметров, умноженному на количество их поведенческих манифестаций (табл. 3.1).
Таблица 3.1 Спецификация будущего | опросника | ||||
Манифестации | Содержательные области | ||||
При разработке опросников обычно считают, что решетка размером от 16 до 25 ячеек (например, 4x4,4x5,5x4 или 5x5) считается идеальной для той длины теста, который вполне реально сконструировать, предъявить и обработать.
Далее необходимо определить, сколько заданий, например вопросов, должно быть создано для каждой из ячеек. При решении этой задачи следует руководствоваться тем, насколько важным представляется исследователю измерение одного из параметров сравнительно с другим или другими. В решетке, приведенной в табл. 3.2 (Rust, Golombok, 1989), допускается, что содержательным областям, обозначенным как А к В, следует приписать 40-%-ный вес, а С и D — 10-%-ный. В то же время каждой манифестации А, В, CnD приписывается 25-%-ный вес. Необходимо обратить внимание на то, что в целом процентный вес всех содержательных областей (по горизонтали) и всех манифестаций (по вертикали) должен составлять 100 %. Такое расположение процентных весов подскажет, какую часть от всех заданий следует создать для каждой ячейки. Следующий шаг состоит в том, чтобы решить, какое количество заданий должно быть включено в тест. При этом необходимо учитывать такие факторы, как размер решетки и время, предполагаемое для выполнения заданий. Хорошо известно, что в определении количества заданий перед исследователем возникает дилемма: обеспечение, с одной стороны, надежности теста, что требует увеличения заданий, а с другой стороны — минимизация количества заданий для обеспечения эффективной работы испытуемого с ними, подразумевающей прежде всего поддержание концентрации внимания в ходе обследования. Так, для достижения удовлетворительной надежности опросника требуется не менее 20 заданий, выполнение которых обычно занимает не более 10 минут. Наконец, важную роль в определении количества заданий теста играют особенности того контингента, который предполагается обследовать. Обыч-
но при проводимом разработчиками пилотажном исследовании количество заданий предварительного варианта теста должно быть по крайней мере на 50 % больше числа тех, которые будут включены в окончательную версию.
После того как определен процентный вес каждой из ячеек решетки и установлено общее количество заданий для пилотажной версии теста, нетрудно подсчитать, сколько заданий должно быть разработано для каждой ячейки. Нижеприведенная решетка (Rust, Golombok, 1989) содержит то количество заданий для каждой ячейки, которое необходимо для пилотажного исследования с помощью опросника, состоявшего из 80 вопросов (табл. 3.2).
Таблица 3.2
Определение процентного веса содержательных областей,
манифестаций, а также количества заданий опросника
Манифестации | Содержательные области | Кол-во заданий | |||
А 40% | В 40% | С 10% | D 10% | ||
Л (25%) | |||||
В (25%) | |||||
С (25%) | |||||
£>(25%) | |||||
Кол-во заданий |
Для того чтобы подсчитать количество заданий для каждой ячейки, умножают общее число заданий, предназначенных для измерения некоторого свойства личности, на процентный вес его поведенческих проявлений. Например, количество заданий для левой крайней ячейки решетки равно отношению 25 % к 32 заданиям, что составляет 8 заданий — 25/100x32 = 8. Если не получается целое число заданий для каждой ячейки, следует его округлить.
Разработка заданий
Прежде всего нужно указать на то, что в каждом задании может быть задан только один вопрос или сформулировано одно утверждение. Нельзя допускать появления заданий, в которых присутствуют формулировки типа: «для этого человека и других людей», «как и другие» и т. п. Каждое задание (вопрос) должны быть сформулированы предельно ясно и просто. Необходимо избегать двусмысленных формулировок и придерживаться, насколько это возможно, наиболее простых вариантов ответов. В то же время необходимо стремиться к тому, чтобы обследуе-мые не могли догадаться о том, для измерения какой черты предназначено то или иное задание. В противном случае ответы будут отражать их точку зрения на вы-Раженность у себя этой черты, а не реальное положение дел.
Задания должны отражать конкретные, а не общие аспекты изучаемой области поведения. Например, вместо задания «Нравится ли вам спорт?» лучше ис-
1 54 Глава 3. Психометрические основы психодиагностики: основные этапы...
пользовать более конкретный вопрос: «Вы регулярно играете в какую-нибудь спортивную игру?».
Везде, где только возможно, следует избегать употребления таких слов, как <<часто», «редко» и т. п. Иначе говоря, в формулировке заданий нужно очень осторожно прибегать к словам, указывающим на частоту действий. То, что одним испытуемым интерпретируется как «часто», для другого совсем не так. Примером может служить вопрос «Часто ли вы употребляете спиртные напитки?», ответ на этот вопрос не отражает реального положения дел, а характеризует субъективное мнение обследуемого (разумеется, в ряде случаев именно это мнение и интересует исследователя!). Также следует избегать терминов, выражающих чу вства. Лучше представить задание в контексте поведения. Например, задание «Нравится ли вам чтение художественной литературы» лучше заменить на «Читаете ли вы художественную литературу постоянно?».
Очень важно, чтобы любой из предлагаемых вариантов ответа воспринимался испытуемым как возможный, вероятный. Ответ, воспринимаемый обследуемым как неправильный, будет иметь малую вероятность выбора.
После разработки всех заданий к ним следует вернуться через некоторое время и попытаться еще раз оценить их формулировки, еще раз убедиться в том, что все они легко понимаются и не содержат двусмысленностей. Для этого рекомендуется привлечь хотя бы двух-трех экспертов. В личностных опросниках, как правило, используют три типа заданий: дихотомические, трихотомические и задания с рейтинговыми шкалами1. Весьма популярны задания с альтернативным выбором (дихотомические),которые просты для понимания, легки и удобны для обработки. Эти задания требуют наименьшего времени для ответа. К их недостатком относится то, что обследуемые часто не удовлетворены предлагаемой альтернативой, хотели бы видеть больше вариантов ответа. Задания трихотомические(три варианта ответа, например «да», «не знаю», «нет») также распространены в опросниках, и их преимуществом является то, что обследуемые могут более точно выразить себя, нежели в случае альтернативы. Недостаток применения более двух вариантов ответов заключается в том, что могут актуализироваться установки на выбор крайних вариантов ответа и выбор среднего варианта, чаще всего это такие ответы, как «не знаю», «иногда» и т. п.
Какие-либо правила, определяющие количество вариантов выбора ответа, отсутствуют. Обычно не рекомендуется использование более семи в опросниках, использующих рейтинговыешкалы. Важно обеспечить достаточное количество градаций ответа, с тем чтобы обследуемые были в состоянии адекватно выразить самих себя. Следует помнить и о том, что в разрабатываемом опроснике желательно использовать только один тип заданий.
Основные проблемы, возникающие при разработке заданий личностных опросников, касаются актуализации факторов, имеющих установочную природу. Кратко остановимся на способах действия наиболее известных установок. Установка на согласиеможет быть преодолена с помощью введения так называемых обратных заданий, причем их количество должно быть равно или почти равно числу
1 Подробнее о типах заданий, используемых в опросниках, см. гл. 5.
«прямых» заданий. Например, утверждение «Я удовлетворен отношениями с моей матерью» может быть дополнено обратным — «Я не удовлетворен отношениями с моей матерью». При введении обратных заданий необходимо тщательно выверить их смысл и убедиться в том, что они имеют то же самое значение, что и те, из которых были образованы. Также следует избегать двойных отрицаний.
Установка на социально одобряемый ответможет быть минимизирована с помощью исключения из опросника тех заданий, ответы на которые оцениваются обследуемым с точки зрения их социальной желательности—нежелательности. Если это по тем или иным причинам сделать невозможно, следует попробовать сформулировать косвенный вопрос, с тем чтобы побудить к ответу, не являющемуся простым отражением желания обследуемого представить себя в лучшем свете. Например, утверждение «Люди постоянно интригуют против меня» (выявление параноидных тенденций) может быть сформулировано в виде: «Имеются некоторые люди, которым я полностью доверяю». Достаточно эффективной мерой в борьбе с этой установкой будет адресованное испытуемому требование отвечать на каждый вопрос, не слишком долго задумываясь, не пытаясь анализировать каждое задание.
Эдвардсом был разработан радикальный способ устранения влияния этой установки — конструирование заданий, состоящих из двух утверждений, подобранных по социальной желательности, одно из которых и должен выбрать обследуемый. Однако этот прием не получил распространения по трем причинам: 1) сложность создания согласованных утверждений; 2) тенденция к увеличению любых незначительных различий в социальной желательности между частями заданий, когда они предъявляются вместе; 3) используемая при разработке таких опросников экспертная оценка социальной желательности значительно упрощает это явление. Некоторые исследователи при разработке опросников используют специальную группу заданий, предназначенных для выявления лиц, склонных к социально одобряемым ответам. Эти задания состоят из вопросов, касающихся незначительных проступков, совершаемых фактически всеми людьми. Например, «Я никогда не лгу» или «Я всегда прихожу своевременно на встречи и свидания». Лица, набравшие достаточно большое количество баллов по такой шкале, рассматриваются как дающие социально одобряемые ответы, и их результаты не рассматриваются как достоверные. Несмотря на то что Г. Айзенк доказывает, что эти так называемые «шкалы лжи» измеряют определенную личностную переменную, данный прием может быть весьма полезен для обнаружения установки на социально одобряемые ответы.
Установка на неопределенные ответы (так называемые ответы средней категории),когда нельзя отказаться от присутствия таковых в опроснике, в известной мере преодолевается инструкцией, требующей от испытуемого как можно реже прибегать к таким ответам, а также количеством вопросов, число которых не Должно приводить к рассеиванию внимания, а тем самым выбору «наиболее легкого ответа». Вполне оправданно считается, что эта категория ответов наиболее привлекательна тогда, когда оба крайних значения безразличны для испытуемых. Следовательно, задания должны быть сформулированы таким образом, чтобы выбор ответа средней категории не был притягателен. Задания, для которых необ-
1 56 Глава 3. Психометрические основы психодиагностики: основные этапы...
ходима средняя категория ответов, не смогут пройти процедуру анализа (см. далее) и будут автоматически устранены. Если опросник предусматривает использование исключительно дихотомических заданий, то в ходе пилотажного исследования можно попросить испытуемых отмечать те из них, которые вызвали затруднение и требовали, по их мнению, неопределенного ответа; затем от них лучше отказаться
Установка на крайние ответыобычно проявляется в заданиях с рейтинговыми шкалами. По мнению П. Клайна, преимущества рейтинговых шкал, дающих испытуемому широкие возможности для выбора, сводятся на нет действием установки на крайние ответы. Поэтому лучше избегать задания типа рейтинговых.
Подводя итоги достаточно краткого рассмотрения способов борьбы с установками на ответы (в соответствующей литературе нетрудно найти более детальный анализ этих проблем, возникающих при конструировании опросников), вспомним мысль Гилфорда о том, что наиболее благоприятную почву для проявления этих установок создают неконкретные, неопределенные и неоднозначные задания. В процессе работы над опросником задания будут неоднократно переформулироваться, будет изменяться порядок их предъявления, поэтому полезно иметь своего рода картотеку заданий, позволяющую работать отдельно над каждым из них. Могут быть весьма полезны компьютерные банки заданий, которые ныне доступны специалистам.
Оформление теста
Разработчикам тестов хорошо известно, что от оформления, формы представления методики, что определяется как ее очевидная (лицевая) валидность, зависит, насколько серьезно воспринимается она испытуемыми в качестве инструмента обследования. В любом опроснике должен быть представлен блок основной информации,который включает его название, а также вопросы, касающиеся имени, пола, возраста, образования и некоторых других необходимых для исследователя данных. Обязательно указывается дата заполнения опросника.
Инструкциядолжна быть ясной, доступной для понимания. В ней должно быть указано, как выбирать ответ и каким образом отмечать его в опроснике. Здесь же содержится дополнительная информация, которую разработчик считает необходимым сообщить обследуемому. Например, «отвечайте так быстро, насколько это возможно» или «отвечайте на каждый вопрос искренне, это очень важно для того, чтобы мы имели возможность оказать вам необходимую помощь». Следует выделить ту информацию, которая может способствовать эффективной работе испытуемого, например о соблюдении конфиденциальности.
Для компоновкитекста опросника следует руководствоваться такими рекомендациями.
1. Нумеруется каждое задание.
2. Каждая строка на странице должна быть короткой и содержать не более 10-
12 слов.
3. Все задания располагаются по прямой вертикальной полосе сверху вниз в
левом углу страницы.
4 Варианты ответов должны быть представлены так, чтобы получилась прямая вертикальная полоса сверху вниз в правом углу страницы. Необходимо обеспечить ясную визуальную связь между каждым заданием и вариантами ответа на него. Это может быть сделано с помощью введения пунктирной линии от колонки заданий к их вариантам ответов. Например,
/ да не знаю нет
2. да не знаю нет
3 да не знаю нет
5. Каждое задание нужно отделить друг от друга, лучше это сделать, исполь
зуя свободное пространство, а не горизонтальную линию.
6. Если используется более чем один тип заданий, одинаковые задания груп
пируются вместе. Каждый тип заданий требует разных инструкций и своих
вариантов ответов.
7. Опросник печатается так, чтобы он имел эстетически привлекательный вид.
Современные компьютеры позволяют сравнительно легко добиться опти
мального варианта текста. Дизайн опросника может способствовать воспри
ятию его как формального документа или приближать к игре (особенности
шрифта, цвет бумаги и расположение заданий).
Результаты обследования (разные формы их представления) обычно не принято включать в опросник, хотя в некоторых случаях и допускается наличие в бланке (брошюре), с которым работает испытуемый, итогового блока, заполняемого психологом.
Пилотажное исследование
Проведение пилотажного исследования предполагает выполнение заданий теста лицами, которые имеют сходные особенности с теми, для обследования которых он предназначается. Анализ полученных данных поможет отобрать наилучшие задания для окончательной версии опросника.
Если, например, опросник предназначен для обследования лиц, имеющих проблемы с алкоголем, пилотажное исследование можно провести в соответствующих консультативных центрах, клиниках. В том случае, когда опросник будет использоваться применительно к любым, скажем, взрослым и психически нормальным представителям популяции, необходимо сформировать репрезентативную группу испытуемых. Сделать это намного труднее, чем подобрать какую-либо специфическую группу. Обычно составление выборки отнимает много времени, поэтому не стоит этим заниматься при проведении пилотажного исследования. Если невозможно создать репрезентативную выборку, обычно достаточно составить выборку приблизительно похожую на репрезентативную. Лица, которые принимают участие в пилотажном исследовании, должны различаться по демографическим показателям, таким как возраст, пол, социальный статус. Пилотажную версию опросника следует предъявить как можно большему количеству испытуемых. Минимальное количество респондентов, которое требуется для пилотажного
1 58 Глава 3. Психометрические основы психодиагностики: основные этапы...
исследования, должно быть в два раза больше, чем количество заданий. Если невозможно получить такое количество испытуемых, лучше все-таки привлечь к исследованию меньшее количество людей, чем вообще отказаться от проведения пилотажной стадии исследования.
Анализ заданий
Анализ заданий по результатам, полученным в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной версии опросника и включает в себя определение доли ответивших правильно(в соответствии с ключом) и дискриминантностикаждого задания. Первый шаг состоит в том, чтобы составить таблицу анализа заданий (табл. 3.3), в которой каждая колонка (а, Ъ, с, dvn. д.) представляет задание, а каждая строка (1, 2, 3, 4, 5 и т. д.) — обследуемого. Когда речь идет о разработке личностных опросников, в таблицу вписывается соответствующий балл по каждому заданию, а при этом имеется в виду, что обратные задания (с противоположным содержанием) оцениваются так же, как и прямые задания, но в противоположном направлении континуума оценок. Затем суммируются баллы по каждой клетке для получения общего балла по каждому ряду (испытуемые) и общего балла по каждой колонке (задания).
Таблица 3.3
Образец матрицы для анализа заданий
Обследуем | Задания | Сумма | ||||
a | ь | с | d | е | ||
1. | ||||||
2. | ||||||
3. | ||||||
4. | ||||||
5. | ||||||
Сумма |
Следующим шагом будет вычисление показателя, определяющего долю испытуемых, ответивших в соответствии с «ключом» опросника или индексаэффективности задания1. Этот показатель подсчитывается делением количества обследуемых, давших правильный (так называемый «ключевой») ответ, на их общее количество. В идеале этот индекс для каждого задания должен располагаться в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника. Индекс, меньший чем 0,25, показывает, что задание неэффективно потому, что очень
1 В ряде случаев определяется как индекс сложности задания;например, во многих шкалах интеллекта присутствуют субтесты, предназначенные для определения общей осведомленности и состоящие из вопросов типа: «Назовите столицу Уругвая» или «Кто автор "Критики чистого разума"?». В таких тестах с помощью индекса сложности устраняются те задания, на которые отвечают почти все испытуемые (легкие) и те, на которые отвечают правильно очень немногие (сложные).
немногие обследуемые отвечают на него правильно, а выше 0,75 указывает на то, то на данное задание получено слишком много правильных ответов. В табл. 3.3 нализа заданий индекс эффективности для каждого задания получается следующим образом: (а) 3/5 = 0,6; (Ь) 2/5 = 0,4; (с) 0/5 = 0; (d) 3/5 = 0,6 и (е) 5/5 = 1. Из того следует, что нужно устранить задания (с) и (е) из окончательной версии
опросника.
Также нужно удостовериться, просмотрев результаты в таблице анализа заданий, в том что хороший индекс эффективности, т. е. лежащий где-то посередине между крайними оценками, не просто означает выбор средних оценок в оценочном континууме каждым испытуемым, а представляет собой вариацию различных
оценок.
Задания (вопросы, утверждения) только тогда следует включать в окончательную версию опросника, когда они измеряют те же самые личностные особенности, что и другие, предназначенные для этого задания. Для определения дискри-минативности заданийиспользуется коэффициент корреляции каждого задания с общим баллом всего теста. Чем выше коэффициент корреляции, тем выше дис-криминантность задания, тем лучше задание. Это основной критерий. Как правило, требуется минимальная корреляция в 0,2. Задания с отрицательной или нулевой корреляцией почти всегда исключаются.
Для расчета этого показателя чаще всего применяется коэффициент произведения моментов Пирсона (заметим, что он наиболее приемлем для оценивания заданий, имеющих пять и более вариантов ответа, а в случае дихотомических заданий используется точечно-бисериальная корреляция). Вычисления обычно производятся с помощью специальных компьютерных программ, однако каждый разработчик тестов должен хотя бы один раз провести расчеты вручную. Это дает возможность проникновения в смысл того, что происходит с заданиями теста. Тем читателям, которые попытаются осуществить эту процедуру, напоминаем, что коэффициенты корреляции всегда меньше +1 и больше -1. Если получено значение коэффициента, выходящее за границы этого интервала, значит, допущена ошибка в расчетах. Формула коэффициента произведения моментов Пирсона имеет вид:
где г — коэффициент корреляции; X — результат по каждому заданию; У— балл (результат) по всему тесту; п — количество попарных произведений; Z — сумма. Для того чтобы подсчитать коэффициент корреляции произведения моментов Пирсона, нужны: сумма баллов испытуемых по каждому заданию (XX), сумма баллов, испытуемых по всему тесту (2У)> сумма квадратов баллов испытуемых по каждому заданию (2Х2), сумма квадратов баллов испытуемых по всему опроснику (£К2), сумма произведения баллов по каждому заданию и по всем заданиям (XXY). Путем подстановки в формулу значений перечисленных показателей вычисляется коэффициент корреляции. Нижеследующий пример демонстрирует простой способ получения этого коэффициента. Для избежания ошибок рекомендуется повторный подсчет по каждому заданию.
1 60 Глава 3. Психометрические основы психодиагностики: основные этапы...
При решении вопроса о включении задания в окончательную версию теста нужно принимать во внимание многие факторы. В дополнение к изучению эффективности и дискриминантности нужно определить то количество заданий, которое потребуется для окончательной версии (не менее 20-30 заданий!) и насколько хорошо они «вписываются» в ранее созданную для теста решетку. Например можно включить задания с низкой дискриминативностью, если имеется немного заданий по некоторой области измерения. Также иногда имеет смысл включение в окончательный вариант опросника задания с недостаточно высоким показателем эффективности при условии, что оно обладает достаточной дискриминантно-стью. Также важно обеспечить приблизительно равное количество прямых и обратных заданий. Для испытуемых разных полов необходимо выполнить отдельные процедуры анализа заданий.
Испытуемые Балл по зада- Балл по зада- Балл по всему Бал по всему Произведение
нию нию в квад- тесту тесту в квадрате баллов по зада-
рате нию и по всему
тесту
П X X2 Y Y2 XY
и=10 | ZX=30 | ЕЛ/ | ? = il0 27=641 | 2^ = 45195 | ZX7=219i |
Способы улучшения заданий выясняются как раз на этой стадии конструирования теста. Например, изменение формулировки ответа в задании с «иногда» на «всегда» может повысить показатель эффективности. Однако эти изменения во всех вопросах (утверждениях) могут повлиять на надежность и валидность теста. Процедура анализа заданий дает необходимую информацию относительно параметров каждого задания. Тем не менее только исследователь может вынести решение о том, какой из критериев наиболее важен для реализации цели создаваемого теста.
В начале 1980-х гг., помимо традиционных процедур анализа заданий, появляются более сложные, использование которых невозможно без достаточно мощного компьютерного обеспечения. К таковым прежде всего относится теория «задание—ответ» (item response theory, IRT). Технические приемы этой теории, несмотря на продолжающиеся дискуссии, сегодня включаются во вновь создаваемые
тесты. Однако речь идет прежде всего о тестировании способностей. Наиболее сложные проблемы возникают в связи с попытками приложения ITR к тестам личности Безусловно, нельзя утверждать, что процедуры из ITR неприменимы в оценке личности, однако требуется решение многих задач, прежде чем эта теория заменит традиционные процедуры анализа заданий (подробнее об этой теории см. в работах П. Клайна, 1994; А. Анастази и С. Урбина, 2001; и др.).