II. Требования к руководству теста

Руководство к тесту составляется для его пользователей — организаций, специ­альных психологических служб, профес­сиональных психологов, педагогов, психи­атров и некоторых других специалистов. В руководстве, как правило, излагаются следующие сведения о тесте:

1) сведения о процедуре разработки (теоретическое и операционное определение, сфера применения, данные о выборке, на которой проводилась стандартизация, анализ пунктов теста, валидности и надежности);

2) требования к применению (область распространения теста, требования к пользователям, описание процедуры проведения, стандарт тестового материала);

3)данные по обработке и интерпретации результатов (образцы регистрационного бланка и ключей, процедура обработки таблицы для перевода «сырых» баллов в стандартные шкалы (нормы), примеры интерпретации результатов).

А. Общие требования к информа­ции, содержащейся в руководстве.

Пользователи тестов нуждаются в ин­формации, которая помогла бы применить тест стандартным образом и оценить его в сравнении с другими тестами, которые можно выбрать для данной цели. Автор теста должен представить хотя бы частич­ную информацию, в которой нуждается пользователь при выборе теста или при его использовании. Практика авторов и издателей в представлении информации разнообразна. По некоторым тестам пользователю представляются только нечеткие указания к тестированию и нормы для оценивания результатов, да и те неизвестного происхождения. Наоборот, другие тесты имеют руководства, в кото­рых представлена обширная и детальная информация о разработке теста, его валидности и надежности, а также нормах, ви­дах интерпретации результатов и возмож­ных областях его применения.

А.1. Когда тест становится доступным для операционного использования, он дол­жен сопровождаться руководством, для того чтобы сделать реальными требова­ния, которые предъявляются к его приме­нению. (Существенно.)

Комментарий. Под термином «операционное пользование» подразуме­вается принятие практических решений относительно оценивания индивидов, групп, учебных предметов, терапевтичес­кой интерпретации и т. д.

В зависимости от объема сообщаемой информации, разнообразия областей при­менения и пользователей, термин руко­водство» может означать документы мо­нографического характера или серию от­дельных публикаций. Данный термин мо­жет также распространяться на процедур­ное руководство по использованию тестов или их батарей, например в ситуации от­бора; словесная формулировка и значение данных о стандартных требованиях могут быть иными для процедурных руководств, однако принципы составления руковод­ства к тестам аналогичны.

А.1.1. Если некоторая информация, необходимая для подтверждения интер­претации результатов, предложенных в руководстве, не может быть представлена ко времени публикации руководства, тре­бование А.1 может быть удовлетворено подчеркиванием отсутствия и важности такой информации. (Существенно.)

А.1.2. Если информация слишком об­ширна для сообщения в руководстве, она должна быть обобщена и сопровождена ссылками на другие соответствующие ис­точники, статьи или книги. (Очень жела­тельно.)

Комментарий. Некоторые тесты имеют или объемные технические руко­водства, или включают соответствующую информацию в справочники для пользова­телей, которые рекомендуются для кон­сультации. В других случаях в руковод­стве дается только существенная инфор­мация и ссылка на другие полезные источ­ники.

Публикации других лиц, не связанных с автором теста, часто выполняют многие функции руководства к тесту. Если подоб­ная публикация о тесте предназначена в качестве руководства, ее автор и издате­ли отвечают за тест в той же степени, как и авторы теста.

А.1.2.1. Когда информация представ­лена автором или издателем в отдельной публикации, эта публикация должна соот­ветствовать тем же требованиям, что и руководство, и не содержать моментов, ве­дущих к ошибкам, так же, как это требу­ется от руководства. (Существенно.)

А.1.2.2. Дополнительный материал к тесту должен быть точным и полным и не должен давать повода для ошибочного по­нимания. (Существенно.)

Комментарий. В случае, когда публикатор приводит обширную и исчер­пывающую библиографию исследований, касающихся теста, желательно снабдить ее комментариями аннотациями.

А.1.2.3. Информационный материал, предназначенный для пользователя, не являющегося специалистом в данной об­ласти, должен быть точным, полностью соответствовать целям его обращения к данному материалу и написан языком, не допускающим ошибочного понимания у читателя. (Существенно.)

Комментарий. Такая информа­ция часто дается в виде краткой памятки. При подготовке такого краткого сообщения может учитываться психологическая подготовленность читателя, но это не по­зволяет пропускать или искажать суще­ственную информацию. Если можно наде­яться, что читатель постоянно имеет дело с такими сообщениями, необходимо при­ложить усилия к повышению его способ­ности понимать детали.

А.2. Тест и руководство к нему долж­ны периодически пересматриваться. Вре­мя пересмотра зависит от изменения условий применения или от исследова­тельских данных, ввиду которых некото­рые утверждения в руководстве к тесту оказываются неправильными или ведущи­ми к ошибкам. (Очень желательно.)

Комментарий. Технические ха­рактеристики и полезность теста изменя­ются с изменением социальных условий и установок, определенных видов труда, ус­ловий и содержания обучения и состава соответствующей популяции.

А.2.1. Перепроверки теста, проведен­ные после его публикации, вне зависимо­сти от благоприятности или неблагопри­ятности для теста, должны быть учтены в пересмотренных изданиях руководства или в дополняющих сообщениях. В руко­водство должны также включаться данные не только авторов и публикаторов, но и других исследователей. (Очень жела­тельно.)

А.2.2. Когда тест пересмотрен или из­дана его новая форма, руководство к нему должно быть соответственно пересмотре­но с учетом изменений теста. Кроме того, должны быть ясно указаны природа и сте­пень пересмотра, сравнимость данных, полученных по старому и по пересмотрен­ному тестам. (Существенно.)

Комментарий. Целесообразно, чтобы издатели указывали на пересмотры руководств к тесту в каталогах и прини­мали другие меры для увеличения вероят­ности того, что пользователь теста полу­чит текущую информацию.

А.2.2.1. Когда на основе хорошо прове­ренного теста разработана укороченная форма, в руководстве должны быть пред­ставлены данные о том, что задания в уко­роченной форме адекватны заданиям в полной форме или что укороченная фор­ма измеряет те же самые характеристики, что и полная форма. (Очень желатель­но.)

Комментарий. Если короткая форма теста не была разработана, но есть основание полагать, что обычно тест ис­пользуется в укороченной форме, в руко­водстве должно быть напоминание для читателя, что данные, отраженные в руко­водстве, не могут быть приложим к ре­зультатам использования укороченной формы.

А.2.2.2. Если укороченная форма раз­работана путем сокращения числа зада­ний или преобразованием части теста в от­дельную форму, то укороченный тест дол­жен пройти психометрическую проверку и ее данные должны быть приведены в ру­ководстве. (Существенно.)

Комментарий. В руководстве к тесту, имеющему две альтернативные формы, необходимо представить независи­мые данные для каждой формы.

А.2.3. При переводе теста с другого языка и их адаптации в руководстве еле дует указать все внесенные в тест изменения и данные новой психометрической проверки. (Существенно.)

А.3. Наименования для публикуемых тестов и для отдельных частей тестов должны выбираться так, чтобы обеспечить минимальный риск ошибок интерпретации пользователями. (Существенно.)

Комментарий. Желательно, чтобы наименования не содержали многозначных терминов в качестве измерительных характеристик. Такие наименования как «свободный от влияния культуры» «интеллект», «креативность», «интроверсия», «первичные умственные способности», «показатель продуктивности», сомни­тельны для опубликованных тестов, не со­держащих необходимых свидетельств их продуктивной валидности, так как могут предполагать интерпретации, не вытекаю­щие из демонстрируемого смысла тесто­вых оценок.

А.3.1. Средства идентификации инте­ресов и свойств личности путем самоотче­та следует называть не «тесты», а «опрос­ники», «вопросники», «оценочные листы», «оценочные шкалы». (Очень желатель­но.)

Комментарий. Когда о таких ин­струментах говорится в руководстве, сло­во «тест» может использоваться для упро­щения языка даже в том случае, если оно отсутствует в наименовании.

А.4. Если тест предназначен только для исследовательского пользования и не может быть распространен для широкого применения, это должно быть ясно выра­жено в сопровождающих материалах. (Существенно.)

Комментарий. Если психолог, разрабатывающий новый диагностичес­кий тест, например, для изучения личнос­ти, передает свой инструмент для иссле­дований другим научным работникам до того, как сочтет тест готовым для опера­ционного пользования, на обложке руко­водства, а также в каталоге, где он заре­гистрирован, следует печатать «Распрос­транение только для исследовательского пользования». Это служит предупрежде­нием против поспешного использования инструмента.

А.5. В руководстве должна быть ука­зана квалификация пользователя. (Суще­ственно.)

Комментарий. Обычно на об­ложке руководства ставится обозначение, соответствующее уровню квалификации пользователя: (А) — тестом может пользоваться любой человек; (Б) — пользователь должен пройти полный курс обучения психодиагностике и иметь за­конченное высшее гуманитарное образо­вание; (В) — пользователь должен иметь опыт в тестировании, подтвержденный со­ответствующими документами, и иметь как минимум законченное высшее психо­логическое образование или быть членом психологической ассоциации. При покуп­ке тестов группы (В) обязательно предос­тавление квалификационного документа.

Б. Сведения о процедуре разработ­ки теста.

Ответственность за заключение о смысле и ограничениях в использовании тестовых результатов ложится в первую очередь на пользователя. Однако в этом случае он частично зависит от доступной информации о тесте, приводимой его со­ставителем.

Руководство к тесту не может полнос­тью подготовить пользователя к интерпре­тации данного теста. Ему приходится делать выводы, не подтвержденные опуб­ликованными свидетельствами. Так, профориентатор не может надеяться на на­личие данных о валидности теста для каж­дого вида труда, относительно которых он на основе тестовых оценок делает наибо­лее надежные предсказания. Специалист по профконсультации или трудоустрой­ству может иметь дело с испытуемыми, ко­торые не могут быть отнесены ни к одной из групп, для которых имеются норматив­ные или валидационные данные. Учитель может оценивать содержание теста дости­жений соответственно принятым целям и особенностям обучения, клиницист дол­жен соотнести общие данные теории с соб­ственной интерпретацией данных по оп­роснику личности. Степень, с которой ру­ководство подготовит пользователя к точ­ной интерпретации и эффективному ис­пользованию теста, зависит от типа теста и способов его применения. На составите­ля теста возлагается ответственность за представление информации, необходимой для правильных суждений. Он должен приложить все возможные усилия, чтобы тест не был неправильно употреблен или неправильно интерпретирован.

Б.1. В руководстве к тесту должна быть полностью описана процедура созда­ния теста: его концептуальная основа, детали разработки заданий теста и их от­бора, психометрическая проверка надеж­ности и валидности и другие исследова­ния. (Существенно.)

Б.2. В руководстве к тесту должны быть ясно отражены теоретические поло­жения, на которых основан тест, и подроб­но раскрыта природа характеристик, для измерения которых тест предназначен. (Существенно.)

Комментарий. Ясное описание диагностируемых переменных, а также характер измерения позволяют пользова­телю судить, насколько тест соответству­ет его собственному пониманию, а также насколько статистические данные харак­теризуют его действенность.

Б.2.1. Диагностический конструкт (концепт) должен быть сформулирован в теоретических понятиях и соотнесен на теоретическом уровне с системой реле­вантных конструктов (теоретическое оп­ределение). (Существенно.)

Б.2.2. Особое внимание должно быть обращено на операциональное опреде­ление диагностического конструкта. Опе­рациональное определение — это опре­деление конструкта в эмпирических кате­гориях, отражающих ситуацию, в которых он актуализируется, а также реакции (по­ведение, переживания, представления), в которых данный конструкт проявляется. (Существенно.)

Комментарий. Пользователь те­ста нуждается в информации, которая по­зволила бы ему сравнивать собственную концепцию конструкта с концепцией авто­ра теста.

Б.3. Руководство теста должно указать диагностические цели и сферы приложе­ния, для которых тест рекомендован. (Су­щественно.)

Комментарий. Ясное указание целей теста содействует предупреждению ошибочного истолкования тестовых оце­нок. Надо обратить внимание пользовате­ля на содержание в руководстве доказа­тельства предложений, принятых авто­ром. Например, если тест достижений рекомендован как тест обследования зна­ний учащихся, важно точное описание его содержания. Если, с другой стороны, он рекомендован как диагностический тест или тест для выбора вида деятельности, требуются данные об его связи с одним или несколькими критериями.

Б.3.1. Должна быть четко выделена об­ласть применения, под которой подразу­мевается особая социальная среда или сфера общественной практики (производ­ство, медицина, семейная жизнь и т. п.), контингент испытуемых (пол, возраст, об­разование, профессиональный опыт, на производстве, в обществе). (Сущест­венно.)

Б.3.2. В руководстве должны быть конкретизированы цели использования результатов: для прогноза успешности профессиональной деятельности, психо­логического вмешательства, принятия правовых, судебно-административных ре­шений, прогноза стабильности коллекти­ва и т. п. (Очень желательно.)

Б.4. Руководство к тесту должно отразить репрезентативность выборки заданий, процедуру их отбора и психоме­трические характеристики заданий. (Су­щественно.)

Комментарий. Для тестов, пред­ставляющих собой гомогенную, дискриминативную шкалу или набор таких шкал, процедура отбора заданий проводится сле­дующим образом: каждое задание прохо­дит проверку на трудность и дискриминативность, на соответствие заданий нор­мальному распределению и их степень отношения к одному фактору. Выборка для анализа должна отражать популяцию и в общем случае для проверки одной формы теста состоять как минимум из 100 человек.

Б.4.1. Данные, собранные в ходе раз­работки теста (до получения конечной формы), должны быть отделены от дан­ных, относящихся к тесту в его конечной форме. (Существенно.)

Б.5. В случае если тест не разрабаты­вается вновь, а переводится с другого язы­ка, он должен пройти полную психомет­рическую проверку, так же как вновь раз­рабатываемый тест. (Существенно.)

Б.5.1. При переводе руководства к тесту проверяется эквивалентность диагностических конструктов и концептов, лежащих в основе тестовых задач. (Суще­ственно.)

Стандартные требования к надеж­ности и валидности.Составитель теста должен привести в руководстве сведения о надежности и валидности теста. Многие пользователи тестов также выполняют подобные исследования, опираясь на соб­ственное применение тестов. Их научные сообщения часто отличаются от приведен­ных в руководстве к тесту как более де­тальные и более специфические, описыва­ющие более узкие сферы использования теста. Несмотря на эти различия, в обоих случаях стандартные требования для ис­следований и сообщений по ним должны быть в общем сходными.

В. Надежность и ошибка измере­ния.

Надежность — характеристика мето­дики, отражающая точность психодиаг­ностических измерений, а также устой­чивость результатов теста к действию по­сторонних случайных факторов.

В основе анализа надежности теста лежит представление об истинных оценках и ошибках измерения. Распределение оценок, полученных на генеральной сово­купности при выполнении теста, изме­ряющего одну характеристику, теорети­чески должно подчиняться нормальному закону. Поэтому при разработке теста ис­следователю необходимо отбирать зада­ния таким образом, чтобы распределение реальных тестовых оценок было по воз­можности близко к нормальному.

Для определения ошибки измерения используются на практике корреляцион­ные методы, позволяющие определить надежность через устойчивость и согла­сованность результатов. Классические методы оценки коэффициентов надежно­сти требуют корреляции по меньшей мере двух совокупностей сходных изме­рений.

Один из методов получения двух сово­купностей измерений — это ретестирование (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения ус­тойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов спо­собностей это может существенно влиять на повторные ответы.

Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можем использовать две сово­купности заданий, разработанных или ото­бранных по одной системе. Это — парал­лельные тесты. Недостатком в данном слу­чае является то, что очень трудно постро­ить на практике параллельные формы од­ного и того же теста.

Если желательно изучить только вли­яние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецеле­сообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обыч­ным методом. Но эта корреляция отража­ет лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена-Брауна.

Оценка надежности на основе одно­кратного тестирования может быть полу­чена путем использования формулы, изве­стной как коэффициент альфа.

Рекомендуется также оценить надеж­ность теста относительно эксперимента­тора как оценщика и как эксперимента­тора.

Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффи­циенты надежности, основанные на одно­кратном тестировании, исключают вариа­тивность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэф­фициент надежности» — обобщенный тер­мин. Он может основываться на разных типах свидетельств — каждый тип пред­полагает иной смысл. Очень важно, что­бы метод, использованный для получения коэффициента надежности, был четко описан.

Автору теста рекомендуется в руко­водстве описать значение любого коэффи­циента насколько возможно точно. Напри­мер, высказывание: «Этот коэффициент показывает стабильность измерения экви­валентных баллов, основанных на парал­лельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длин­ное, но свободно от двусмысленности.

Коэффициенты надежности имеют ог­раниченную практическую ценность для пользователей теста. Стандартная ошиб­ка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установ­ления пределов определенной вероятнос­ти балла. Пользователи теста могут упот­ребить коэффициент надежности для срав­нения тестов, но для интерпретации тес­товых баллов используется стандартная ошибка измерения.

В.1. В руководстве к тесту должны быть достаточно подробно описаны проце­дуры и выборки, использованные для оп­ределения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложимы к лицам или группам, с которыми он имеет дело. Если некоторые из необходи­мых данных не были получены, то отсут­ствие такой информации должно быть от­мечено. (Существенно.)

Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообще­ние стандартных ошибок измерения, по­лученных в разных группах. Следует при­вести среднее значение и дисперсию вы­борки и информацию о ее составе. Надеж­ность теста, предназначенного для отбора работников, проверяется при тестирова­нии кандидатов на должность, а не школь­ников или уже работающих. Если указыва­ется, что тест пригоден для различных воз­растных групп, следует привести данные о надежности для каждого класса или возра­ста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый статистический анализ, он должен быть объяс­нен так, чтобы свести к минимуму вероят­ность ошибочной интерпретации.

В.1.1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: не­согласованность ответов субъекта; несог­ласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несогласованность в проведении теста; несогласованность между оценщиками, экспертами или единицами математического ап­парата; механические ошибки при выстав­лении баллов. (Желательно.)

Комментарий. Подобный анализ может быть неосуществим, если результаты теста выражены не в количественной форме, а в категориальной или непарамет­рической.

Для группы тестов школьных дости­жений основными источниками ошибок, подлежащих оценке, являются: а) несог­ласованность в содержании теста; б) не­согласованность в проведении теста; в) не­стабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласо­ванность ответов субъекта сами по себе могут быть важной переменной. Они час­то бывают главными источниками подле­жащей оцениванию случайной ошибки. Также должна быть оценена несогласо­ванность между оценщиками.

В.1.2. Стандартные ошибки измерений и коэффициенты надежности должны при­водиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического ис­пользования, за исключением опытных и экспериментальных. (Существенно.)

В.1.3. В руководстве должно быть ука­зано минимальное различие между двумя баллами, обычно требуемое для статис­тической значимости на определенном уровне. (Очень желательно.)

В.1.4. В руководстве должны быть опи­саны все характеристики выборки, кото­рые могут оказывать влияние на надеж­ность оценивания. (Существенно.)

Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъек­тов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятель­ности, месту жительства. Для стандар­тизированных тестов при вычислении коэффициентов надежности выборку сле­дует формировать случайным образом из генеральной совокупности.

В.1.5. Если тест рекомендован или обычно используется в однородных под­группах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть со­общено в руководстве к тесту. (Суще­ственно.)

В.1.6. В руководстве к тесту должна быть сообщена стандартная ошибка изме­рения для разных уровней баллов. (Жела­тельно.)

Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уров­не одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наибо­лее существенные вариации ошибок изме­рения связаны с крайними баллами, луч­ше опираться, если позволяет количество доступных случаев, на более широкий ди­апазон уровней баллов.

В.1.7. Неизвестные статистические характеристики данных должны быть опи­саны со ссылками на литературные источ­ники, отражающие разработку. (Суще­ственно.)

Наши рекомендации