II. Требования к руководству теста
Руководство к тесту составляется для его пользователей — организаций, специальных психологических служб, профессиональных психологов, педагогов, психиатров и некоторых других специалистов. В руководстве, как правило, излагаются следующие сведения о тесте:
1) сведения о процедуре разработки (теоретическое и операционное определение, сфера применения, данные о выборке, на которой проводилась стандартизация, анализ пунктов теста, валидности и надежности);
2) требования к применению (область распространения теста, требования к пользователям, описание процедуры проведения, стандарт тестового материала);
3)данные по обработке и интерпретации результатов (образцы регистрационного бланка и ключей, процедура обработки таблицы для перевода «сырых» баллов в стандартные шкалы (нормы), примеры интерпретации результатов).
А. Общие требования к информации, содержащейся в руководстве.
Пользователи тестов нуждаются в информации, которая помогла бы применить тест стандартным образом и оценить его в сравнении с другими тестами, которые можно выбрать для данной цели. Автор теста должен представить хотя бы частичную информацию, в которой нуждается пользователь при выборе теста или при его использовании. Практика авторов и издателей в представлении информации разнообразна. По некоторым тестам пользователю представляются только нечеткие указания к тестированию и нормы для оценивания результатов, да и те неизвестного происхождения. Наоборот, другие тесты имеют руководства, в которых представлена обширная и детальная информация о разработке теста, его валидности и надежности, а также нормах, видах интерпретации результатов и возможных областях его применения.
А.1. Когда тест становится доступным для операционного использования, он должен сопровождаться руководством, для того чтобы сделать реальными требования, которые предъявляются к его применению. (Существенно.)
Комментарий. Под термином «операционное пользование» подразумевается принятие практических решений относительно оценивания индивидов, групп, учебных предметов, терапевтической интерпретации и т. д.
В зависимости от объема сообщаемой информации, разнообразия областей применения и пользователей, термин руководство» может означать документы монографического характера или серию отдельных публикаций. Данный термин может также распространяться на процедурное руководство по использованию тестов или их батарей, например в ситуации отбора; словесная формулировка и значение данных о стандартных требованиях могут быть иными для процедурных руководств, однако принципы составления руководства к тестам аналогичны.
А.1.1. Если некоторая информация, необходимая для подтверждения интерпретации результатов, предложенных в руководстве, не может быть представлена ко времени публикации руководства, требование А.1 может быть удовлетворено подчеркиванием отсутствия и важности такой информации. (Существенно.)
А.1.2. Если информация слишком обширна для сообщения в руководстве, она должна быть обобщена и сопровождена ссылками на другие соответствующие источники, статьи или книги. (Очень желательно.)
Комментарий. Некоторые тесты имеют или объемные технические руководства, или включают соответствующую информацию в справочники для пользователей, которые рекомендуются для консультации. В других случаях в руководстве дается только существенная информация и ссылка на другие полезные источники.
Публикации других лиц, не связанных с автором теста, часто выполняют многие функции руководства к тесту. Если подобная публикация о тесте предназначена в качестве руководства, ее автор и издатели отвечают за тест в той же степени, как и авторы теста.
А.1.2.1. Когда информация представлена автором или издателем в отдельной публикации, эта публикация должна соответствовать тем же требованиям, что и руководство, и не содержать моментов, ведущих к ошибкам, так же, как это требуется от руководства. (Существенно.)
А.1.2.2. Дополнительный материал к тесту должен быть точным и полным и не должен давать повода для ошибочного понимания. (Существенно.)
Комментарий. В случае, когда публикатор приводит обширную и исчерпывающую библиографию исследований, касающихся теста, желательно снабдить ее комментариями аннотациями.
А.1.2.3. Информационный материал, предназначенный для пользователя, не являющегося специалистом в данной области, должен быть точным, полностью соответствовать целям его обращения к данному материалу и написан языком, не допускающим ошибочного понимания у читателя. (Существенно.)
Комментарий. Такая информация часто дается в виде краткой памятки. При подготовке такого краткого сообщения может учитываться психологическая подготовленность читателя, но это не позволяет пропускать или искажать существенную информацию. Если можно надеяться, что читатель постоянно имеет дело с такими сообщениями, необходимо приложить усилия к повышению его способности понимать детали.
А.2. Тест и руководство к нему должны периодически пересматриваться. Время пересмотра зависит от изменения условий применения или от исследовательских данных, ввиду которых некоторые утверждения в руководстве к тесту оказываются неправильными или ведущими к ошибкам. (Очень желательно.)
Комментарий. Технические характеристики и полезность теста изменяются с изменением социальных условий и установок, определенных видов труда, условий и содержания обучения и состава соответствующей популяции.
А.2.1. Перепроверки теста, проведенные после его публикации, вне зависимости от благоприятности или неблагоприятности для теста, должны быть учтены в пересмотренных изданиях руководства или в дополняющих сообщениях. В руководство должны также включаться данные не только авторов и публикаторов, но и других исследователей. (Очень желательно.)
А.2.2. Когда тест пересмотрен или издана его новая форма, руководство к нему должно быть соответственно пересмотрено с учетом изменений теста. Кроме того, должны быть ясно указаны природа и степень пересмотра, сравнимость данных, полученных по старому и по пересмотренному тестам. (Существенно.)
Комментарий. Целесообразно, чтобы издатели указывали на пересмотры руководств к тесту в каталогах и принимали другие меры для увеличения вероятности того, что пользователь теста получит текущую информацию.
А.2.2.1. Когда на основе хорошо проверенного теста разработана укороченная форма, в руководстве должны быть представлены данные о том, что задания в укороченной форме адекватны заданиям в полной форме или что укороченная форма измеряет те же самые характеристики, что и полная форма. (Очень желательно.)
Комментарий. Если короткая форма теста не была разработана, но есть основание полагать, что обычно тест используется в укороченной форме, в руководстве должно быть напоминание для читателя, что данные, отраженные в руководстве, не могут быть приложим к результатам использования укороченной формы.
А.2.2.2. Если укороченная форма разработана путем сокращения числа заданий или преобразованием части теста в отдельную форму, то укороченный тест должен пройти психометрическую проверку и ее данные должны быть приведены в руководстве. (Существенно.)
Комментарий. В руководстве к тесту, имеющему две альтернативные формы, необходимо представить независимые данные для каждой формы.
А.2.3. При переводе теста с другого языка и их адаптации в руководстве еле дует указать все внесенные в тест изменения и данные новой психометрической проверки. (Существенно.)
А.3. Наименования для публикуемых тестов и для отдельных частей тестов должны выбираться так, чтобы обеспечить минимальный риск ошибок интерпретации пользователями. (Существенно.)
Комментарий. Желательно, чтобы наименования не содержали многозначных терминов в качестве измерительных характеристик. Такие наименования как «свободный от влияния культуры» «интеллект», «креативность», «интроверсия», «первичные умственные способности», «показатель продуктивности», сомнительны для опубликованных тестов, не содержащих необходимых свидетельств их продуктивной валидности, так как могут предполагать интерпретации, не вытекающие из демонстрируемого смысла тестовых оценок.
А.3.1. Средства идентификации интересов и свойств личности путем самоотчета следует называть не «тесты», а «опросники», «вопросники», «оценочные листы», «оценочные шкалы». (Очень желательно.)
Комментарий. Когда о таких инструментах говорится в руководстве, слово «тест» может использоваться для упрощения языка даже в том случае, если оно отсутствует в наименовании.
А.4. Если тест предназначен только для исследовательского пользования и не может быть распространен для широкого применения, это должно быть ясно выражено в сопровождающих материалах. (Существенно.)
Комментарий. Если психолог, разрабатывающий новый диагностический тест, например, для изучения личности, передает свой инструмент для исследований другим научным работникам до того, как сочтет тест готовым для операционного пользования, на обложке руководства, а также в каталоге, где он зарегистрирован, следует печатать «Распространение только для исследовательского пользования». Это служит предупреждением против поспешного использования инструмента.
А.5. В руководстве должна быть указана квалификация пользователя. (Существенно.)
Комментарий. Обычно на обложке руководства ставится обозначение, соответствующее уровню квалификации пользователя: (А) — тестом может пользоваться любой человек; (Б) — пользователь должен пройти полный курс обучения психодиагностике и иметь законченное высшее гуманитарное образование; (В) — пользователь должен иметь опыт в тестировании, подтвержденный соответствующими документами, и иметь как минимум законченное высшее психологическое образование или быть членом психологической ассоциации. При покупке тестов группы (В) обязательно предоставление квалификационного документа.
Б. Сведения о процедуре разработки теста.
Ответственность за заключение о смысле и ограничениях в использовании тестовых результатов ложится в первую очередь на пользователя. Однако в этом случае он частично зависит от доступной информации о тесте, приводимой его составителем.
Руководство к тесту не может полностью подготовить пользователя к интерпретации данного теста. Ему приходится делать выводы, не подтвержденные опубликованными свидетельствами. Так, профориентатор не может надеяться на наличие данных о валидности теста для каждого вида труда, относительно которых он на основе тестовых оценок делает наиболее надежные предсказания. Специалист по профконсультации или трудоустройству может иметь дело с испытуемыми, которые не могут быть отнесены ни к одной из групп, для которых имеются нормативные или валидационные данные. Учитель может оценивать содержание теста достижений соответственно принятым целям и особенностям обучения, клиницист должен соотнести общие данные теории с собственной интерпретацией данных по опроснику личности. Степень, с которой руководство подготовит пользователя к точной интерпретации и эффективному использованию теста, зависит от типа теста и способов его применения. На составителя теста возлагается ответственность за представление информации, необходимой для правильных суждений. Он должен приложить все возможные усилия, чтобы тест не был неправильно употреблен или неправильно интерпретирован.
Б.1. В руководстве к тесту должна быть полностью описана процедура создания теста: его концептуальная основа, детали разработки заданий теста и их отбора, психометрическая проверка надежности и валидности и другие исследования. (Существенно.)
Б.2. В руководстве к тесту должны быть ясно отражены теоретические положения, на которых основан тест, и подробно раскрыта природа характеристик, для измерения которых тест предназначен. (Существенно.)
Комментарий. Ясное описание диагностируемых переменных, а также характер измерения позволяют пользователю судить, насколько тест соответствует его собственному пониманию, а также насколько статистические данные характеризуют его действенность.
Б.2.1. Диагностический конструкт (концепт) должен быть сформулирован в теоретических понятиях и соотнесен на теоретическом уровне с системой релевантных конструктов (теоретическое определение). (Существенно.)
Б.2.2. Особое внимание должно быть обращено на операциональное определение диагностического конструкта. Операциональное определение — это определение конструкта в эмпирических категориях, отражающих ситуацию, в которых он актуализируется, а также реакции (поведение, переживания, представления), в которых данный конструкт проявляется. (Существенно.)
Комментарий. Пользователь теста нуждается в информации, которая позволила бы ему сравнивать собственную концепцию конструкта с концепцией автора теста.
Б.3. Руководство теста должно указать диагностические цели и сферы приложения, для которых тест рекомендован. (Существенно.)
Комментарий. Ясное указание целей теста содействует предупреждению ошибочного истолкования тестовых оценок. Надо обратить внимание пользователя на содержание в руководстве доказательства предложений, принятых автором. Например, если тест достижений рекомендован как тест обследования знаний учащихся, важно точное описание его содержания. Если, с другой стороны, он рекомендован как диагностический тест или тест для выбора вида деятельности, требуются данные об его связи с одним или несколькими критериями.
Б.3.1. Должна быть четко выделена область применения, под которой подразумевается особая социальная среда или сфера общественной практики (производство, медицина, семейная жизнь и т. п.), контингент испытуемых (пол, возраст, образование, профессиональный опыт, на производстве, в обществе). (Существенно.)
Б.3.2. В руководстве должны быть конкретизированы цели использования результатов: для прогноза успешности профессиональной деятельности, психологического вмешательства, принятия правовых, судебно-административных решений, прогноза стабильности коллектива и т. п. (Очень желательно.)
Б.4. Руководство к тесту должно отразить репрезентативность выборки заданий, процедуру их отбора и психометрические характеристики заданий. (Существенно.)
Комментарий. Для тестов, представляющих собой гомогенную, дискриминативную шкалу или набор таких шкал, процедура отбора заданий проводится следующим образом: каждое задание проходит проверку на трудность и дискриминативность, на соответствие заданий нормальному распределению и их степень отношения к одному фактору. Выборка для анализа должна отражать популяцию и в общем случае для проверки одной формы теста состоять как минимум из 100 человек.
Б.4.1. Данные, собранные в ходе разработки теста (до получения конечной формы), должны быть отделены от данных, относящихся к тесту в его конечной форме. (Существенно.)
Б.5. В случае если тест не разрабатывается вновь, а переводится с другого языка, он должен пройти полную психометрическую проверку, так же как вновь разрабатываемый тест. (Существенно.)
Б.5.1. При переводе руководства к тесту проверяется эквивалентность диагностических конструктов и концептов, лежащих в основе тестовых задач. (Существенно.)
Стандартные требования к надежности и валидности.Составитель теста должен привести в руководстве сведения о надежности и валидности теста. Многие пользователи тестов также выполняют подобные исследования, опираясь на собственное применение тестов. Их научные сообщения часто отличаются от приведенных в руководстве к тесту как более детальные и более специфические, описывающие более узкие сферы использования теста. Несмотря на эти различия, в обоих случаях стандартные требования для исследований и сообщений по ним должны быть в общем сходными.
В. Надежность и ошибка измерения.
Надежность — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов.
В основе анализа надежности теста лежит представление об истинных оценках и ошибках измерения. Распределение оценок, полученных на генеральной совокупности при выполнении теста, измеряющего одну характеристику, теоретически должно подчиняться нормальному закону. Поэтому при разработке теста исследователю необходимо отбирать задания таким образом, чтобы распределение реальных тестовых оценок было по возможности близко к нормальному.
Для определения ошибки измерения используются на практике корреляционные методы, позволяющие определить надежность через устойчивость и согласованность результатов. Классические методы оценки коэффициентов надежности требуют корреляции по меньшей мере двух совокупностей сходных измерений.
Один из методов получения двух совокупностей измерений — это ретестирование (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения устойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов способностей это может существенно влиять на повторные ответы.
Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можем использовать две совокупности заданий, разработанных или отобранных по одной системе. Это — параллельные тесты. Недостатком в данном случае является то, что очень трудно построить на практике параллельные формы одного и того же теста.
Если желательно изучить только влияние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецелесообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обычным методом. Но эта корреляция отражает лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена-Брауна.
Оценка надежности на основе однократного тестирования может быть получена путем использования формулы, известной как коэффициент альфа.
Рекомендуется также оценить надежность теста относительно экспериментатора как оценщика и как экспериментатора.
Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффициенты надежности, основанные на однократном тестировании, исключают вариативность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэффициент надежности» — обобщенный термин. Он может основываться на разных типах свидетельств — каждый тип предполагает иной смысл. Очень важно, чтобы метод, использованный для получения коэффициента надежности, был четко описан.
Автору теста рекомендуется в руководстве описать значение любого коэффициента насколько возможно точно. Например, высказывание: «Этот коэффициент показывает стабильность измерения эквивалентных баллов, основанных на параллельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длинное, но свободно от двусмысленности.
Коэффициенты надежности имеют ограниченную практическую ценность для пользователей теста. Стандартная ошибка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установления пределов определенной вероятности балла. Пользователи теста могут употребить коэффициент надежности для сравнения тестов, но для интерпретации тестовых баллов используется стандартная ошибка измерения.
В.1. В руководстве к тесту должны быть достаточно подробно описаны процедуры и выборки, использованные для определения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложимы к лицам или группам, с которыми он имеет дело. Если некоторые из необходимых данных не были получены, то отсутствие такой информации должно быть отмечено. (Существенно.)
Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообщение стандартных ошибок измерения, полученных в разных группах. Следует привести среднее значение и дисперсию выборки и информацию о ее составе. Надежность теста, предназначенного для отбора работников, проверяется при тестировании кандидатов на должность, а не школьников или уже работающих. Если указывается, что тест пригоден для различных возрастных групп, следует привести данные о надежности для каждого класса или возраста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый статистический анализ, он должен быть объяснен так, чтобы свести к минимуму вероятность ошибочной интерпретации.
В.1.1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: несогласованность ответов субъекта; несогласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несогласованность в проведении теста; несогласованность между оценщиками, экспертами или единицами математического аппарата; механические ошибки при выставлении баллов. (Желательно.)
Комментарий. Подобный анализ может быть неосуществим, если результаты теста выражены не в количественной форме, а в категориальной или непараметрической.
Для группы тестов школьных достижений основными источниками ошибок, подлежащих оценке, являются: а) несогласованность в содержании теста; б) несогласованность в проведении теста; в) нестабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласованность ответов субъекта сами по себе могут быть важной переменной. Они часто бывают главными источниками подлежащей оцениванию случайной ошибки. Также должна быть оценена несогласованность между оценщиками.
В.1.2. Стандартные ошибки измерений и коэффициенты надежности должны приводиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического использования, за исключением опытных и экспериментальных. (Существенно.)
В.1.3. В руководстве должно быть указано минимальное различие между двумя баллами, обычно требуемое для статистической значимости на определенном уровне. (Очень желательно.)
В.1.4. В руководстве должны быть описаны все характеристики выборки, которые могут оказывать влияние на надежность оценивания. (Существенно.)
Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъектов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятельности, месту жительства. Для стандартизированных тестов при вычислении коэффициентов надежности выборку следует формировать случайным образом из генеральной совокупности.
В.1.5. Если тест рекомендован или обычно используется в однородных подгруппах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть сообщено в руководстве к тесту. (Существенно.)
В.1.6. В руководстве к тесту должна быть сообщена стандартная ошибка измерения для разных уровней баллов. (Желательно.)
Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уровне одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наиболее существенные вариации ошибок измерения связаны с крайними баллами, лучше опираться, если позволяет количество доступных случаев, на более широкий диапазон уровней баллов.
В.1.7. Неизвестные статистические характеристики данных должны быть описаны со ссылками на литературные источники, отражающие разработку. (Существенно.)