Г. Валидность (обоснованность) теста.

Вопросы валидности — это вопросы о том, какие и насколько обоснованные выводы могут быть сделаны на основе те­стовых оценок. Вопросы, относящиеся к валидности, могут быть сведены к двум: 1) какие выводы можно сделать о том, что измерялось тестом; 2) какие выводы могут быть сделаны о реальном поведении чело­века, отличающемся от наблюдаемого при тестировании.

1-й вопрос выясняет внутреннюю при­роду самого измерения. Тест, как измери­тельный инструмент, является операционализацией психического свойства или специфической области умения или зна­ния. В этом плане существенной пробле­мой является получение заключений о полноте отражения тестовыми баллами этой области, и в этом смысле следует го­ворить о внутренней (конструктной) ва­лидности.

2-м вопросом выясняется полезность тестового измерения в качестве предска­зателя поведения. В этом плане суще­ственной проблемой является получение заключения о том, насколько тестовые баллы связаны с некоторой другой дея­тельностью, и в этом смысле следует го­ворить о внешней (критериальной) валид­ности.

Важно отметить, что валидность не измеряется, о ней только судят. В руковод­стве могут быть приведены коэффициен­ты валидности, но о валидности теста для конкретного его использования судят по набору коэффициентов. Следовательно, валидность есть нечто такое, о чем судят как об удовлетворительном или неудов­летворительном для вынесения соответ­ствующего суждения.

Виды валидности зависят от видов зак­лючений, которые желательно извлечь из тестовых оценок. Традиционно описывают три взаимозависимых типа интерпретации заключений, обобщающих подавляющее большинство возможностей применения тестов: валидность по критерию, содержа­тельная и конструктная. Валидность по критерию может быть предсказательной и конкурентной.

Эти аспекты могут рассматриваться независимо друг от друга, однако незави­симость эта условна. Они связаны опера­ционально и логически, в конкретной си­туации редко бывает, чтобы лишь один из них был важен. Полное исследование те­ста часто включает информацию обо всех видах валидности.

Валидность по критерию и ее виды.Данная форма валидности исполь­зуется, когда хотят сделать вывод о связи тестовой оценки индивида с независимы­ми от теста внешними параметрами, называемыми критерием. Предсказательная валидность отражает степень, с которой будущий уровень по критерию может быть предсказан предшествующей деятельнос­тью по тесту. Конкурентная валидность отражает степень, с которой тест может быть использован для оценки у индивида актуального уровня по критерию. Это раз­личие важно. Предсказательная валид­ность включает отрезок времени, в те­чение которого может нечто случиться (например, люди обучаются, приобретают опыт, подвергаются лечению). Конкурен­тная валидность отражает только статус индивида в фиксированное время. При со­ответствующих условиях данные о конку­рентной валидности могут быть исполь­зованы для оценки предсказательной ва­лидности теста. Однако конкурентная ва­лидность не может использоваться взамен предсказательной без соответствующего логического обоснования. Для многих применений тестов (решение по отбору, назначению лечения и др.) предсказатель­ная валидность дает возможность опреде­лить целесообразность использования те­ста или батареи тестов в каждом отдельном случае. Другие формы валидности не заменяют валидность по критерию. В ру­ководствах к тестам, разработанным в предсказательных целях, а также предназ­наченным для диагноза, должны быть от­ражены исследования валидности по критерию. В противоположном случае такие тесты могут рассматриваться только как исследовательские версии.

О сомнительности отдельного вычис­лительного коэффициента валидности говорят многие факторы. Условия иссле­дования валидности никогда точно не по­вторяются. Быстрое изменение условий может ограничить точность и полезность предсказательного исследования. Логика предсказательной валидизации предпола­гает, что условия, существующие в нача­ле испытаний, будут существовать и после завершения исследования.

Логика валидности по критерию пред­полагает валидность самого критерия. Очень часто тесты валидизируются отно­сительно доступного критерия вне соот­ветствующего исследования самого критерия. Ценность исследования валидности по критерию зависит от пригодности и ка­чества измерения по данному критерию. В прикладных исследованиях критерий дол­жен выбираться в соответствии с изучаемой проблемой, а тест или другое средство оценивания должны выбираться относи­тельно данного критерия. Если исследова­ние предназначено в первую очередь для улучшения представлений о том, что из­меряется тестом, критерии должны изби­раться на основе заключений о природе конструкта, отражаемого тестовыми оцен­ками. В любом случае адекватность иссле­дования зависит от адекватности крите­рия.

Логика валидности по критерию пред­полагает, что выборка полностью репре­зентативна для популяции, для которой позднее будут делаться заключения. На практике выборки часто не являются реп­резентативными, например, из-за ограни­ченного объема, предвзятого отбора или утомления испытуемых до завершения валидизационного исследования.

Во многих практических ситуациях валидизационные исследования не могут охватить адекватного числа случаев, и ис­следователи вынуждены публиковать луч­шее из того, что они могут при имеющих­ся данных. Видимо, лучше попытаться ис­следовать валидность по критерию хотя бы каким-то образом, чем принять совер­шенно непроверенную гипотезу — резуль­таты неадекватного исследования могут ввести в заблуждение. Особенно сомни­тельны результаты валидизационных ис­следований при резко ограниченном ран­ге или малом количестве испытуемых.

Содержательная валидность.Сви­детельства о ней требуются, когда пользо­ватель теста желает оценить, как индивид будет действовать в ситуации, которую по предположению будет представлять тест. Содержательной валидностью обычно ха­рактеризуются тесты умений и знаний, оп­росники личности, поведенческие опрос­ники или средства измерений различных способностей. Данное обсуждение отно­сится к наиболее типичному случаю — те­стам достижения.

Чтобы выразить содержательную ва­лидность совокупности тестовых баллов, необходимо показать, что поведение испы­туемых при тестировании является репре­зентативной выборкой многих видов поведения в желаемой области деятельности. Любое исследование содержательной ва­лидности требует, чтобы составитель или пользователь теста определил свои цели и исчерпывающе определил область дея­тельности в свете этих целей. Определе­ние обычно относится к результатам уче­ния, а не к процессу, в ходе которого дос­тигается или обнаруживается научение. Оно должно быть достаточно детальным и четким, чтобы отразить степень, с которой компоненты деятельности образуют цело­стную область.

Конструктная валидность.Психо­логический конструкт является теорети­ческой идеей, разработанной для объясне­ния и организации некоторых аспектов сушествующего знания. Такие термины, как «тревожность», «способность к канцеляр­скому труду» или «подготовленность по чтению», отражают конструкт, но конст­рукт может обозначать больше, чем его название. Иногда необходимо постулиро­вать несколько различных конструктов, чтобы объяснить дисперсию данной сово­купности тестовых баллов. Более того, могут потребоваться различные конструк­ты для объяснения дисперсии различных тестов того же типа, или отдельный тест может отразить данные о нескольких кон­структах. Конструктная валидность име­ет место при оценивании теста или другой совокупности операций в свете рассматри­ваемого конструкта. Суждения по конструктной валидности полезны, когда соста­витель или пользователь теста желает знать об измеренном психологическом свойстве больше, чем позволяет отдель­ный коэффициент валидности по крите­рию, и особенно когда необходимо усовершенствовать измерение для научного изу­чения конструкта.

Свидетельства о конструктной валид­ности нельзя получить в одном отдельном исследовании — суждения о ней основа­ны на совокупности исследовательских результатов. Вначале исследователь формулирует гипотезы о различии между ли­цами с высокими и низкими результатами по тесту. Такие гипотезы в совокупности образуют предварительную теорию конст­рукта. При полном изучении тест высту­пает в качестве зависимой переменной в одних исследованиях и в качестве незави­симой — в других. Некоторые гипотезы могут быть «контргипотезами» конкуриру­ющих теорий или интерпретаций.

Гипотезы и теоретические формули­ровки ведут к некоторым предсказаниям о том, как люди с различными баллами по тесту будут выполнять тест или проявлять себя в некоторых определенных ситуаци­ях. Если теория исследователя верна, большинство предсказаний должно под­твердиться. Если этого не случится, ис­следователь может пересмотреть опреде­ление конструкта или перестроить тест так, чтобы он стал лучшей мерой подразу­меваемого конструкта. Путем последова­тельной верификации, модификации или отклонения гипотез исследователь все глубже проникает в сущность измеряемо­го тестом свойства.

Доказательства конструктной валид­ности можно получить в ходе разработки самого теста. Хотя доказательства конст­руктной валидности могут быть получены на основе серии исследований по внешним критериям, важно отметить, что они не­адекватны доказательствам пригодности конструкта для других гипотез.

Составитель теста или любое лицо, исследующее валидность, должны пред­ставить по мере возможности максимум информации о валидности, чтобы пользо­ватель мог оценить тест по отношению к собственным целям. В руководстве к тес­ту необходимо отразить данные, позволя­ющие пользователю оценить пригодность содержания заданий, установить, явля­ется ли тест приемлемой мерой рассматриваемого конструкта, и решить, характе­ризуется ли тест предсказательной валид­ностью в других подобных ситуациях.

Г. 1. В руководстве должна быть указа­на валидность теста для всех видов заклю­чений, для которых он рекомендуется. Если его валидность для некоторой пред­полагаемой интерпретации не была изуче­на, этот факт должен быть указан. (Суще­ственно.)

Комментарий. Исследование ва­лидности является частью разработки те­ста; пользователь нуждается в том, чтобы составитель сообщил об этом подробно в руководстве к тесту. По меньшей мере, в руководстве должны быть отражены ис­следования самого составителя или дру­гих исследователей, опубликованные в других изданиях. Предпочтительно, чтобы в руководстве были отражены отдельные исследования и представлены обобщен­ные данные о валидности для различных видов интерпретаций или выводов.

Г. 1.1. Данные о валидности должны быть сделаны на основании всех типов те­стовой валидности. (Существенно.)

Комментарий. Неправильно ис­пользовать выражение «валидность тес­та», не указывая вид валидности. Не суще­ствует тестов, валидных для всех целей или во всех ситуациях, а также для всех групп индивидов. Любое исследование ва­лидности относится к некоторым из воз­можных применений или видов теста, по­лучаемых на основе баллов.

Если тест может быть неправильно ис­пользован в некоторых областях примене­ния, в руководстве должны быть специаль­ные предостережения.

Г. 1.2. Если предполагается интерпре­тация не только баллов субтеста, но и раз­личных индексов, в руководстве должны быть помещены свидетельства, подтверж­дающие правомерность такой интерпрета­ции. (Существенно.)

Г. 1.2.1. Разработчик должен предупре­дить пользователя о невозможности рас­сматривать ответы на отдельные задания теста в качестве основы для составления заключений об испытуемом. Если подоб­ная оценка заложена в структуре теста, то в руководстве должно быть приведено под­робное обоснование такого применения.

Г. 1.3. Чтобы обеспечить правильную интерпретацию баллов в течение длитель­ного времени, валидность предполагаемых интерпретаций должна периодически пе­репроверяться и результаты сообщаться в последующем руководстве. (Очень жела­тельно.)

Комментарий. Требования к тру­ду, условиям работы и людям, работаю­щим по данной профессии, с течением вре­мени часто существенно изменяются. Подобным образом изменяется смысл клини­ческих категорий, типы медикаментозно­го лечения, цели и содержание обучения. Следовательно, пользователь должен быть в состоянии судить о том, устарел тест или нет.

Г. 1.3.1. При изменении факторов, ко­торые могли повлиять на результаты вы­полнения или на валидность предполага­емой интерпретации теста, в случае если для изменившихся условий не произведена ревалидизация, тест должен быть исключен из общего употребления и рас­пространяться среди лиц, которые будут производить изучение его валидности. (Очень желательно.)

Г. 1.4. Корреляции баллов заданий с общим тестовым баллом могут рассматри­ваться только как показатели дискриминативности заданий, не могут рассматри­ваться или использоваться в качестве коэффициентов их валидности. (Сущест­венно.)

Комментарий. Коэффициенты дискриминативности заданий полезны при суждении о конструктной валидности, и эту информацию следует включать в ру­ководство к тесту. Однако такие коэффи­циенты являются не показателями валид­ности теста, а только мерой внутренней согласованности.

Г.2. Выборка, использованная в иссле­довании валидности, и условия, при кото­рых проводилось тестирование, должны быть подробно описаны, чтобы пользова­тель мог судить, распространима ли сооб­щенная валидность на его ситуацию. (Су­щественно.)

Г.2.1. В руководстве к тесту следует указать все параметры, определяющие со­став валидационной выборки. Выборка должна быть описана по тем переменным, о которых известно, что они влияют на валидность: возраст, пол, социоэкономический статус, национальное происхож­дение, также другие демографические и психологические характеристики. (Суще­ственно.)

Комментарий. Если валидационные исследования используют пациентов в качестве испытуемых, то важно указать диагнозы. Если возможно, то необходимо показать обоснованность диагностики (строгость условий диагностики). Для те­стов, используемых в индустрии, должен быть описан трудовой статус, профессио­нальный опыт, пол и национальный состав выборки. Для школьных тестов уместной является информация о характеристиках популяции или принципах отбора.

Г.2.2. Доказательства валидности тес­тов должны быть получены для субъектов, которые по возрасту, образованию или профессиональной подготовленности со­ответствуют лицам, для которых тест рекомендуется. В руководстве должны быть отражены отклонения от этого требова­ния. (Существенно.)

Комментарий. Информация о валидности тестов, предназначенных для профориентации, должна в общем определяться на субъектах, тестирован­ных незадолго до образовательного или профессионального выбора или сразу после него.

Вопросник интересов, стандартизиро­ванный на мужчинах, работающих по ис­следуемой профессии, не обеспечивает использование вопросника в профориен­тации учащихся средней школы, посколь­ку полученные шкалы не дифференциру­ют группы учащихся. Лучшее доказатель­ство было получено после проверки воп­росника на учащихся с определением ха­рактера из последующей работы и установлением связи между данными вопрос­ника и последующей профессией.

Если вопросник интересов использует критерий приобретения или неприобрете­ния некоторой профессии, в выборке, ис­пользованной для его валидизации, долж­ны быть только лица со способностями, соответствующими данной группе профес­сий.

Г.2.3. При описании выборки должны быть приведены основные статистические данные, включая число наблюдений (и обоснование наблюдений), меры цент­ральной тенденции вариативности. Следу­ет также отразить особенности распреде­ления, возможно, с мерами асимметрии и эксцесса. (Очень желательно.)

Комментарий. Чем меньше объем валидационной выборки, тем менее на­дежны статистические данные. Когда чис­ло наблюдений очень мало, нулевой коэф­фициент корреляции может привести к ошибочному отклонению валидного теста.

Г.2.4. Если тестовые баллы в валида­ционной выборке имеют распределение, существенно отличающееся от распреде­ления баллов в группе, для которой он бу­дет обычно использоваться, то данные, основанные на этих баллах, включая оцен­ки параметров популяции, следует интер­претировать с большой осторожностью. При сообщении оценок параметра необхо­димо привести исходные статистические данные, а также характеристики распре­деления, использованные при введении новой оценки, и использованные статисти­ческие процедуры. (Существенно.)

Комментарий. Пользователю ру­ководства следует предоставить возмож­ность оценить любое искажение, возника­ющее вследствие нетипичности характера выборки. Предположения, обусловливающие причины такого искажения, часто иг­норируются, вследствие этого невозмож­но определить степень и направление оши­бок. Несмотря на эти трудности, часто не­обходима оценка подходящей статистики. Например, коэффициент валидности дол­жен отразить предсказательную способ­ность в группе, к которой тест будет при­меняться.

Г.2.5. Если тест способностей предназ­начен для учебного или профессионального отбора, его валидность должна устанав­ливаться на субъектах, заинтересованных в хорошем выполнении заданий. Если же они являются добровольцами или пришли к выводу, что результаты выполнения те­ста не будут использованы в принятии решений о них, этот факт должен быть ясно указан (экологическая валидность). (Очень желательно.)

Комментарий. В промышленном отборе для валидности широко использу­ется метод «наличных кандидатов на рабо­ту». Обычно он включает тестирование реальных кандидатов, которым указывает­ся, что выполнение теста не влияет на их прием на работу. Мотивационные разли­чия могут повлиять на характер выборки, так как вводят в ситуацию тестирования новую переменную.

Г.2.6. Если валидационная выборка образована на случайно полученных или произвольно присланных пользователями результатах тестирования, этот факт дол­жен быть отражен в руководстве к тесту. Пользователь должен быть предупрежден, что группа не является систематической или случайной выборкой из определенной популяции. Должны быть также указаны возможные отборочные факторы и их предполагаемое влияние на переменные места. (Существенно.)

Комментарий. Хотя вполне це­лесообразно включать в руководство та­кие фразы, как «автор и издатель теста будут приветствовать дополнительные данные, полученные при его использова­нии», крайне трудно адекватно судить о качестве и представительности большин­ства сообщений о результатах валидизации, основанной на подобных данных.

Г.2.7. Пользователю теста должна быть известна возможность смещения оценок в тестах или тестовых заданиях. По возможности следует изучить вероят­ные различия валидности по критерию для частных выборок, различающихся по полу, этническому составу или другим признакам, которые могут быть выявлены при тестировании. В руководстве следует сообщить результаты для каждой частной выборки в отдельности или о том, что раз­личия не обнаружены. (Существенно.)

Комментарий. Во многих случа­ях опубликованные правила требуют, ког­да это возможно, проводить определение валидности для выборок, отличающихся по национальности, полу и другим демо­графическим показателям.

Возможны и другие источники разли­чий оценок теста в разных валидационных выборках. Например, расположение теста по изучению ловкости рук на низком сто­ле может вызвать смещение результатов у высоких людей.

Необходимы и другие предосторожно­сти при оценке возможности смещения. Простые различия групповых средних сами по себе не указывают на контамина­цию теста. Доказательство дифференциации смещенности тестовых оценок осно­вывается на сравнении коэффициентов корреляции, уравнений регрессий, сред­них значений и дисперсий каждой пере­менной.

Пригодными статистическими кри­териями таких различий являются для любого параметра проверки гипотез об от­сутствии различий между группами, на­пример отсутствие различий между коэффициентами корреляций, показателями наклона или пересечения. Другими спосо­бами — тем, что один коэффициент кор­реляции значимо отличается от нуля, а другой не отличается, невозможно доказать предполагаемые различия.

Необходимо учесть, что существуют различные определения чистоты и от при­нятого определения может зависеть, явля­ется ли данная процедура чистой. Более того, имеются статистические и психологические неопределенности относительно некоторых источников наблюдаемых различий в валидности или регрессии. До тех пор пока различия не наблюдаются в достаточно больших выборках и пока от­сутствует достаточное теоретическое (психологическое или социологическое) объяснение наблюдаемых различий, лю­бое различие принимается осторожно. Смещение обнаруживается не обязатель­но для валидности по критерию.

Г.З. Пользователь теста ответственен за изучение данных, подтверждающих его валидность и надежность. Применение тестовых баллов при принятии решений должно опираться на достаточные доказа­тельства. (Существенно.)

Комментарий. Пользователь те­ста ответственен за понимание и оценива­ние возможности применения теста в сво­ем исследовании. В случае, если условия стандартизации и проверки на валидность и надежность теста отличаются от тех ус­ловий, в которых работает пользователь, на пользователя ложится обязанность провести дополнительные исследования валидности теста для собственного иссле­дования. Свидетельства о валидности не­обходимы для любого обоснованного принятия решений, а не только тогда, когда их легко получить.

Г.3.1. Пользователи теста ответствен­ны за сбор данных о валидности и надеж­ности используемых методик. (Очень же­лательно.)

Г.З.2. Если пользователь желает при­менить тест в ситуации, для которой такое применение ранее не проверено на валид­ность или для которой не существует подтвержденных доказательств валиднос­ти, он несет полную ответственность за валидизацию. (Существенно.)

Комментарий. Тот, кто публику­ет данные о валидности, должен обеспе­чить ее доказательства. Зачастую данные о валидности, достаточные для примене­ния тестов, имеются в руководстве к тес­ту. Если пользователь желает заявить, что валидность является более общей, чем это отражено в руководстве, он несет ответ­ственность за доказательность своего ут­верждения.

Если пользователь теста существенно изменяет инструкцию, язык, на котором тест написан, или содержание, он должен провести повторную валидизацию приме­нения теста в измененных условиях.

Валидность по критерию.

Г.4. Все меры валидизации по крите­рию должны быть описаны полно и точ­но. Критерии должны быть оценены с то­чки зрения их адекватности, надежности и загрязненности (контаминированности), что следует убедительно подтвер­дить. Необходимо обратить внимание на значимые аспекты деятельности, кото­рые критериальные меры не отражают, и на посторонние факторы, которые могут оказывать влияние на эти меры. (Суще­ственно.)

Комментарий. Критерии явля­ются формами оценивания и должны со­ответствовать тем же требованиям, что и разработка любой оценочной техники. При диагностике в области труда и образования критерием может быть тест дости­жений или перечень трудовых действий, достаточно валидных по содержанию. Оценочные суждения руководителей и пе­дагогов являются критерием более об­щим, но и более сомнительным по конструктной валидности. Выводы о конструктной валидности оценочных суждений мо­гут быть основаны на высокой их корре­ляции с результатами деятельности и мак­симально не зависеть от трудового стажа. При изучении интересов иногда не выяс­няется, что показывает критерий: удовлет­воренность, успешность или длительность изучаемой деятельности. Когда группы по критерию включают лиц данной профес­сии и когда эти группы сравниваются с людьми вообще, в руководстве должно быть подчеркнуто различие между работой по профессии и успехом или удовлет­воренностью ею.

Г.4.1. Особое внимание должно быть обращено на потенциальные источники контаминации критерия; необходимо со­общить о результатах исследования кон­таминации. (Существенно.)

Комментарий. Результаты таких исследований могут быть неоднозначны, и пользователя надо об этом предупредить. Например, при изучении влияния половых различий на оценку по критерию может обнаруживаться существенная разница между мужчинами и женщинами. Однако этот факт сам по себе не является доста­точным свидетельством контаминации критерия: он может отразить фактические половые различия деятельности.

Г.4.2. Когда сообщается валидность теста для предсказаний в сфере професси­ональной деятельности, в руководстве должны быть описаны служебные обязан­ности работников наряду с наименовани­ем выполняемых ими действий. (Очень желательно.)

Комментарий. Принцип заклю­чается в том, что должна даваться инфор­мация, на основе которой пользователь мог бы судить о состоятельности крите­рия. При отсутствии такой информации описание критерия часто является непол­ным.

Г.4.3. При валидизации по критерию обычно следует рассматривать не один, более общий критерий, а несколько част­ных, составляющих общий.

Комментарий. В большинстве видов деятельности по выполнению теста деятельность выражается во многих пара­метрах, которые могут быть независимы. При объединении несвязанных аспектов поведения в единый сложный критерий возможно игнорирование важных зависи­мостей и тем самым уменьшение способно­стей пользователей идентифицировать и понимать валидные интерпретации теста.

Отдельные решения часто должны быть приняты на многомерной основе. Тем не менее предпочтительнее найти прави­ло принятия решений для объединенных предсказаний.

Г.4.4. Если валидность теста оценива­ется по его соответствию психиатричес­ким суждениям, следует указать квалифи­кацию, опыт и профессиональный статус экспертов, также природу и степень их контактов с пациентами и другие потенци­ально влияющие факторы. (Очень жела­тельно.)

Комментарий. Например, «пара­ноидная шизофрения, хроническая» луч­ше, чем просто «шизофрения». Так как типы пациентов, подвергаемых специаль­но диагностической классификации, в не­которой степени зависят от выбора психи­атра, должно быть предоставлено развер­нутое описание каждой диагностической категории, использованной в исследова­нии валидности.

Г.4.6. Коэффициенты валидности спе­цифичны для ситуаций, в которых они получены. Если в руководстве дано сооб­щение о валидности для предсказания данного вида конструкта (критерия), необходимо представить материалы, предпола­гающие границы этого обобщения относи­тельно характеристик популяции или вы­борки, ситуационных переменных или ва­риации изменения по критерию. (Очень желательно.)

Г.4.7. Так как критерий является вы­борочным из всевозможных критериев того же конструкта, валидность должна быть по возможности определена как со­ответствие этой выборки другим похо­жим выборкам. Если доказательства по этому вопросу представлены быть не мо­гут, автор на основе суждения по кос­венным данным должен это указать и об­судить вероятную степень соответствия выборки другим выборкам. (Очень же­лательно.)

Комментарий. Если валидность измерена, например, по соответствию те­ста суждениям психиатров, то должна быть описана степень согласованности между экспертами. Если в качестве критерия использован опубликованный тест достижений, то его соответствие па­раллельным формам или надежность, со­общенные автором теста, могут быть ис­пользованы как основа для оценивания критерия при учете влияния различия между взятой выборкой лиц и исходной выборкой.

Г.4.8. В руководстве должны быть от­ражены данные о степени полноты и обоб­щенности информации о валидности. (Очень желательно.)

Г.4.8.1. В руководстве к тесту должны быть сообщены данные о валидности тес­та относительно каждого критерия, для которого даются рекомендации. Если для некоторой интерпретации валидность не выявлялась, этот факт должен быть ясно указан. (Существенно.)

Комментарий. Если с данным наименованием профессии соотнесен ши­рокий круг обязанностей, пользователей теста следует предупредить о несостоя­тельности предположения, что только одно сочетание интересов и способностей соотносимо с данной профессией.

Г.4.9. Локальный сбор доказательств валидности по критерию часто более по­лезен, чем опубликованные данные. В та­ких случаях в руководстве должен де­латься упор на локальные исследования валидности, а пользователи теста должны по возможности проводить такие исследо­вания. (Желательно.)

Г.5. В валидизационном исследовании при сборе данных необходимо использо­вать процедуры, соответствующие целям исследования. (Существенно.)

Г.5.1. При сборе данных для валидиза­ции исследователь, интерпретирующий результаты теста, должен располагать только той информацией об испытуемых, которая обычно будет доступна при практическом использовании тестов. Если существует некоторая возможная конта­минация, связанная с априорным пред­ставлением об испытуемых, в руководстве должно быть обсуждено влияние этого фактора на результаты исследования. (Существенно.)

Г.6. Любой статистический анализ ва­лидности по критерию в руководстве дол­жен даваться в форме, по которой поль­зователь мог бы определить, с какой сте­пенью доверительности можно принять утверждения или предсказания относи­тельно индивида. (Существенно.)

Г.6.1. В докладе о валидности по кри­терию должна быть отражена полная ин­формация о выполненном статистическом анализе. Следует включить, кроме основ­ных описательных статистик (средних и стандартных отклонений), еще один или несколько показателей: а) один или более коэффициент корреляции известного вида; б) описание эффективности, с кото­рой тест различает группы по критерию; в) таблицы ожиданий; г) графики зависи­мости между тестом и критерием. (Существенно.)

Комментарий. Полная информа­ция включает данные о надежности, тес­ноте и характере зависимости. В корреля­ционное понятие включается информация о статистической значимости и величине коэффициента корреляции, а также о рег­рессионном уравнении.

Сообщение о различии между средни­ми групп само по себе не дает адекватной информации о валидности: если дисперсия большая, классификация может быть не­точной, даже если средние различаются существенно. Теснота связи может быть представлена описанием количества оши­бочной классификации или совмещений групп. Таблицы ожиданий могут дать информацию о характере предсказания.

В общем, так как руководство часто пред­назначено для пользователей, имеющих слабую статистическую подготовку, дол­жны быть приняты все меры для ясного со­общения валидности.

Г.6.1.1. Коэффициент валидности дол­жен быть дополнен сообщением о пара­метрах уравнения регрессий и стандарт­ной ошибкой оценки. (Очень желатель­но.)

Комментарий. Необходимая ин­формация может быть представлена в таб­лице ожиданий, показывающей величину возможных оценок по критерию для каж­дого балла (или группы баллов) по тестам. Очень полезна стандартная ошибка оцен­ки для различных точек шкалы предсказа­ний.

Г.6.2. Если валидность теста выявляет­ся сравнением групп, различающихся по критерию, то в руководстве к тесту необ­ходимо сообщить, различаются ли группы, и насколько различаются, по другим пере­менным. (Очень желательно.)

Комментарий. Так как группы, различающиеся по критерию, могут также резко различаться и в других отношениях, то тест может различать качества, от­личающиеся от подразумеваемых. Напри­мер, типы умственного расстройства связаны с возрастом, образованием и дли­тельностью госпитализации. Это всегда должно быть учтено при оценке полезно­сти теста для диагностики.

Г.6.2.1. Если тест предназначен для дифференциального анализа, то в руко­водстве должны быть приведены доказа­тельства способности теста отнести ин­дивидов в диагностические группы, а не только отделять диагносцируемые груп­пы от популяции нормальных. (Суще­ственно.)

Комментарий. Когда тест реко­мендован для отнесения индивидов в дис­кретные категории, то φ-коэффициенты или дискриминативные функции должны быть дополнены таблицами оценок ошибочных решений. Например, для каждой категории должен быть определен про­цент лиц, ошибочно исключаемых из нее. Такие проценты должны сравниваться с базовыми оценками, т. е. с процентами правильной классификации, установлен­ными при максимальном знании объема диагносцируемых категорий.

Г.6.3. Метод статистического анализа должен выбираться с учетом характерис­тик полученных данных и выдвинутых ги­потез. (Существенно.)

Комментарий. Полученные дан­ные могут очень незначительно отличать­ся от первоначально предполагаемых ха­рактеристик. Однако даже небольшие от­клонения от выдвинутых гипотез могут приводить к серьезным ошибкам. Напри­мер, при использовании предсказаний, ос­нованных на предположении о двумерном нормальном распределении, возможна се­рьезная переоценка средней деятельности кандидатов с высокими баллами, если дан­ные заметно несимметричны.

В подобных случаях валидность более точно определяется методом, не основан­ным на предположении о двумерном рас­пределении.

Г.6.4. Если коэффициенты корреляции скорректированы с учетом ограниченнос­ти в ранге или ослабления, то должна быть представлена полная информация о таких поправках. При этом проверка значимос­ти должна быть проведена для коэффици­ентов корреляции без поправок. (Суще­ственно.)

Комментарий. Поправки долж­ны вноситься только к вычисленным ко­эффициентам. Обычно не следует делать последовательных поправок, например по­правки на ослабление к коэффициенту, уже скорректированному с учетом ограни­чения в ранге. Цепочки поправок могут быть полезны при рассмотрении возмож­ностей дальнейших исследований, но эти результаты не должны представляться как оценки корреляций в популяции.

Г.6.5. Если валидизации подвергается батарея тестов, в руководстве необходимо отразить валидность суммарной оценки, а также следует вычислить «вес» каждого теста в итоговой оценке. (Существенно.)

Г.6.6. Если весовое объединение тес­тов в батареи основано на регрессионных коэффициентах, отрицательные веса сле­дует использовать только после проверки на перекрестную валидность в больших выборках и только в том случае, когда их использование не скажется отрицательно (и следовательно, не будет несправедли­вым) на одной или нескольких подгруппах тестируемой популяции. (Существен­но.)

Г.6.7. Если предположено, что реше­ние должно быть основано на сложном не­линейном объединении баллов, необходи­мо показать, что такое объединение име­ет большую валидность, чем простое ли­нейное объединение, что уравнения могут быть логически объяснены и процедуры объединения баллов подвергались пере­крестной валидизации. (Существенно.)

Г.6.8. По мере возможности пользова­телю теста, продолжительное время рабо­тающему с ним, следует разработать про­цедуры отбора данных для дальнейшего исследования. (Желательно.)

Комментарий. Данные о валид­ности могут устареть, на зависимость между выполнением теста и реальной де­ятельностью могут повлиять многие фак­торы: изменение характеристик популя­ции, источники ее пополнения, экономи­ческие и организационные характеристи­ки. Более того, исследования валидности часто основ<

Наши рекомендации