Г. Валидность (обоснованность) теста
Вопросы валидности — это вопросы о том, какие и насколько обоснованные выводы могут быть сделаны на основе тестовых оценок. Вопросы, относящиеся к валидности, могут быть сведены к двум: 1) какие выводы можно сделать о том, что измерялось тестом; 2) какие выводы могут быть сделаны о реальном поведении человека, отличающемся от наблюдаемого при тестировании.
1-й вопрос выясняет внутреннюю природу самого измерения. Тест, как измерительный инструмент, является операционализацией психического свойства или специфической области умения или знания. В этом плане существенной проблемой является получение заключений о полноте отражения тестовыми баллами этой области, и в этом смысле следует говорить о внутренней (конструктной) валидности.
2-м вопросом выясняется полезность тестового измерения в качестве предсказателя поведения. В этом плане существенной проблемой является получение заключения о том, насколько тестовые баллы связаны с некоторой другой деятельностью, и в этом смысле следует говорить о внешней (критериальной) валидности.
Важно отметить, что валидность не измеряется, о ней только судят. В руководстве могут быть приведены коэффициенты валидности, но о валидности теста для конкретного его использования судят по набору коэффициентов. Следовательно, валидность есть нечто такое, о чем судят как об удовлетворительном или неудовлетворительном для вынесения соответствующего суждения.
Виды валидности зависят от видов заключений, которые желательно извлечь из тестовых оценок. Традиционно описывают три взаимозависимых типа интерпретации заключений, обобщающих подавляющее большинство возможностей применения тестов: валидность по критерию, содержательная и конструктная. Валидность по критерию может быть предсказательной и конкурентной.
Эти аспекты могут рассматриваться независимо друг от друга, однако независимость эта условна. Они связаны операционально и логически, в конкретной ситуации редко бывает, чтобы лишь один из них был важен. Полное исследование теста часто включает информацию обо всех видах валидности.
Валидность по критерию и ее виды.Данная форма валидности используется, когда хотят сделать вывод о связи тестовой оценки индивида с независимыми от теста внешними параметрами, называемыми критерием. Предсказательная валидность отражает степень, с которой будущий уровень по критерию может быть предсказан предшествующей деятельностью по тесту. Конкурентная валидность отражает степень, с которой тест может быть использован для оценки у индивида актуального уровня по критерию. Это различие важно. Предсказательная валидность включает отрезок времени, в течение которого может нечто случиться (например, люди обучаются, приобретают опыт, подвергаются лечению). Конкурентная валидность отражает только статус индивида в фиксированное время. При соответствующих условиях данные о конкурентной валидности могут быть использованы для оценки предсказательной валидности теста. Однако конкурентная валидность не может использоваться взамен предсказательной без соответствующего логического обоснования. Для многих применений тестов (решение по отбору, назначению лечения и др.) предсказательная валидность дает возможность определить целесообразность использования теста или батареи тестов в каждом отдельном случае. Другие формы валидности не заменяют валидность по критерию. В руководствах к тестам, разработанным в предсказательных целях, а также предназначенным для диагноза, должны быть отражены исследования валидности по критерию. В противоположном случае такие тесты могут рассматриваться только как исследовательские версии.
О сомнительности отдельного вычислительного коэффициента валидности говорят многие факторы. Условия исследования валидности никогда точно не повторяются. Быстрое изменение условий может ограничить точность и полезность предсказательного исследования. Логика предсказательной валидизации предполагает, что условия, существующие в начале испытаний, будут существовать и после завершения исследования.
Логика валидности по критерию предполагает валидность самого критерия. Очень часто тесты валидизируются относительно доступного критерия вне соответствующего исследования самого критерия. Ценность исследования валидности по критерию зависит от пригодности и качества измерения по данному критерию. В прикладных исследованиях критерий должен выбираться в соответствии с изучаемой проблемой, а тест или другое средство оценивания должны выбираться относительно данного критерия. Если исследование предназначено в первую очередь для улучшения представлений о том, что измеряется тестом, критерии должны избираться на основе заключений о природе конструкта, отражаемого тестовыми оценками. В любом случае адекватность исследования зависит от адекватности критерия.
Логика валидности по критерию предполагает, что выборка полностью репрезентативна для популяции, для которой позднее будут делаться заключения. На практике выборки часто не являются репрезентативными, например, из-за ограниченного объема, предвзятого отбора или утомления испытуемых до завершения валидизационного исследования.
Во многих практических ситуациях валидизационные исследования не могут охватить адекватного числа случаев, и исследователи вынуждены публиковать лучшее из того, что они могут при имеющихся данных. Видимо, лучше попытаться исследовать валидность по критерию хотя бы каким-то образом, чем принять совершенно непроверенную гипотезу — результаты неадекватного исследования могут ввести в заблуждение. Особенно сомнительны результаты валидизационных исследований при резко ограниченном ранге или малом количестве испытуемых.
Содержательная валидность.Свидетельства о ней требуются, когда пользователь теста желает оценить, как индивид будет действовать в ситуации, которую по предположению будет представлять тест. Содержательной валидностью обычно характеризуются тесты умений и знаний, опросники личности, поведенческие опросники или средства измерений различных способностей. Данное обсуждение относится к наиболее типичному случаю — тестам достижения.
Чтобы выразить содержательную валидность совокупности тестовых баллов, необходимо показать, что поведение испытуемых при тестировании является репрезентативной выборкой многих видов поведения в желаемой области деятельности. Любое исследование содержательной валидности требует, чтобы составитель или пользователь теста определил свои цели и исчерпывающе определил область деятельности в свете этих целей. Определение обычно относится к результатам учения, а не к процессу, в ходе которого достигается или обнаруживается научение. Оно должно быть достаточно детальным и четким, чтобы отразить степень, с которой компоненты деятельности образуют целостную область.
Конструктная валидность.Психологический конструкт является теоретической идеей, разработанной для объяснения и организации некоторых аспектов существующего знания. Такие термины, как «тревожность», «способность к канцелярскому труду» или «подготовленность по чтению», отражают конструкт, но конструкт может обозначать больше, чем его название. Иногда необходимо постулировать несколько различных конструктов, чтобы объяснить дисперсию данной совокупности тестовых баллов. Более того, могут потребоваться различные конструкты для объяснения дисперсии различных тестов того же типа, или отдельный тест может отразить данные о нескольких конструктах. Конструктная валидность имеет место при оценивании теста или другой совокупности операций в свете рассматриваемого конструкта. Суждения по конструктной валидности полезны, когда составитель или пользователь теста желает знать об измеренном психологическом свойстве больше, чем позволяет отдельный коэффициент валидности по критерию, и особенно когда необходимо усовершенствовать измерение для научного изучения конструкта.
Свидетельства о конструктной валидности нельзя получить в одном отдельном исследовании — суждения о ней основаны на совокупности исследовательских результатов. Вначале исследователь формулирует гипотезы о различии между лицами с высокими и низкими результатами по тесту. Такие гипотезы в совокупности образуют предварительную теорию конструкта. При полном изучении тест выступает в качестве зависимой переменной в одних исследованиях и в качестве независимой — в других. Некоторые гипотезы могут быть «контргипотезами» конкурирующих теорий или интерпретаций.
Гипотезы и теоретические формулировки ведут к некоторым предсказаниям о том, как люди с различными баллами по тесту будут выполнять тест или проявлять себя в некоторых определенных ситуациях. Если теория исследователя верна, большинство предсказаний должно подтвердиться. Если этого не случится, исследователь может пересмотреть определение конструкта или перестроить тест так, чтобы он стал лучшей мерой подразумеваемого конструкта. Путем последовательной верификации, модификации или отклонения гипотез исследователь все глубже проникает в сущность измеряемого тестом свойства.
Доказательства конструктной валидности можно получить в ходе разработки самого теста. Хотя доказательства конструктной валидности могут быть получены на основе серии исследований по внешним критериям, важно отметить, что они неадекватны доказательствам пригодности конструкта для других гипотез.
Составитель теста или любое лицо, исследующее валидность, должны представить по мере возможности максимум информации о валидности, чтобы пользователь мог оценить тест по отношению к собственным целям. В руководстве к тесту необходимо отразить данные, позволяющие пользователю оценить пригодность содержания заданий, установить, является ли тест приемлемой мерой рассматриваемого конструкта, и решить, характеризуется ли тест предсказательной валидностью в других подобных ситуациях.
Г.1. В руководстве должна быть указана валидность теста для всех видов заключений, для которых он рекомендуется. Если его валидность для некоторой предполагаемой интерпретации не была изучена, этот факт должен быть указан. (Существенно.)
Комментарий. Исследование валидности является частью разработки теста; пользователь нуждается в том, чтобы составитель сообщил об этом подробно в руководстве к тесту. По меньшей мере, в руководстве должны быть отражены исследования самого составителя или других исследователей, опубликованные в других изданиях. Предпочтительно, чтобы в руководстве были отражены отдельные исследования и представлены обобщенные данные о валидности для различных видов интерпретаций или выводов.
Г.1.1. Данные о валидности должны быть сделаны на основании всех типов тестовой валидности. (Существенно.)
Комментарий. Неправильно использовать выражение «валидность теста», не указывая вид валидности. Не существует тестов, валидных для всех целей или во всех ситуациях, а также для всех групп индивидов. Любое исследование валидности относится к некоторым из возможных применений или видов теста, получаемых на основе баллов.
Если тест может быть неправильно использован в некоторых областях применения, в руководстве должны быть специальные предостережения.
Г.1.2. Если предполагается интерпретация не только баллов субтеста, но и различных индексов, в руководстве должны быть помещены свидетельства, подтверждающие правомерность такой интерпретации. (Существенно.)
Г.1.2.1. Разработчик должен предупредить пользователя о невозможности рассматривать ответы на отдельные задания теста в качестве основы для составления заключений об испытуемом. Если подобная оценка заложена в структуре теста, то в руководстве должно быть приведено подробное обоснование такого применения.
Г.1.3. Чтобы обеспечить правильную интерпретацию баллов в течение длительного времени, валидность предполагаемых интерпретаций должна периодически перепроверяться и результаты сообщаться в последующем руководстве. (Очень желательно.)
Комментарий. Требования к труду, условиям работы и людям, работающим по данной профессии, с течением времени часто существенно изменяются. Подобным образом изменяется смысл клинических категорий, типы медикаментозного лечения, цели и содержание обучения. Следовательно, пользователь должен быть в состоянии судить о том, устарел тест или нет.
Г.1.3.1. При изменении факторов, которые могли повлиять на результаты выполнения или на валидность предполагаемой интерпретации теста, в случае если для изменившихся условий не произведена ревалидизация, тест должен быть исключен из общего употребления и распространяться среди лиц, которые будут производить изучение его валидности. (Очень желательно.)
Г.1.4. Корреляции баллов заданий с общим тестовым баллом могут рассматриваться только как показатели дискриминативности заданий, не могут рассматриваться или использоваться в качестве коэффициентов их валидности. (Существенно.)
Комментарий. Коэффициенты дискриминативности заданий полезны при суждении о конструктной валидности, и эту информацию следует включать в руководство к тесту. Однако такие коэффициенты являются не показателями валидности теста, а только мерой внутренней согласованности.
Г.2. Выборка, использованная в исследовании валидности, и условия, при которых проводилось тестирование, должны быть подробно описаны, чтобы пользователь мог судить, распространима ли сообщенная валидность на его ситуацию. (Существенно.)
Г.2.1. В руководстве к тесту следует указать все параметры, определяющие состав валидационной выборки. Выборка должна быть описана по тем переменным, о которых известно, что они влияют на валидность: возраст, пол, социоэкономический статус, национальное происхождение, также другие демографические и психологические характеристики. (Существенно.)
Комментарий. Если валидационные исследования используют пациентов в качестве испытуемых, то важно указать диагнозы. Если возможно, то необходимо показать обоснованность диагностики (строгость условий диагностики). Для тестов, используемых в индустрии, должен быть описан трудовой статус, профессиональный опыт, пол и национальный состав выборки. Для школьных тестов уместной является информация о характеристиках популяции или принципах отбора.
Г.2.2. Доказательства валидности тестов должны быть получены для субъектов, которые по возрасту, образованию или профессиональной подготовленности соответствуют лицам, для которых тест рекомендуется. В руководстве должны быть отражены отклонения от этого требования. (Существенно.)
Комментарий. Информация о валидности тестов, предназначенных для профориентации, должна в общем определяться на субъектах, тестированных незадолго до образовательного или профессионального выбора или сразу после него.
Вопросник интересов, стандартизированный на мужчинах, работающих по исследуемой профессии, не обеспечивает использование вопросника в профориентации учащихся средней школы, поскольку полученные шкалы не дифференцируют группы учащихся. Лучшее доказательство было получено после проверки вопросника на учащихся с определением характера из последующей работы и установлением связи между данными вопросника и последующей профессией.
Если вопросник интересов использует критерий приобретения или неприобретения некоторой профессии, в выборке, использованной для его валидизации, должны быть только лица со способностями, соответствующими данной группе профессий.
Г.2.3. При описании выборки должны быть приведены основные статистические данные, включая число наблюдений (и обоснование наблюдений), меры центральной тенденции вариативности. Следует также отразить особенности распределения, возможно, с мерами асимметрии и эксцесса. (Очень желательно.)
Комментарий. Чем меньше объем валидационной выборки, тем менее надежны статистические данные. Когда число наблюдений очень мало, нулевой коэффициент корреляции может привести к ошибочному отклонению валидного теста.
Г.2.4.Если тестовые баллы в валидационной выборке имеют распределение, существенно отличающееся от распределения баллов в группе, для которой он будет обычно использоваться, то данные, основанные на этих баллах, включая оценки параметров популяции, следует интерпретировать с большой осторожностью. При сообщении оценок параметра необходимо привести исходные статистические данные, а также характеристики распределения, использованные при введении новой оценки, и использованные статистические процедуры. (Существенно.)
Комментарий. Пользователю руководства следует предоставить возможность оценить любое искажение, возникающее вследствие нетипичности характера выборки. Предположения, обусловливающие причины такого искажения, часто игнорируются, вследствие этого невозможно определить степень и направление ошибок. Несмотря на эти трудности, часто необходима оценка подходящей статистики. Например, коэффициент валидности должен отразить предсказательную способность в группе, к которой тест будет применяться.
Г.2.5. Если тест способностей предназначен для учебного или профессионального отбора, его валидность должна устанавливаться на субъектах, заинтересованных в хорошем выполнении заданий. Если же они являются добровольцами или пришли к выводу, что результаты выполнения теста не будут использованы в принятии решений о них, этот факт должен быть ясно указан (экологическая валидность). (Очень желательно.)
Комментарий. В промышленном отборе для валидности широко используется метод «наличных кандидатов на работу». Обычно он включает тестирование реальных кандидатов, которым указывается, что выполнение теста не влияет на их прием на работу. Мотивационные различия могут повлиять на характер выборки, так как вводят в ситуацию тестирования новую переменную.
Г.2.6. Если валидационная выборка образована на случайно полученных или произвольно присланных пользователями результатах тестирования, этот факт должен быть отражен в руководстве к тесту. Пользователь должен быть предупрежден, что группа не является систематической или случайной выборкой из определенной популяции. Должны быть также указаны возможные отборочные факторы и их предполагаемое влияние на переменные места. (Существенно.)
Комментарий. Хотя вполне целесообразно включать в руководство такие фразы, как «автор и издатель теста будут приветствовать дополнительные данные, полученные при его использовании», крайне трудно адекватно судить о качестве и представительности большинства сообщений о результатах валидизации, основанной на подобных данных.
Г.2.7. Пользователю теста должна быть известна возможность смещения оценок в тестах или тестовых заданиях. По возможности следует изучить вероятные различия валидности по критерию для частных выборок, различающихся по полу, этническому составу или другим признакам, которые могут быть выявлены при тестировании. В руководстве следует сообщить результаты для каждой частной выборки в отдельности или о том, что различия не обнаружены. (Существенно.)
Комментарий. Во многих случаях опубликованные правила требуют, когда это возможно, проводить определение валидности для выборок, отличающихся по национальности, полу и другим демографическим показателям.
Возможны и другие источники различий оценок теста в разных валидационных выборках. Например, расположение теста по изучению ловкости рук на низком столе может вызвать смещение результатов у высоких людей.
Необходимы и другие предосторожности при оценке возможности смещения. Простые различия групповых средних сами по себе не указывают на контаминацию теста. Доказательство дифференциации смещённости тестовых оценок основывается на сравнении коэффициентов корреляции, уравнений регрессий, средних значений и дисперсий каждой переменной.
Пригодными статистическими критериями таких различий являются для любого параметра проверки гипотез об отсутствии различий между группами, например отсутствие различий между коэффициентами корреляций, показателями наклона или пересечения. Другими способами — тем, что один коэффициент корреляции значимо отличается от нуля, а другой не отличается, невозможно доказать предполагаемые различия.
Необходимо учесть, что существуют различные определения чистоты и от принятого определения может зависеть, является ли данная процедура чистой. Более того, имеются статистические и психологические неопределенности относительно некоторых источников наблюдаемых различий в валидности или регрессии. До тех пор пока различия не наблюдаются в достаточно больших выборках и пока отсутствует достаточное теоретическое (психологическое или социологическое) объяснение наблюдаемых различий, любое различие принимается осторожно. Смещение обнаруживается не обязательно для валидности по критерию.
Г.3. Пользователь теста ответственен за изучение данных, подтверждающих его валидность и надежность. Применение тестовых баллов при принятии решений должно опираться на достаточные доказательства. (Существенно.)
Комментарий. Пользователь теста ответственен за понимание и оценивание возможности применения теста в своем исследовании. В случае, если условия стандартизации и проверки на валидность и надежность теста отличаются от тех условий, в которых работает пользователь, на пользователя ложится обязанность провести дополнительные исследования валидности теста для собственного исследования. Свидетельства о валидности необходимы для любого обоснованного принятия решений, а не только тогда, когда их легко получить.
Г.3.1. Пользователи теста ответственны за сбор данных о валидности и надежности используемых методик. (Очень желательно.)
Г.3.2. Если пользователь желает применить тест в ситуации, для которой такое применение ранее не проверено на валидность или для которой не существует подтвержденных доказательств валидности, он несет полную ответственность за валидизацию. (Существенно.)
Комментарий. Тот, кто публикует данные о валидности, должен обеспечить ее доказательства. Зачастую данные о валидности, достаточные для применения тестов, имеются в руководстве к тесту. Если пользователь желает заявить, что валидность является более общей, чем это отражено в руководстве, он несет ответственность за доказательность своего утверждения.
Если пользователь теста существенно изменяет инструкцию, язык, на котором тест написан, или содержание, он должен провести повторную валидизацию применения теста в измененных условиях.