Г. Валидность (обоснованность) теста.
Вопросы валидности — это вопросы о том, какие и насколько обоснованные выводы могут быть сделаны на основе тестовых оценок. Вопросы, относящиеся к валидности, могут быть сведены к двум: 1) какие выводы можно сделать о том, что измерялось тестом; 2) какие выводы могут быть сделаны о реальном поведении человека, отличающемся от наблюдаемого при тестировании.
1-й вопрос выясняет внутреннюю природу самого измерения. Тест, как измерительный инструмент, является операционализацией психического свойства или специфической области умения или знания. В этом плане существенной проблемой является получение заключений о полноте отражения тестовыми баллами этой области, и в этом смысле следует говорить о внутренней (конструктной) валидности.
2-м вопросом выясняется полезность тестового измерения в качестве предсказателя поведения. В этом плане существенной проблемой является получение заключения о том, насколько тестовые баллы связаны с некоторой другой деятельностью, и в этом смысле следует говорить о внешней (критериальной) валидности.
Важно отметить, что валидность не измеряется, о ней только судят. В руководстве могут быть приведены коэффициенты валидности, но о валидности теста для конкретного его использования судят по набору коэффициентов. Следовательно, валидность есть нечто такое, о чем судят как об удовлетворительном или неудовлетворительном для вынесения соответствующего суждения.
Виды валидности зависят от видов заключений, которые желательно извлечь из тестовых оценок. Традиционно описывают три взаимозависимых типа интерпретации заключений, обобщающих подавляющее большинство возможностей применения тестов: валидность по критерию, содержательная и конструктная. Валидность по критерию может быть предсказательной и конкурентной.
Эти аспекты могут рассматриваться независимо друг от друга, однако независимость эта условна. Они связаны операционально и логически, в конкретной ситуации редко бывает, чтобы лишь один из них был важен. Полное исследование теста часто включает информацию обо всех видах валидности.
Валидность по критерию и ее виды.Данная форма валидности используется, когда хотят сделать вывод о связи тестовой оценки индивида с независимыми от теста внешними параметрами, называемыми критерием. Предсказательная валидность отражает степень, с которой будущий уровень по критерию может быть предсказан предшествующей деятельностью по тесту. Конкурентная валидность отражает степень, с которой тест может быть использован для оценки у индивида актуального уровня по критерию. Это различие важно. Предсказательная валидность включает отрезок времени, в течение которого может нечто случиться (например, люди обучаются, приобретают опыт, подвергаются лечению). Конкурентная валидность отражает только статус индивида в фиксированное время. При соответствующих условиях данные о конкурентной валидности могут быть использованы для оценки предсказательной валидности теста. Однако конкурентная валидность не может использоваться взамен предсказательной без соответствующего логического обоснования. Для многих применений тестов (решение по отбору, назначению лечения и др.) предсказательная валидность дает возможность определить целесообразность использования теста или батареи тестов в каждом отдельном случае. Другие формы валидности не заменяют валидность по критерию. В руководствах к тестам, разработанным в предсказательных целях, а также предназначенным для диагноза, должны быть отражены исследования валидности по критерию. В противоположном случае такие тесты могут рассматриваться только как исследовательские версии.
О сомнительности отдельного вычислительного коэффициента валидности говорят многие факторы. Условия исследования валидности никогда точно не повторяются. Быстрое изменение условий может ограничить точность и полезность предсказательного исследования. Логика предсказательной валидизации предполагает, что условия, существующие в начале испытаний, будут существовать и после завершения исследования.
Логика валидности по критерию предполагает валидность самого критерия. Очень часто тесты валидизируются относительно доступного критерия вне соответствующего исследования самого критерия. Ценность исследования валидности по критерию зависит от пригодности и качества измерения по данному критерию. В прикладных исследованиях критерий должен выбираться в соответствии с изучаемой проблемой, а тест или другое средство оценивания должны выбираться относительно данного критерия. Если исследование предназначено в первую очередь для улучшения представлений о том, что измеряется тестом, критерии должны избираться на основе заключений о природе конструкта, отражаемого тестовыми оценками. В любом случае адекватность исследования зависит от адекватности критерия.
Логика валидности по критерию предполагает, что выборка полностью репрезентативна для популяции, для которой позднее будут делаться заключения. На практике выборки часто не являются репрезентативными, например, из-за ограниченного объема, предвзятого отбора или утомления испытуемых до завершения валидизационного исследования.
Во многих практических ситуациях валидизационные исследования не могут охватить адекватного числа случаев, и исследователи вынуждены публиковать лучшее из того, что они могут при имеющихся данных. Видимо, лучше попытаться исследовать валидность по критерию хотя бы каким-то образом, чем принять совершенно непроверенную гипотезу — результаты неадекватного исследования могут ввести в заблуждение. Особенно сомнительны результаты валидизационных исследований при резко ограниченном ранге или малом количестве испытуемых.
Содержательная валидность.Свидетельства о ней требуются, когда пользователь теста желает оценить, как индивид будет действовать в ситуации, которую по предположению будет представлять тест. Содержательной валидностью обычно характеризуются тесты умений и знаний, опросники личности, поведенческие опросники или средства измерений различных способностей. Данное обсуждение относится к наиболее типичному случаю — тестам достижения.
Чтобы выразить содержательную валидность совокупности тестовых баллов, необходимо показать, что поведение испытуемых при тестировании является репрезентативной выборкой многих видов поведения в желаемой области деятельности. Любое исследование содержательной валидности требует, чтобы составитель или пользователь теста определил свои цели и исчерпывающе определил область деятельности в свете этих целей. Определение обычно относится к результатам учения, а не к процессу, в ходе которого достигается или обнаруживается научение. Оно должно быть достаточно детальным и четким, чтобы отразить степень, с которой компоненты деятельности образуют целостную область.
Конструктная валидность.Психологический конструкт является теоретической идеей, разработанной для объяснения и организации некоторых аспектов сушествующего знания. Такие термины, как «тревожность», «способность к канцелярскому труду» или «подготовленность по чтению», отражают конструкт, но конструкт может обозначать больше, чем его название. Иногда необходимо постулировать несколько различных конструктов, чтобы объяснить дисперсию данной совокупности тестовых баллов. Более того, могут потребоваться различные конструкты для объяснения дисперсии различных тестов того же типа, или отдельный тест может отразить данные о нескольких конструктах. Конструктная валидность имеет место при оценивании теста или другой совокупности операций в свете рассматриваемого конструкта. Суждения по конструктной валидности полезны, когда составитель или пользователь теста желает знать об измеренном психологическом свойстве больше, чем позволяет отдельный коэффициент валидности по критерию, и особенно когда необходимо усовершенствовать измерение для научного изучения конструкта.
Свидетельства о конструктной валидности нельзя получить в одном отдельном исследовании — суждения о ней основаны на совокупности исследовательских результатов. Вначале исследователь формулирует гипотезы о различии между лицами с высокими и низкими результатами по тесту. Такие гипотезы в совокупности образуют предварительную теорию конструкта. При полном изучении тест выступает в качестве зависимой переменной в одних исследованиях и в качестве независимой — в других. Некоторые гипотезы могут быть «контргипотезами» конкурирующих теорий или интерпретаций.
Гипотезы и теоретические формулировки ведут к некоторым предсказаниям о том, как люди с различными баллами по тесту будут выполнять тест или проявлять себя в некоторых определенных ситуациях. Если теория исследователя верна, большинство предсказаний должно подтвердиться. Если этого не случится, исследователь может пересмотреть определение конструкта или перестроить тест так, чтобы он стал лучшей мерой подразумеваемого конструкта. Путем последовательной верификации, модификации или отклонения гипотез исследователь все глубже проникает в сущность измеряемого тестом свойства.
Доказательства конструктной валидности можно получить в ходе разработки самого теста. Хотя доказательства конструктной валидности могут быть получены на основе серии исследований по внешним критериям, важно отметить, что они неадекватны доказательствам пригодности конструкта для других гипотез.
Составитель теста или любое лицо, исследующее валидность, должны представить по мере возможности максимум информации о валидности, чтобы пользователь мог оценить тест по отношению к собственным целям. В руководстве к тесту необходимо отразить данные, позволяющие пользователю оценить пригодность содержания заданий, установить, является ли тест приемлемой мерой рассматриваемого конструкта, и решить, характеризуется ли тест предсказательной валидностью в других подобных ситуациях.
Г. 1. В руководстве должна быть указана валидность теста для всех видов заключений, для которых он рекомендуется. Если его валидность для некоторой предполагаемой интерпретации не была изучена, этот факт должен быть указан. (Существенно.)
Комментарий. Исследование валидности является частью разработки теста; пользователь нуждается в том, чтобы составитель сообщил об этом подробно в руководстве к тесту. По меньшей мере, в руководстве должны быть отражены исследования самого составителя или других исследователей, опубликованные в других изданиях. Предпочтительно, чтобы в руководстве были отражены отдельные исследования и представлены обобщенные данные о валидности для различных видов интерпретаций или выводов.
Г. 1.1. Данные о валидности должны быть сделаны на основании всех типов тестовой валидности. (Существенно.)
Комментарий. Неправильно использовать выражение «валидность теста», не указывая вид валидности. Не существует тестов, валидных для всех целей или во всех ситуациях, а также для всех групп индивидов. Любое исследование валидности относится к некоторым из возможных применений или видов теста, получаемых на основе баллов.
Если тест может быть неправильно использован в некоторых областях применения, в руководстве должны быть специальные предостережения.
Г. 1.2. Если предполагается интерпретация не только баллов субтеста, но и различных индексов, в руководстве должны быть помещены свидетельства, подтверждающие правомерность такой интерпретации. (Существенно.)
Г. 1.2.1. Разработчик должен предупредить пользователя о невозможности рассматривать ответы на отдельные задания теста в качестве основы для составления заключений об испытуемом. Если подобная оценка заложена в структуре теста, то в руководстве должно быть приведено подробное обоснование такого применения.
Г. 1.3. Чтобы обеспечить правильную интерпретацию баллов в течение длительного времени, валидность предполагаемых интерпретаций должна периодически перепроверяться и результаты сообщаться в последующем руководстве. (Очень желательно.)
Комментарий. Требования к труду, условиям работы и людям, работающим по данной профессии, с течением времени часто существенно изменяются. Подобным образом изменяется смысл клинических категорий, типы медикаментозного лечения, цели и содержание обучения. Следовательно, пользователь должен быть в состоянии судить о том, устарел тест или нет.
Г. 1.3.1. При изменении факторов, которые могли повлиять на результаты выполнения или на валидность предполагаемой интерпретации теста, в случае если для изменившихся условий не произведена ревалидизация, тест должен быть исключен из общего употребления и распространяться среди лиц, которые будут производить изучение его валидности. (Очень желательно.)
Г. 1.4. Корреляции баллов заданий с общим тестовым баллом могут рассматриваться только как показатели дискриминативности заданий, не могут рассматриваться или использоваться в качестве коэффициентов их валидности. (Существенно.)
Комментарий. Коэффициенты дискриминативности заданий полезны при суждении о конструктной валидности, и эту информацию следует включать в руководство к тесту. Однако такие коэффициенты являются не показателями валидности теста, а только мерой внутренней согласованности.
Г.2. Выборка, использованная в исследовании валидности, и условия, при которых проводилось тестирование, должны быть подробно описаны, чтобы пользователь мог судить, распространима ли сообщенная валидность на его ситуацию. (Существенно.)
Г.2.1. В руководстве к тесту следует указать все параметры, определяющие состав валидационной выборки. Выборка должна быть описана по тем переменным, о которых известно, что они влияют на валидность: возраст, пол, социоэкономический статус, национальное происхождение, также другие демографические и психологические характеристики. (Существенно.)
Комментарий. Если валидационные исследования используют пациентов в качестве испытуемых, то важно указать диагнозы. Если возможно, то необходимо показать обоснованность диагностики (строгость условий диагностики). Для тестов, используемых в индустрии, должен быть описан трудовой статус, профессиональный опыт, пол и национальный состав выборки. Для школьных тестов уместной является информация о характеристиках популяции или принципах отбора.
Г.2.2. Доказательства валидности тестов должны быть получены для субъектов, которые по возрасту, образованию или профессиональной подготовленности соответствуют лицам, для которых тест рекомендуется. В руководстве должны быть отражены отклонения от этого требования. (Существенно.)
Комментарий. Информация о валидности тестов, предназначенных для профориентации, должна в общем определяться на субъектах, тестированных незадолго до образовательного или профессионального выбора или сразу после него.
Вопросник интересов, стандартизированный на мужчинах, работающих по исследуемой профессии, не обеспечивает использование вопросника в профориентации учащихся средней школы, поскольку полученные шкалы не дифференцируют группы учащихся. Лучшее доказательство было получено после проверки вопросника на учащихся с определением характера из последующей работы и установлением связи между данными вопросника и последующей профессией.
Если вопросник интересов использует критерий приобретения или неприобретения некоторой профессии, в выборке, использованной для его валидизации, должны быть только лица со способностями, соответствующими данной группе профессий.
Г.2.3. При описании выборки должны быть приведены основные статистические данные, включая число наблюдений (и обоснование наблюдений), меры центральной тенденции вариативности. Следует также отразить особенности распределения, возможно, с мерами асимметрии и эксцесса. (Очень желательно.)
Комментарий. Чем меньше объем валидационной выборки, тем менее надежны статистические данные. Когда число наблюдений очень мало, нулевой коэффициент корреляции может привести к ошибочному отклонению валидного теста.
Г.2.4. Если тестовые баллы в валидационной выборке имеют распределение, существенно отличающееся от распределения баллов в группе, для которой он будет обычно использоваться, то данные, основанные на этих баллах, включая оценки параметров популяции, следует интерпретировать с большой осторожностью. При сообщении оценок параметра необходимо привести исходные статистические данные, а также характеристики распределения, использованные при введении новой оценки, и использованные статистические процедуры. (Существенно.)
Комментарий. Пользователю руководства следует предоставить возможность оценить любое искажение, возникающее вследствие нетипичности характера выборки. Предположения, обусловливающие причины такого искажения, часто игнорируются, вследствие этого невозможно определить степень и направление ошибок. Несмотря на эти трудности, часто необходима оценка подходящей статистики. Например, коэффициент валидности должен отразить предсказательную способность в группе, к которой тест будет применяться.
Г.2.5. Если тест способностей предназначен для учебного или профессионального отбора, его валидность должна устанавливаться на субъектах, заинтересованных в хорошем выполнении заданий. Если же они являются добровольцами или пришли к выводу, что результаты выполнения теста не будут использованы в принятии решений о них, этот факт должен быть ясно указан (экологическая валидность). (Очень желательно.)
Комментарий. В промышленном отборе для валидности широко используется метод «наличных кандидатов на работу». Обычно он включает тестирование реальных кандидатов, которым указывается, что выполнение теста не влияет на их прием на работу. Мотивационные различия могут повлиять на характер выборки, так как вводят в ситуацию тестирования новую переменную.
Г.2.6. Если валидационная выборка образована на случайно полученных или произвольно присланных пользователями результатах тестирования, этот факт должен быть отражен в руководстве к тесту. Пользователь должен быть предупрежден, что группа не является систематической или случайной выборкой из определенной популяции. Должны быть также указаны возможные отборочные факторы и их предполагаемое влияние на переменные места. (Существенно.)
Комментарий. Хотя вполне целесообразно включать в руководство такие фразы, как «автор и издатель теста будут приветствовать дополнительные данные, полученные при его использовании», крайне трудно адекватно судить о качестве и представительности большинства сообщений о результатах валидизации, основанной на подобных данных.
Г.2.7. Пользователю теста должна быть известна возможность смещения оценок в тестах или тестовых заданиях. По возможности следует изучить вероятные различия валидности по критерию для частных выборок, различающихся по полу, этническому составу или другим признакам, которые могут быть выявлены при тестировании. В руководстве следует сообщить результаты для каждой частной выборки в отдельности или о том, что различия не обнаружены. (Существенно.)
Комментарий. Во многих случаях опубликованные правила требуют, когда это возможно, проводить определение валидности для выборок, отличающихся по национальности, полу и другим демографическим показателям.
Возможны и другие источники различий оценок теста в разных валидационных выборках. Например, расположение теста по изучению ловкости рук на низком столе может вызвать смещение результатов у высоких людей.
Необходимы и другие предосторожности при оценке возможности смещения. Простые различия групповых средних сами по себе не указывают на контаминацию теста. Доказательство дифференциации смещенности тестовых оценок основывается на сравнении коэффициентов корреляции, уравнений регрессий, средних значений и дисперсий каждой переменной.
Пригодными статистическими критериями таких различий являются для любого параметра проверки гипотез об отсутствии различий между группами, например отсутствие различий между коэффициентами корреляций, показателями наклона или пересечения. Другими способами — тем, что один коэффициент корреляции значимо отличается от нуля, а другой не отличается, невозможно доказать предполагаемые различия.
Необходимо учесть, что существуют различные определения чистоты и от принятого определения может зависеть, является ли данная процедура чистой. Более того, имеются статистические и психологические неопределенности относительно некоторых источников наблюдаемых различий в валидности или регрессии. До тех пор пока различия не наблюдаются в достаточно больших выборках и пока отсутствует достаточное теоретическое (психологическое или социологическое) объяснение наблюдаемых различий, любое различие принимается осторожно. Смещение обнаруживается не обязательно для валидности по критерию.
Г.З. Пользователь теста ответственен за изучение данных, подтверждающих его валидность и надежность. Применение тестовых баллов при принятии решений должно опираться на достаточные доказательства. (Существенно.)
Комментарий. Пользователь теста ответственен за понимание и оценивание возможности применения теста в своем исследовании. В случае, если условия стандартизации и проверки на валидность и надежность теста отличаются от тех условий, в которых работает пользователь, на пользователя ложится обязанность провести дополнительные исследования валидности теста для собственного исследования. Свидетельства о валидности необходимы для любого обоснованного принятия решений, а не только тогда, когда их легко получить.
Г.3.1. Пользователи теста ответственны за сбор данных о валидности и надежности используемых методик. (Очень желательно.)
Г.З.2. Если пользователь желает применить тест в ситуации, для которой такое применение ранее не проверено на валидность или для которой не существует подтвержденных доказательств валидности, он несет полную ответственность за валидизацию. (Существенно.)
Комментарий. Тот, кто публикует данные о валидности, должен обеспечить ее доказательства. Зачастую данные о валидности, достаточные для применения тестов, имеются в руководстве к тесту. Если пользователь желает заявить, что валидность является более общей, чем это отражено в руководстве, он несет ответственность за доказательность своего утверждения.
Если пользователь теста существенно изменяет инструкцию, язык, на котором тест написан, или содержание, он должен провести повторную валидизацию применения теста в измененных условиях.
Валидность по критерию.
Г.4. Все меры валидизации по критерию должны быть описаны полно и точно. Критерии должны быть оценены с точки зрения их адекватности, надежности и загрязненности (контаминированности), что следует убедительно подтвердить. Необходимо обратить внимание на значимые аспекты деятельности, которые критериальные меры не отражают, и на посторонние факторы, которые могут оказывать влияние на эти меры. (Существенно.)
Комментарий. Критерии являются формами оценивания и должны соответствовать тем же требованиям, что и разработка любой оценочной техники. При диагностике в области труда и образования критерием может быть тест достижений или перечень трудовых действий, достаточно валидных по содержанию. Оценочные суждения руководителей и педагогов являются критерием более общим, но и более сомнительным по конструктной валидности. Выводы о конструктной валидности оценочных суждений могут быть основаны на высокой их корреляции с результатами деятельности и максимально не зависеть от трудового стажа. При изучении интересов иногда не выясняется, что показывает критерий: удовлетворенность, успешность или длительность изучаемой деятельности. Когда группы по критерию включают лиц данной профессии и когда эти группы сравниваются с людьми вообще, в руководстве должно быть подчеркнуто различие между работой по профессии и успехом или удовлетворенностью ею.
Г.4.1. Особое внимание должно быть обращено на потенциальные источники контаминации критерия; необходимо сообщить о результатах исследования контаминации. (Существенно.)
Комментарий. Результаты таких исследований могут быть неоднозначны, и пользователя надо об этом предупредить. Например, при изучении влияния половых различий на оценку по критерию может обнаруживаться существенная разница между мужчинами и женщинами. Однако этот факт сам по себе не является достаточным свидетельством контаминации критерия: он может отразить фактические половые различия деятельности.
Г.4.2. Когда сообщается валидность теста для предсказаний в сфере профессиональной деятельности, в руководстве должны быть описаны служебные обязанности работников наряду с наименованием выполняемых ими действий. (Очень желательно.)
Комментарий. Принцип заключается в том, что должна даваться информация, на основе которой пользователь мог бы судить о состоятельности критерия. При отсутствии такой информации описание критерия часто является неполным.
Г.4.3. При валидизации по критерию обычно следует рассматривать не один, более общий критерий, а несколько частных, составляющих общий.
Комментарий. В большинстве видов деятельности по выполнению теста деятельность выражается во многих параметрах, которые могут быть независимы. При объединении несвязанных аспектов поведения в единый сложный критерий возможно игнорирование важных зависимостей и тем самым уменьшение способностей пользователей идентифицировать и понимать валидные интерпретации теста.
Отдельные решения часто должны быть приняты на многомерной основе. Тем не менее предпочтительнее найти правило принятия решений для объединенных предсказаний.
Г.4.4. Если валидность теста оценивается по его соответствию психиатрическим суждениям, следует указать квалификацию, опыт и профессиональный статус экспертов, также природу и степень их контактов с пациентами и другие потенциально влияющие факторы. (Очень желательно.)
Комментарий. Например, «параноидная шизофрения, хроническая» лучше, чем просто «шизофрения». Так как типы пациентов, подвергаемых специально диагностической классификации, в некоторой степени зависят от выбора психиатра, должно быть предоставлено развернутое описание каждой диагностической категории, использованной в исследовании валидности.
Г.4.6. Коэффициенты валидности специфичны для ситуаций, в которых они получены. Если в руководстве дано сообщение о валидности для предсказания данного вида конструкта (критерия), необходимо представить материалы, предполагающие границы этого обобщения относительно характеристик популяции или выборки, ситуационных переменных или вариации изменения по критерию. (Очень желательно.)
Г.4.7. Так как критерий является выборочным из всевозможных критериев того же конструкта, валидность должна быть по возможности определена как соответствие этой выборки другим похожим выборкам. Если доказательства по этому вопросу представлены быть не могут, автор на основе суждения по косвенным данным должен это указать и обсудить вероятную степень соответствия выборки другим выборкам. (Очень желательно.)
Комментарий. Если валидность измерена, например, по соответствию теста суждениям психиатров, то должна быть описана степень согласованности между экспертами. Если в качестве критерия использован опубликованный тест достижений, то его соответствие параллельным формам или надежность, сообщенные автором теста, могут быть использованы как основа для оценивания критерия при учете влияния различия между взятой выборкой лиц и исходной выборкой.
Г.4.8. В руководстве должны быть отражены данные о степени полноты и обобщенности информации о валидности. (Очень желательно.)
Г.4.8.1. В руководстве к тесту должны быть сообщены данные о валидности теста относительно каждого критерия, для которого даются рекомендации. Если для некоторой интерпретации валидность не выявлялась, этот факт должен быть ясно указан. (Существенно.)
Комментарий. Если с данным наименованием профессии соотнесен широкий круг обязанностей, пользователей теста следует предупредить о несостоятельности предположения, что только одно сочетание интересов и способностей соотносимо с данной профессией.
Г.4.9. Локальный сбор доказательств валидности по критерию часто более полезен, чем опубликованные данные. В таких случаях в руководстве должен делаться упор на локальные исследования валидности, а пользователи теста должны по возможности проводить такие исследования. (Желательно.)
Г.5. В валидизационном исследовании при сборе данных необходимо использовать процедуры, соответствующие целям исследования. (Существенно.)
Г.5.1. При сборе данных для валидизации исследователь, интерпретирующий результаты теста, должен располагать только той информацией об испытуемых, которая обычно будет доступна при практическом использовании тестов. Если существует некоторая возможная контаминация, связанная с априорным представлением об испытуемых, в руководстве должно быть обсуждено влияние этого фактора на результаты исследования. (Существенно.)
Г.6. Любой статистический анализ валидности по критерию в руководстве должен даваться в форме, по которой пользователь мог бы определить, с какой степенью доверительности можно принять утверждения или предсказания относительно индивида. (Существенно.)
Г.6.1. В докладе о валидности по критерию должна быть отражена полная информация о выполненном статистическом анализе. Следует включить, кроме основных описательных статистик (средних и стандартных отклонений), еще один или несколько показателей: а) один или более коэффициент корреляции известного вида; б) описание эффективности, с которой тест различает группы по критерию; в) таблицы ожиданий; г) графики зависимости между тестом и критерием. (Существенно.)
Комментарий. Полная информация включает данные о надежности, тесноте и характере зависимости. В корреляционное понятие включается информация о статистической значимости и величине коэффициента корреляции, а также о регрессионном уравнении.
Сообщение о различии между средними групп само по себе не дает адекватной информации о валидности: если дисперсия большая, классификация может быть неточной, даже если средние различаются существенно. Теснота связи может быть представлена описанием количества ошибочной классификации или совмещений групп. Таблицы ожиданий могут дать информацию о характере предсказания.
В общем, так как руководство часто предназначено для пользователей, имеющих слабую статистическую подготовку, должны быть приняты все меры для ясного сообщения валидности.
Г.6.1.1. Коэффициент валидности должен быть дополнен сообщением о параметрах уравнения регрессий и стандартной ошибкой оценки. (Очень желательно.)
Комментарий. Необходимая информация может быть представлена в таблице ожиданий, показывающей величину возможных оценок по критерию для каждого балла (или группы баллов) по тестам. Очень полезна стандартная ошибка оценки для различных точек шкалы предсказаний.
Г.6.2. Если валидность теста выявляется сравнением групп, различающихся по критерию, то в руководстве к тесту необходимо сообщить, различаются ли группы, и насколько различаются, по другим переменным. (Очень желательно.)
Комментарий. Так как группы, различающиеся по критерию, могут также резко различаться и в других отношениях, то тест может различать качества, отличающиеся от подразумеваемых. Например, типы умственного расстройства связаны с возрастом, образованием и длительностью госпитализации. Это всегда должно быть учтено при оценке полезности теста для диагностики.
Г.6.2.1. Если тест предназначен для дифференциального анализа, то в руководстве должны быть приведены доказательства способности теста отнести индивидов в диагностические группы, а не только отделять диагносцируемые группы от популяции нормальных. (Существенно.)
Комментарий. Когда тест рекомендован для отнесения индивидов в дискретные категории, то φ-коэффициенты или дискриминативные функции должны быть дополнены таблицами оценок ошибочных решений. Например, для каждой категории должен быть определен процент лиц, ошибочно исключаемых из нее. Такие проценты должны сравниваться с базовыми оценками, т. е. с процентами правильной классификации, установленными при максимальном знании объема диагносцируемых категорий.
Г.6.3. Метод статистического анализа должен выбираться с учетом характеристик полученных данных и выдвинутых гипотез. (Существенно.)
Комментарий. Полученные данные могут очень незначительно отличаться от первоначально предполагаемых характеристик. Однако даже небольшие отклонения от выдвинутых гипотез могут приводить к серьезным ошибкам. Например, при использовании предсказаний, основанных на предположении о двумерном нормальном распределении, возможна серьезная переоценка средней деятельности кандидатов с высокими баллами, если данные заметно несимметричны.
В подобных случаях валидность более точно определяется методом, не основанным на предположении о двумерном распределении.
Г.6.4. Если коэффициенты корреляции скорректированы с учетом ограниченности в ранге или ослабления, то должна быть представлена полная информация о таких поправках. При этом проверка значимости должна быть проведена для коэффициентов корреляции без поправок. (Существенно.)
Комментарий. Поправки должны вноситься только к вычисленным коэффициентам. Обычно не следует делать последовательных поправок, например поправки на ослабление к коэффициенту, уже скорректированному с учетом ограничения в ранге. Цепочки поправок могут быть полезны при рассмотрении возможностей дальнейших исследований, но эти результаты не должны представляться как оценки корреляций в популяции.
Г.6.5. Если валидизации подвергается батарея тестов, в руководстве необходимо отразить валидность суммарной оценки, а также следует вычислить «вес» каждого теста в итоговой оценке. (Существенно.)
Г.6.6. Если весовое объединение тестов в батареи основано на регрессионных коэффициентах, отрицательные веса следует использовать только после проверки на перекрестную валидность в больших выборках и только в том случае, когда их использование не скажется отрицательно (и следовательно, не будет несправедливым) на одной или нескольких подгруппах тестируемой популяции. (Существенно.)
Г.6.7. Если предположено, что решение должно быть основано на сложном нелинейном объединении баллов, необходимо показать, что такое объединение имеет большую валидность, чем простое линейное объединение, что уравнения могут быть логически объяснены и процедуры объединения баллов подвергались перекрестной валидизации. (Существенно.)
Г.6.8. По мере возможности пользователю теста, продолжительное время работающему с ним, следует разработать процедуры отбора данных для дальнейшего исследования. (Желательно.)
Комментарий. Данные о валидности могут устареть, на зависимость между выполнением теста и реальной деятельностью могут повлиять многие факторы: изменение характеристик популяции, источники ее пополнения, экономические и организационные характеристики. Более того, исследования валидности часто основ<