Валидность по критерию
Г.4. Все меры валидизации по критерию должны быть описаны полно и точно. Критерии должны быть оценены с точки зрения их адекватности, надежности и загрязненности (контаминированности), что следует убедительно подтвердить. Необходимо обратить внимание на значимые аспекты деятельности, которые критериальные меры не отражают, и на посторонние факторы, которые могут оказывать влияние на эти меры. (Существенно.)
Комментарий. Критерии являются формами оценивания и должны соответствовать тем же требованиям, что и разработка любой оценочной техники. При диагностике в области труда и образования критерием может быть тест достижений или перечень трудовых действий, достаточно валидных по содержанию. Оценочные суждения руководителей и педагогов являются критерием более общим, но и более сомнительным по конструктной валидности. Выводы о конструктной валидности оценочных суждений могут быть основаны на высокой их корреляции с результатами деятельности и максимально не зависеть от трудового стажа. При изучении интересов иногда не выясняется, что показывает критерий: удовлетворенность, успешность или длительность изучаемой деятельности. Когда группы по критерию включают лиц данной профессии и когда эти группы сравниваются с людьми вообще, в руководстве должно быть подчеркнуто различие между работой по профессии и успехом или удовлетворенностью ею.
Г.4.1. Особое внимание должно быть обращено на потенциальные источники контаминации критерия; необходимо сообщить о результатах исследования контаминации. (Существенно.)
Комментарий. Результаты таких исследований могут быть неоднозначны, и пользователя надо об этом предупредить. Например, при изучении влияния половых различий на оценку по критерию может обнаруживаться существенная разница между мужчинами и женщинами. Однако этот факт сам по себе не является достаточным свидетельством контаминации критерия: он может отразить фактические половые различия деятельности.
Г.4.2. Когда сообщается валидность теста для предсказаний в сфере профессиональной деятельности, в руководстве должны быть описаны служебные обязанности работников наряду с наименованием выполняемых ими действий. (Очень желательно.)
Комментарий. Принцип заключается в том, что должна даваться информация, на основе которой пользователь мог бы судить о состоятельности критерия. При отсутствии такой информации описание критерия часто является неполным.
Г.4.3.При валидизации по критерию обычно следует рассматривать не один, более общий критерий, а несколько частных, составляющих общий.
Комментарий. В большинстве видов деятельности по выполнению теста деятельность выражается во многих параметрах, которые могут быть независимы. При объединении несвязанных аспектов поведения в единый сложный критерий возможно игнорирование важных зависимостей и тем самым уменьшение способностей пользователей идентифицировать и понимать валидные интерпретации теста.
Отдельные решения часто должны быть приняты на многомерной основе. Тем не менее предпочтительнее найти правило принятия решений для объединенных предсказаний.
Г.4.4. Если валидность теста оценивается по его соответствию психиатрическим суждениям, следует указать квалификацию, опыт и профессиональный статус экспертов, также природу и степень их контактов с пациентами и другие потенциально влияющие факторы. (Очень желательно.)
Комментарий. Например, «параноидная шизофрения, хроническая» лучше, чем просто «шизофрения». Так как типы пациентов, подвергаемых специально диагностической классификации, в некоторой степени зависят от выбора психиатра, должно быть предоставлено развернутое описание каждой диагностической категории, использованной в исследовании валидности.
Г.4.6. Коэффициенты валидности специфичны для ситуаций, в которых они получены. Если в руководстве дано сообщение о валидности для предсказания данного вида конструкта (критерия), необходимо представить материалы, предполагающие границы этого обобщения относительно характеристик популяции или выборки, ситуационных переменных или вариации изменения по критерию. (Очень желательно.)
Г.4.7. Так как критерий является выборочным из всевозможных критериев того же конструкта, валидность должна быть по возможности определена как соответствие этой выборки другим похожим выборкам. Если доказательства по этому вопросу представлены быть не могут, автор на основе суждения по косвенным данным должен это указать и обсудить вероятную степень соответствия выборки другим выборкам. (Очень желательно.)
Комментарий. Если валидность измерена, например, по соответствию теста суждениям психиатров, то должна быть описана степень согласованности между экспертами. Если в качестве критерия использован опубликованный тест достижений, то его соответствие параллельным формам или надежность, сообщенные автором теста, могут быть использованы как основа для оценивания критерия при учете влияния различия между взятой выборкой лиц и исходной выборкой.
Г.4.8. В руководстве должны быть отражены данные о степени полноты и обобщенности информации о валидности. (Очень желательно.)
Г.4.8.1. В руководстве к тесту должны быть сообщены данные о валидности теста относительно каждого критерия, для которого даются рекомендации. Если для некоторой интерпретации валидность не выявлялась, этот факт должен быть ясно указан. (Существенно.)
Комментарий. Если с данным наименованием профессии соотнесен широкий круг обязанностей, пользователей теста следует предупредить о несостоятельности предположения, что только одно сочетание интересов и способностей соотносимо с данной профессией.
Г.4.9. Локальный сбор доказательств валидности по критерию часто более полезен, чем опубликованные данные. В таких случаях в руководстве должен делаться упор на локальные исследования валидности, а пользователи теста должны по возможности проводить такие исследования. (Желательно.)
Г.5. В валидизационном исследовании при сборе данных необходимо использовать процедуры, соответствующие целям исследования. (Существенно.)
Г.5.1. При сборе данных для валидизации исследователь, интерпретирующий результаты теста, должен располагать только той информацией об испытуемых, которая обычно будет доступна при практическом использовании тестов. Если существует некоторая возможная контаминация, связанная с априорным представлением об испытуемых, в руководстве должно быть обсуждено влияние этого фактора на результаты исследования. (Существенно.)
Г.6. Любой статистический анализ валидности по критерию в руководстве должен даваться в форме, по которой пользователь мог бы определить, с какой степенью доверительности можно принять утверждения или предсказания относительно индивида. (Существенно.)
Г.6.1. В докладе о валидности по критерию должна быть отражена полная информация о выполненном статистическом анализе. Следует включить, кроме основных описательных статистик (средних и стандартных отклонений), еще один или несколько показателей: а) один или более коэффициент корреляции известного вида; б) описание эффективности, с которой тест различает группы по критерию; в) таблицы ожиданий; г) графики зависимости между тестом и критерием. (Существенно.)
Комментарий. Полная информация включает данные о надежности, тесноте и характере зависимости. В корреляционное понятие включается информация о статистической значимости и величине коэффициента корреляции, а также о регрессионном уравнении.
Сообщение о различии между средними групп само по себе не дает адекватной информации о валидности: если дисперсия большая, классификация может быть неточной, даже если средние различаются существенно. Теснота связи может быть представлена описанием количества ошибочной классификации или совмещений групп. Таблицы ожиданий могут дать информацию о характере предсказания.
В общем, так как руководство часто предназначено для пользователей, имеющих слабую статистическую подготовку, должны быть приняты все меры для ясного сообщения валидности.
Г.6.1.1. Коэффициент валидности должен быть дополнен сообщением о параметрах уравнения регрессий и стандартной ошибкой оценки. (Очень желательно.)
Комментарий. Необходимая информация может быть представлена в таблице ожиданий, показывающей величину возможных оценок по критерию для каждого балла (или группы баллов) по тестам. Очень полезна стандартная ошибка оценки для различных точек шкалы предсказаний.
Г.6.2. Если валидность теста выявляется сравнением групп, различающихся по критерию, то в руководстве к тесту необходимо сообщить, различаются ли группы, и насколько различаются, по другим переменным. (Очень желательно.)
Комментарий. Так как группы, различающиеся по критерию, могут также резко различаться и в других отношениях, то тест может различать качества, отличающиеся от подразумеваемых. Например, типы умственного расстройства связаны с возрастом, образованием и длительностью госпитализации. Это всегда должно быть учтено при оценке полезности теста для диагностики.
Г.6.2.1. Если тест предназначен для дифференциального анализа, то в руководстве должны быть приведены доказательства способности теста отнести индивидов в диагностические группы, а не только отделять диагностируемые группы от популяции нормальных. (Существенно.)
Комментарий. Когда тест рекомендован для отнесения индивидов в дискретные категории, то φ-коэффициенты или дискриминативные функции должны быть дополнены таблицами оценок ошибочных решений. Например, для каждой категории должен быть определен процент лиц, ошибочно исключаемых из нее. Такие проценты должны сравниваться с базовыми оценками, т. е. с процентами правильной классификации, установленными при максимальном знании объема диагностируемых категорий.
Г.6.3. Метод статистического анализа должен выбираться с учетом характеристик полученных данных и выдвинутых гипотез. (Существенно.)
Комментарий. Полученные данные могут очень незначительно отличаться от первоначально предполагаемых характеристик. Однако даже небольшие отклонения от выдвинутых гипотез могут приводить к серьезным ошибкам. Например, при использовании предсказаний, основанных на предположении о двумерном нормальном распределении, возможна серьезная переоценка средней деятельности кандидатов с высокими баллами, если данные заметно несимметричны.
В подобных случаях валидность более точно определяется методом, не основанным на предположении о двумерном распределении.
Г.6.4. Если коэффициенты корреляции скорректированы с учетом ограниченности в ранге или ослабления, то должна быть представлена полная информация о таких поправках. При этом проверка значимости должна быть проведена для коэффициентов корреляции без поправок. (Существенно.)
Комментарий. Поправки должны вноситься только к вычисленным коэффициентам. Обычно не следует делать последовательных поправок, например поправки на ослабление к коэффициенту, уже скорректированному с учетом ограничения в ранге. Цепочки поправок могут быть полезны при рассмотрении возможностей дальнейших исследований, но эти результаты не должны представляться как оценки корреляций в популяции.
Г.6.5. Если валидизации подвергается батарея тестов, в руководстве необходимо отразить валидность суммарной оценки, а также следует вычислить «вес» каждого теста в итоговой оценке. (Существенно.)
Г.6.6. Если весовое объединение тестов в батареи основано на регрессионных коэффициентах, отрицательные веса следует использовать только после проверки на перекрестную валидность в больших выборках и только в том случае, когда их использование не скажется отрицательно (и, следовательно, не будет несправедливым) на одной или нескольких подгруппах тестируемой популяции. (Существенно.)
Г.6.7. Если предположено, что решение должно быть основано на сложном нелинейном объединении баллов, необходимо показать, что такое объединение имеет большую валидность, чем простое линейное объединение, что уравнения могут быть логически объяснены и процедуры объединения баллов подвергались перекрестной валидизации. (Существенно.)
Г.6.8. По мере возможности пользователю теста, продолжительное время работающему с ним, следует разработать процедуры отбора данных для дальнейшего исследования. (Желательно.)
Комментарий. Данные о валидности могут устареть, на зависимость между выполнением теста и реальной деятельностью могут повлиять многие факторы: изменение характеристик популяции, источники ее пополнения, экономические и организационные характеристики. Более того, исследования валидности часто основаны на относительном малом количестве случаев. План систематического сбора данных уже после передачи теста в пользование может быть полезным как для разработки более надежной статистической основы, так и для информации об изменениях тенденций зависимости с течением времени. Продолжение исследования менее необходимо, если исходные данные получены в относительно большой выборке, если хорошо определена основа обобщающей валидности. В этом случае возможно планировать время от времени небольшие повторные исследования вместо продолжительной исследовательской программы.
Г.7. В руководстве должна быть указана разница во времени между проведением теста и сбором данных по критерию. Если данные по критерию собирались в течение некоторого времени, должны указываться даты начала и окончания. (Существенно.)
Комментарий. Валидность может со временем уменьшаться. В профо-риентационном тестировании изменения содержания и средств труда, уровня способностей популяции ориентируемых могут изменять показатели, для которых получена информация о валидности.
Г.7.1. Пользователя теста следует предупредить о необоснованности составления долговременных прогнозов. (Существенно.)
Комментарий. Кратковременные прогнозы намного более валидны, так как менее подвержены влиянию разных факторов.
Г.7.2. Если тест предназначен для долговременных, отстоящих во времени прогнозов, но представлены сравнения только по конкурентному критерию, в руководстве должно быть подчеркнуто, что валидность долговременных предсказаний осталась неопределенной. (Существенно.)
Г.7.3. Если сообщается валидность теста для предсказания оценки по учебному предмету, то должна быть достаточно ясная информация о видах деятельности, необходимой при изучении данных предметов, характере метода обучения и способе измерения деятельности. Если тест был проведен после начала изучения предмета, этот факт должен быть отмечен. (Очень желательно.)