Подразделяется на текущую и прогностическую
Критериальная валидность это комплекс характеристик отражающих соответствие диагноза и прогноза определенному кругу критериев измеряемой способности. Идеякритериальной валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической особенности или формы поведения человека. Процедура обеспечения критериальной валидности заключается в том, что задания для шкал отбираются только тогда, когда они могут отделить релевантные, т.е. собственно критериальные, группы от контрольных. Как правило, критериальная валидность используется в случае множества содержательно мало учитываемых признаков.
Определение критеральной валидности очень существенно при профессиональном отборе. А именно, результаты анализа профессиональной деятельности (профессиографии) выступают критерием валидности профессионального тестирования, на основе которого происходит соотнесение действий и операций, оцениваемых с помощью тестов, с действиями и операциями, входящими в структуру профессиональной деятельности.
Данные вид валидности определяется с единственной, но крайне важной для практики, целью - оценить индивидуальную прогностичность теста. Для этого результаты выполнения теста сопоставляются с непосредственными и независимыми оценками (критериальными ключевыми признаками) того, что должен предсказывать тест. Для измерения этого свойства теста вычисляется коэффициент корреляции тестового результата с внешним критерием.
Подвиды критериальный валидности:
Текущая валидность («по одновременности») отражает способность теста различать испытуемых по изучаемому признаку, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, уровни притязаний, вербальный интеллект, тревожность и т.д. Анализ текущей валидности имеет отношение к установлению соответствия показателей теста к реальному состоянию психологических особенностей испытуемого в данный момент обследования. Определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике.
Прогностическую (предсказывающая) валидность характеризует степень обоснованности и статистической надежности развития исследуемой психологической особенности в будущем. Заключение об этом типе валидности может быть получено, например, путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической валидности является определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития. Однако применить этот метод трудно, так как точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Многие специалисты по психометрии рассматривают прогностическую валидность как наиболее убедительное подтверждение эффективности теста. Прогностическая валидность рассчитывается на основе корреляции результатов теста с некоторым критерием, характеризующим измеряемое свойство, но в более позднее время.
Прогностическая валидность, которая может быть получена при сравнении тестовых оценок с внешним (прагматическим) критерием, который используется спустя определенное время после самого тестирования. Ее основой выступает определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, например, в связи с переходом на другой уровень развития.
Ретроспективная валидность определяется на основе критерия, отражающего событие или состояние качества в прошлом. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения по диагностической пробе и т.д. у лиц с высокими и низкими в данный момент оценками. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.
Критериальная валидность отдельных пунктов опросника.Критериальная валидность может рассчитываться не только в отношении всей шкалы опросника, но и в отношении каждого ее пункта. При этом, если психологический опросник создается только на основании критериальных групп (что в настоящее время практически не встречается), т.е. интерес представляет лишь возможность различения групп без каких-либо психологических обоснований этих различий, то процедура отбора пунктов опросника упрощается – отбираются только те задания, которые значимо коррелируют с критерием. Обычно количество 30 заданий является достаточным для формирования шкалы психологического опросника не основе критериальной валидности.
Конструктная (концептуальная) валидность способность результатов теста репрезентировать исследуемое качество. Степень обоснованности теории, положенной в основу создания данного теста. Она устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста. Эта валидность имеет отношение к теоретическому конструкту самому по себе и включает в себя поиск факторов, объясняющих поведение при выполнении теста. Конструктивная валидность, обоснованная в 1955 г. Л. Кронбахом, дает информацию о степени способности к измерению тестом такой черты, которая была выделена теоретически (или конструктивно). Когда сложно найти единственный адекватный прагматический критерий, может быть выбрана ориентация на гипотезы, сформулированные на основе теоретических предположений об измеряемом свойстве, как о психологическом конструкте. Подтверждение этих гипотез свидетельствует о теоретической обоснованности методики. Сначала надо насколько возможно полно содержательно описать переменную (конструкт), для измерения которой предназначен тест. Это достигается за счет формулирования гипотез о данной переменной, т.е. определение того, с чем она должна коррелировать. После чего данные гипотезы проверяются. Это наиболее эффективный способ валидизации для тестов (прежде всего психологических опросников), для которых установление единственного критерия их обоснованности является затруднительным. Но этот тип валидности является наиболее комплексным и сложным. Вместо одного результата (прежде всего прагматического) необходимо учитывать множество (чаще всего собственно психологических).
Обращение к концептуальной валидности необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа выводов о том, в какой степени испытуемые обладают некоторой определенной психологической характеристикой. Причем измеряемая психологическая характеристика не может быть отождествлена с какой-либо наблюдаемой особенностью поведения, а представляет собой теоретическую концепцию. Примерами таких концепций являются интеллект, черты личности, мотивы, установки и т.д. Конструктивная валидность требует постепенного накопления информации об изменчивости оценок. Фиксируются и анализируются данные, проливающие свет на отдельные черты и природу изучаемого явления, а также условия, воздействующие на его развитие и проявление. Важнейшим аспектом концептуальной валидности является внутренняя согласованность, отражающая то, насколько определенные пункты (т.е. задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одного и того же явления. Одним из компонентов концептуальной валидности является валидность по возрастной дифференциации. Она связана с возрастной динамикой исследуемого качества. Особое место в процедуре определения конструктивной валидности занимает факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными (скрытыми) факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т.е. определить факторный состав и факторные нагрузки результата теста (факторная валидность).
Для проверки на конструктную валидность опеделяется:
Конвергентная (конгруэгтная) валидность есть степень статистической зависимости (скоррелированности) данного теста с другими тестами (факторами, переменными), с которыми он, согласно теоретическим представлениям, должен быть связан.
Дискриминативная валидность есть степень статистической независимости данного теста от других тестов (факторов, переменных), с которыми он, согласно теоретическим представлениям, не должен быть связан.
Факторная валидность – имеет отношение к процедурам многомерного анализа и теории, которая преимущественно используется при конструировании тестов. Считается, что тест обладает факторной валидностью, если он имеет высокую нагруженность по известным факторам. Одним их первых этот тип валидности определил Гилфорд. Предложенная им концепция структуры интеллекта обусловила разработку «тестов одного фактора», что на самом деле является разработкой простой структуры Терстоуна. Этот тип тестов направлен на измерение только одного конкретного фактора.
Факторный анализ – комплекс аналитических методов, позволяющий выявить скрытые признаки, а также причины их возникновения и внутренние закономерности их взаимосвязи. Позволяет найти совокупность факторов, наиболее значимых для данных конкретных экспериментальных условий, а также внутренние закономерности их взаимосвязи.
Содержательная (логическая) валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств. Содержательная валидность означает, что тест является валидным по мнению специалистов. Задания теста оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждение о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения. Широкое использование экспертных оценок сближает содержательную валидность с процедурой определения критериальной валидности. Однако существенным различием между содержательной и критериальной валидностью является то, что экспертные оценки при анализе содержания являются критерием самого теста, в то время как при критериальной валидизации они относятся к испытуемым из выборки стандартизации. Этот прием применяется в основном в тестах достижения. Обычно в тесты достижения включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Важно проверить, чтобы правильные ответы на эти некоторые вопросы свидетельствовали об усвоении всего материала. Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала. На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность «по содержанию» также подходит к критериально-ориентированным тестам. Содержательная валидность свойственна тестам, которые полноценно моделируют ту или иную деятельность, прежде всего в ее предметном аспекте. Т.е. в самом содержании теста отражены ключевые стороны изучаемого психологического явления. Если это явление сложно, то в тесте должны быть представлены все его составляющие элементы. Валидность по содержанию, определяемая путем систематического контроля содержания, должна показывать, насколько полно охватывает тест представленную выборку по совокупности измеряемых параметров. Поэтому необходима эмпирическая проверка теста в соответствии с заложенными в него гипотезами. Содержательная валидность относится прежде всего к тестам достижения, а для тестов способностей и тестов личности этот тип валидности неадекватен и не применяется. Так, психологические опросники не имеют внутреннего сходства с исследуемыми областями поведения (т.е. ситуация самого ответа на пункт опросника обычно не есть ситуация, о которой идет речь в опроснике).
Конкурентная валидность* оценивается по корреляции результатов данного теста с результатами других аналогичных тестов, валидность которых установлена ранее. Показывает насколько результаты измерения некоторой переменной, полученные с помощью данного теста, соответствуют общепринятому показателю этой переменной, измеряющемуся практически одновременно с применением данного теста в некоей нормативной выборке. Эта процедура имеет смысл в том случае, когда конструируемый тест в чем-то превосходит ранее разработанный (например, он может быть более коротким или пользоваться большей популярностью у испытуемых). Кроме того, проверка конкурентной валидности также полезна для установления факта, чего не измеряет тест. Т.е. тест не должен иметь корреляции с другими тестами, измеряющими совершенно иные переменные.
*сходна с конструктной валидностью.
Инкрементная валидность практическая ценность методики при проведении отбора, относится к случаям, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. Понятие «инкрементной валидности» относится к требованию, согласно которому тест должен дополнять уже известную прогностическую валидность, основанную на демографических и социально-экономических данных. Этот тип валидности имеет смысл, поскольку валидные методики должны конкурировать с имеющимся базальным уровнем знаний. При этом, однако, не отбрасывается тот факт, что корреляции тестовых показателей с демографическими переменными являются информативными показателями, так как тесты могут оказаться пристрастными в отношении определенных групп.
Дифференциальная валидность хорошо иллюстрируется тестами интересов. Эти тесты умеренно коррелируют с общей академической успеваемостью, но по-разному для разных дисциплин. Таким образом они обладают дифференциальной валидностью для академической успеваемости в разных областях (тесты интеллекта имеют более высокие корреляции с учеными степенями, но не могут дифференцировать по отдельным дисциплинам).
Эмпирическая валидность – совокупность характеристик валидности теста, полученных сравнительно статистическим способом оценивания. Проводится корреляционный или регрессионный анализ связи двух рядов значений – оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна). Корреляционный анализ позволяет выявить степень сходства между экспериментальными показателями. Регрессионный анализ позволяет осуществить прогнозирование динамики развития какого-либо фактора или признака.
Экспертная (оценочная) эмпирическая валидность особое значение имеет при сравнении итоговых баллов по шкале опросника с оценками испытуемых экспертами. Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений – тестовыми баллами и суммарными баллами экспертной оценки. При этом глобальной мерой согласованности оценщиков может служить коэффициент надежности альфа Кронбаха, при помощи которого рассчитывается каждая оценка испытуемого (того или иного его психологического качества), данная экспертами. Если сама групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности опросника. Для повышения достоверности экспертной оценки следует:
- описывать поведение в терминах наблюдаемого поведения, а не личностных качеств;
- проводить длительное наблюдение;
- использовать не менее десяти экспертов на одного испытуемого.
Надо иметь в виду, что не все личностные особенности могут быть оценены экспертами. В частности, многие пункты, как показано Р.Б.Кеттелом, хотя образуют определенные факторы, но не могут быть проинтерпретированы по своему содержанию внешними наблюдателями (интервал Q-факторов).
В любом случае, экспертные оценки следует дополнять исследованиями конструктуной валидности, обычно основывающимися на анализе разрабатываемого теста по сравнению с другими переменными, а также исследованиями критериальных групп, имеющих по предположению контрольные показатели по рассматриваемой переменной.
Синтетическая валидность содержит информацию о том, могут ли данные о валидности теста быть перенесены с одной ситуации на другую. Это имеет важное значение в тех случаях, когда критерий является комплексным. Представляется ценным иметь в своем распоряжении тест, который предсказывает элементы, связанные с различными критериями.
Внешнюю (очевидную) валидность представление о тесте, сфере его применения, результативности и прогностической ценности, которая возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики, по-другому можно определить как валидность «с первого взгляда». Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, которое формируют психологи. Имеется в виду, что первое впечатление о том, что оценивает тест, соответствует связанному с ним критерию. Это выглядит приемлемым. Но что произойдет, если без проведения каких-бы то ни было эмпирических исследований тест будет назван валидным только на том основании, что его критерий представляется вполне очевидным? Дрене (1975) выступает против такого подхода и приводит примеры того, как тесты, казалось бы, предсказывающие критерий, на самом деле это делать не могли. Так, при отборе водителей используется водительское кресло, но испытания на нем не имеют никакой прогностической валидности. Внешняя валидность предполагает существование прогностической валидности, которая при этом не исследуется эмпирически, а иногда фактически просто отсутствует. Но есть и обратная проблема. Предположим, что имеется тест, обладающий прогностической валидностью, но оцениваемый экспертами как не имеющий отношения к работе или к школьным достижениям. Естественно, что этот тест не будет допущен к использованию в качестве методики для отбора.
Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.
Валидность в экспериментах
Вне психодиагностики в квазиэксперименте различаются четыре типа валидности.
Внутренняя валидность (internal validity). Это понятие относится к тому факту, что наблюдаемые изменения зависимой переменной могут быть приписаны другой переменной как «независимой». Источниками непреднамеренных изменений являются характеристики контрольной и экспериментальной групп, например различия в развитии, отборе, в избирательном участии и выпадении из ситуации эксперимента, а также взаимодействие между этими характеристиками. Факторами, влияющими на характеристики переменных, могут стать сами методики и ситуация эксперимента, например, феномен статистического сведения к среднему, повторное тестирование, тесты, оценивающие различное поведение и события, воздействующие на одни группы и не оказывающие никакого влияния на другие.
Валидность статистического вывода. Для того, чтобы выявить влияние независимых переменных при проведении экспериментов, внутриклеточная вариативность матрицы распределения (различия, между субьектами) должна быть ограничена. Валидность статистического вывода возрастает при увеличении внутриклеточных различий, например, при малой (нерепрезентативной) выборке испытуемых, при разнородности их состава, при неправильном предъявлении независимых переменных или при отсутствии должного контроля за условиями работы контрольной и экспериментальной групп.
Внешняя валидность (external validity). Целью любого исследования является обобщение результатов. Но при взаимодействии двух независимых переменных результаты могут приобретать специфический характер, так что может быть неясен эффект каждой из них. Существуют и другие примеры взаимодействия на уровне статистики — между независимой переменной и специфическим расположением субъектов, особенностями времени и ситуации.
Конструктная валидность. Этот тип валидности имеет отношение как к зависимой, так и к независимой переменной. Эти переменные должны быть адекватно опера-ционализированы. Здесь не должно быть эффектов «не-до...» или «пере...», то есть должно существовать соответствие между сходными и несоответствие между несходными конструктами, причем на содержание конструктов не должны оказывать влияние методы сбора данных. Прямое отношение к конструктной валидности имеют также ожидания экспериментаторов и участников эксперимента, поскольку их гипотезы и предположения могут влиять на результаты.
Особой разновидностью валидности является достоверность. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководясь в ходе теста особой мотивацией, отличающийся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от мотивационных искажений и есть достоверность теста.
Особо остро проблема достоверности стоит в опросниках, которые допускают больше свободы в выборе испытуемым любого варианта ответа. Типичный прием обеспечения достоверности – это наличие в опросниках шкал лжи. Эти шкалы основываются главным образом на феномене социальной желательности – стремлении испытуемых давать в ходе тестирования социально одобряемую информацию.
Шкала лжи состоит из вопросов, касающихся незначительных проступков, которые совершаются большинством людей. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста. Более тонкий вариант – введение шкал «коррекции» (например, в 16PF, ММРI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скореллированным со шкалой коррекции. Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым.
На достоверность влияют еще два психологических фактора в тех ситуациях, когда испытуемый дает самоотчет.
1. Фактор знания. У испытуемого может быть более или менее четкое представление о следующем:
¾ свойственны ли ему в действительности или нет тестируемые поведенческие проявления (с некоторыми ситуациями испытуемый вообще мог не встречаться);
¾ что за личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении;
¾ как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.
2. Факторы «индивидуальной тактики». Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования.
Выполняя опросник, испытуемый всегда находиться в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для самого себя. Испытуемый стремиться подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью (ситуация экспретизы). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится с помощью теста подтвердить свои гипотезы о самом себе (ситуация консультации).