Валидность как одна из основных характеристик теста. Виды валидности.

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решает­ся лишь после того, как установлена достаточная ее надежность, по­скольку ненадежная методика не может быть валидной. Но самая на­дежная методика без знания ее валидности является практически бес­полезной.

Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: "Валидность теста— понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает". Валидность по своей сути — это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность. По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону ва­лидности хочет рассмотреть исследователь, используются и разные способы доказательства. Про­верка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой ме­тодике, т.е. это валидность измерительного инструмента. Такая про­верка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Итак, при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. При праг­матической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что "нечто", измеряемое методикой, имеет связь с оп­ределенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматической, порой оказывается значительно труднее. Выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т.п.) и с ним сравниваются результаты диагностической методики. Ес­ли связь между ними признается удовлетворительной, то делается вы­вод о практической значимости, эффективности, действенности диаг­ностической методики.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. По­этому на ранних стадиях развития тестологии, когда концепция ва­лидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, просто "очевидно";

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет "понять испытуемого";

3) методика рассматривалась как валидная (т.е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) только по­тому, что теория, на основании которой строилась методика, "очень хорошая".

Принятие на веру голословных утверждений о валидности методи­ки не могло продолжаться длительное время. Первые проявления дей­ствительно научной критики развенчали такой подход: начались по­иски научно обоснованных доказательств.

Провести теоретическую валидизацию мето­дики — это доказать, что методика измеряет именно то свойство, ка­чество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагно­стировать умственное развитие детей, надо проанализировать, дейст­вительно ли он измеряет именно это развитие, а не какие-то другие особенности (например личность, характер и т.п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по­средством которых эти психологические явления пытаются познать. Такая проверка показывает, насколько замысел автора и результаты методики совпадают.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и анало­гичной, уже проверенной методиками указывает на то, что разрабо­танная методика измеряет то же психологическое качество, что и эта­лонная. И если новый метод одновременно оказывается более ком­пактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инстру­мент вместо старого.

Однако теоретическая валидность доказывается не только путем сопоставления с родственными показателями, но также и с теми, где исходя из гипотезы значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, ус­тановить степень связи с родственной методикой (конвергентная ва­лидность), а с другой— отсутствие этой связи с методиками, имею­щими другое теоретическое основание (дискриминантная валид­ность).

Гораздо труднее провести теоретическую валидизадию методики тогда, когда указанный путь проверки невозможен. В таких обстоя­тельствах только постепенное накопление разнообразной информации об изучаемом свойстве, анализ теоретических предпосылок и экспе­риментальных данных, значительный опыт работы с методикой по­зволяют раскрыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельно­сти. Но здесь особенно важно, чтобы методика была тщательно про­работана в теоретическом плане, т.е. чтобы имелась прочная, обосно­ванная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и од­нозначной, а название методики соответствует сфере ее применения.

Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных си­туациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.

Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий— показатель проявления изучаемого свойства в повседневной жизни. Таким крите­рием могут быть и успеваемость (для тестов способностей к обуче­нию, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эф­фективность реальной деятельности — рисования, моделирования и т.д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Дж. Тиффин и Э. Маккормик (1968), проведя анализ используемых для доказательства валидности внеш­них критериев, выделяют четыре их типа:

1) критерии исполнения (в их число могут входить такие, как ко­личество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении влияний окружающей среды и других ситуационных переменных на организм и психику человека; замеряются частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным.

Под релевантностью имеется в виду смысловое соответствие ди­агностического инструмента независимому жизненно важному крите­рию. Другими словами, должна быть уверенность в том, что в крите­рии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний крите­рий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение вы­полнять логические действия с определенными объектами, понятия­ми, то и в критерии нужно искать проявление именно этих умений. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполез­ным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенно­стей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, "загрязнить" применяемый крите­рий. Чтобы в какой-то мере избежать этого, следует отбирать для ис­следования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он со­стоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, имеющих аналогичные условия труда.

Когда говорят, что критерий должен иметь статистически досто­верную надежность, это означает, что он должен отражать постоян­ство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации.

Оценка валидности методик может носить количественный и каче­ственный характер. Для вычисления количественного показателя — коэф­фициента валидности — сопоставляются результаты, полученные при применении диагностической методики, с данными тех же лиц, полу­ченными по внешнему критерию. Используются разные виды линей­ной корреляции (по Спирмену, по Пирсону).

Практика показала, что для расчета валидности количество испытуемых не должно быть меньше 50, однако лучше всего более 200.

Коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20—0,30» средним — 0,30—0,50 и высоким — свыше 0,60.

Не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь то­гда, когда доказано, что успех в какой-то деятельности прямо пропор­ционален успеху в выполнении диагностической пробы.

Существуют несколько видов валидности, обусловленных особен­ностями диагностических методик, а также временным статусом внешнего критерия. Однако чаще всего называются сле­дующие:

1. Валидность "no содержанию". Используется, например, в тестах достижений. Обычно в тесты достижений включается не весь матери­ал, который прошли учащиеся, а какая-то его небольшая часть (3—4 вопроса). Валидность "по содержа­нию" также подходит к критериально-ориентированным тестам. Ино­гда этот прием называют логической валидностью.

2. Валидность "по одновременности" (текущая валидность). Опре­деляется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методи­ке.

3. "Предсказывающая"валидность ("прогностическая" валид­ность). Определяется также по внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внеш­ним критерием обычно бывает выраженная в каких-либо оценках спо­собность человека к тому виду деятельности, для которой он оцени­вался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик — предска­занию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после из­мерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

4. "Ретроспективная" валидность. Определяется на основе крите­рия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказа­тельных возможностях методики.

При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду ("по со­держанию", «по одновременности» и т.д.). Желательно также сооб­щать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующе­муся методикой исследователю решить, насколько валиден этот при­ем для той группы, к которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке ме­тодика может обладать высокой валидностью, а в другой — низкой. Поэтому если исследователь планирует использовать методику на вы­борке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.

История проективного метода

Проективные методики представляют собой специфическую, довольно неоднородную группу психодиагностических приемов клинической ориентации. Последнее означает не столько направленность проективных методик на выявление тех или иных аномалий личности, сколько способность методик прогнозировать индивидуальный стиль поведения, переживания и аффективного реагирования в значимых или конфликтных ситуациях, выявлять неосознаваемые аспекты личности.

История проективных методик – это и хронология, отмечающая особо важные вехи развития проективной техники, и история развития проективного метода как целостного подхода к пониманию природы личности и способов ее экспериментального изучения.

Счет проективным методикам ведется с теста словесных ассоциаций К. Юнга, созданного им в 1904-1905 годах. К. Юнгу принадлежат открытие и доказательство феномена, лежащего в основе всех проективных методик, а именно возможность посредством косвенного воздействия на значимые области-переживания и поведения человека («комплексы») вызывать пертурбации в экспериментальной деятельности. К. Юнг показал таким образом, что бессознательные переживания личности доступны объективной диагностике. Впоследствии разнообразные варианты ассоциативного теста применялись для выявления чувства вины (детекторы лжи М. Вертгаймера и А. Р. Лурия), асоциальных вытесненных влечений (Дж. Брунер, Р. Лазарус, Л. Постмен, Ч. Эриксен и др.), для отграничения нормы от патологии (Г. Кент и А. Розанов). Тесты незаконченных предложений и рассказов также нередко считают ведущими свое происхождение от ассоциативного теста К. Юнга.

Триумф проективной диагностики связан с появлением в 1921 г. «Психодиагностики» Г. Роршаха, опубликованной в Бер не на немецком языке.

За время, прошедшее после выхода в свет «Психодиагностики», появились методики, родственные тесту Г. Роршаха. Наиболее известны среди них Бен-Роршах («Bero»)-тест, тест Цуллигера и тест Хольцмана. Bero-тест создавался Роршахом и его непосредственным сотрудником как параллельная серия оригинального набора таблиц.

Еще одна из наиболее распространенных в мире методик – Тест тематической апперцепции (ТАТ) была создана в 1935 г. Г. Мюрреем (1893-1988) совместно с Х.Морган. Стимульный материал состоит из таблиц с изображениями неопределенных, допускающих неоднозначные толкования ситуаций. Испытуемому предлагалось придумать небольшую историю о том, что привело к ситуации, изображенной на картинке, и как она будет развиваться.

К началу 40-х гг. 20 века диагностика, благодаря проективным методикам стала очень популярной. Сегодня она занимает лидирующее положение в зарубежных исследованиях личности, несмотря на критическое

отношение к данным, получаемых с помощью проективных методик. Критические замечания в адрес этих методик сводятся к указаниям на их недостаточную стандартизацию, пренебрежение нормативными данными, неподатливость традиционным способам определения надежности и валидности, а главное – на большой субъективизм в интерпретации результатов.

Наши рекомендации