Определение стабильности изучаемого признака.

Определить на­дежность самой методики — это не значит решить все вопросы, связан­ные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со вре­менем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что ис­пытуемый по непонятным причинам оказывается то в начале, то в се­редине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемо­го нельзя. Таким образом, колебания признака не должны иметь не­предсказуемый характер. Если не ясны причины, по которым проис­ходит резкое колебание, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретпест. Он за­ключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреля­ции между результатами первого и второго обследований. Он будет свидетельствовать о сохранении или несохранении каждым испыту­емым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тес­тирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованиями. Чем ко­роче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возраста­ет число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод о том, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытами небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и таким образом отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассмат­ривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать опти­мальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она про­водится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интер­валы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие про­исходят очень быстро, эти интервалы могут быть порядка нескольких недель.

Важно помнить, что коэффициент стабильности не следует рассмат­ривать только с его узко формальной стороны, по его абсолютным значениям. Если методика исследует свойство, которое в период диагностирования находится в процессе интенсивного развития (на­пример, умение проводить обобщения), то коэффициент стабильности может оказаться невысоким, но это не следует истолковывать как недостаток методики. Такой коэффициент стабильности должен интерпре­тироваться как показатель определенных изменений, развития исследу­емого свойства. В этом случае, например, К. М. Гуревич рекомендует рассмотреть по частям ту выборку, на которой устанавливался коэффи­циент стабильности. При таком рассмотрении выделится часть ис­пытуемых, проходящих путь развития в одинаково ровном темпе; дру­гая часть — где развитие шло особенно быстрыми темпами; и часть выборки, где развитие у испытуемых практически совсем нельзя за­метить. Каждая часть выборки заслуживает специального анализа и ис­толкования. Следовательно, недостаточно просто констатировать, что коэффициент стабильности низкий, нужно понять, от чего это зависит.

Совсем другое требование предъявляется к коэффициенту ста­бильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффи­циент стабильности в этом случае должен быть достаточно высоким (не ниже 0,8).

Таким образом, вопрос о стабильности измеряемого свойства реша­ется не всегда однозначно. Решение зависит от сущности самого диа­гностируемого свойства.

Определение константности, т. е. относительной независимости ре­зультатов от личности экспериментатора. Поскольку методика, разра­ботанная для диагностических целей, не предназначена для того, что­бы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности эксперимен­татора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указыва­ющими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, вы­ражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требо­ваниями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности пользуют­ся нечасто, однако, по мнению К. М. Гуревича, это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности эксперимента­тора на исход диагностической процедуры, то целесообразно прове­рить методику по этому критерию. При этом важно иметь в виду сле­дующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внима­ния) на надежность методики не окажет влияния. Надежность изме­нится лишь тогда, когда воздействие экспериментатора на испыту­емых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испы­туемые при новом экспериментаторе изменили свои порядковые мес­та в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых ус­ловиях на одной и той же выборке испытуемых, но разными экспери­ментаторами. Коэффициент корреляции не должен быть ниже 0,8.

Выше были рассмотрены три показателя надежности психодиагности­ческих методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять проверку каждого из них? В профессиональ­ной литературе еще идет дискуссия по этому поводу. Одни исследова­тели считают, что все способы определения надежности в какой-то мере идентичны, и поэтому достаточно проверить надежность мето­дики каким-то одним из них.

Например, автор неоднократно переиздававшейся в США книги по ста­тистике для психологов и педагогов Г. Гэррет не находит принципиаль­ных различий между способами проверки надежности. По его мнению, все эти способы показывают воспроизводимость тестовых показателей. Иногда тот, иногда другой обеспечивают лучший критерий. Другие иссле­дователи придерживаются иной точки зрения. Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «На­дежность» отмечают, что коэффициент надежности — это родовое поня­тие, включающее в себя несколько видов, и каждый вид имеет свой осо­бый смысл. Разделяет эту точку зрения и К. М. Гуревич [44]. По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по су­ществу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент или не ус­тановлена стабильность измеряемого свойства? Чего стоит диагнос­тическая методика, если не известно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следователь­но, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения.

Вопрос № 4 Валидность

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

Следует заметить, что вопрос о валидности до сих пор представля­ется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет ина­сколько хорошо он это делает».

Валидность по своей сути — это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, ка­кова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

1. Валидность в первом ее понимании имеет отношение к самой мето­дике, т. е. это валидность измерительного инструмента.

Такая проверка называется теоретической валидизацией.

2. Валидность во втором пони­мании уже относится не столько к методике, сколько к цели ее ис­пользования. Это прагматическая валидизация.

Обобщая, можно сказать следующее:

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (пси­хологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое ме­тодикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматиче­ской, порой оказывается значительно труднее.

Не вдаваясь пока в кон­кретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравни­ваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической ме­тодики.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. Поэто­му на ранних стадиях развития тестологии, когда концепция валидно­сти только складывалась, бытовало интуитивное представление о том, что именно данный тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, просто «очевидно»;

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет «понять испытуемого»;

3) методика рассматривалась как валидная (т. е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) толь­ко потому, что теория, на основании которой строилась методи­ка, «очень хорошая».

Принятие на веру голословных утверждений о валидности методи­ки не могло продолжаться длительное время. Первые проявления дей­ствительно научной критики развенчали такой подход: начались по­иски научно обоснованных доказательств.

Таким образом, провести теоретическую валидизацию методики — это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диа­гностировать умственное развитие детей, надо проанализировать, дей­ствительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т. п.). Следовательно, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Такая проверка показывает, насколько замысел автора и результаты методики совпадают.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и ана­логичной, уже проверенной методикой указывает на то, что разработан­ная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиа­гносты получают возможность использовать новый инструмент вместо старого. Такой прием особенно часто применяется в дифференциаль­ной психофизиологии при создании методик диагностики основных свойств нервной системы человека.

Но теоретическая валидность доказывается путем сопоставления не только с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть.

Таким образом, для про­верки теоретической валидности важно,

- с одной стороны, установить степень связи с родственной методикой (конвергентная валидность),

- а с другой — отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидностъ).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с та­кой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации об изу­чаемом свойстве, анализ теоретических предпосылок и эксперимен­тальных данных, значительный опыт работы с методикой позволяют раскрыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет со­поставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработа­на в теоретическом плане, т. е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повсе­дневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоре­тические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то ин­терпретация полученных показателей становится более ясной и одно­значной, а название методики соответствует сфере ее применения.

Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой име­ет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в опре­деленных видах деятельности. Ей придают большое значение особен­но там, где встает вопрос отбора.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводи­ло к псевдонаучным выводам, к неоправданным практическим реко­мендациям. Нельзя было точно назвать те особенности, качества, ко­торые тесты выявляли. Б. М. Теплов, анализируя тесты того периода, назвал их «слепыми пробами».

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать кри­тики со стороны тех ученых, которые в разработке тестов призывали опи­раться не только на «голую» эмпирику и практику, но и на теоретиче­скую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-прагматическая оценка валидности методик воспринимается как наиболее продуктивная.

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий— показатель проявления изучаемого свойства в повседневной жизни.

Такими кри­териями могут быть:

1) успеваемость (для тестов способностей к обучению, тестов до­стижений, тестов интеллекта);

2) производственные достижения (для методик профессиональной направленности);

3) эффективность реальной деятельности — рисование, моделиро­вание и т. д. (для тестов специальных способностей);

4) субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Маккормик, проведя анализ используемых для доказательства валидности внешних крите­риев, выделили четыре их типа:

1) критерии исполнения(в их число могут входить такие, как коли­чество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии(они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии(они используются при изучении вли­яния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, ко­торые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

1) он должен быть релевантным;

2) свободным от помех (контаминации);

3) надежным [43].

Под релевантностьюимеется в виду смысловое соответствие диа­гностического инструмента независимому жизненно важному крите­рию. Другими словами, должна быть уверенность в том, что в крите­рии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний крите­рий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородны­ми по психологической сущности.

Если, например, тест измеряет индивидуальные особенности мышле­ния, умение выполнять логические действия с определенными объекта­ми, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятель­ности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вы­текает существование нескольких критериев выполнения профессио­нальной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффек­тивностью в целом. Необходимо найти такой критерий, который по ха­рактеру выполняемых операций соотносим с методикой.

Если относительно внешнего критерия неизвестно, релевантен он из­меряемому свойству или нет, то сопоставление с ним результатов психо­диагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оцен­ку валидности методики.

Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, кото­рые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследо­вания такие группы людей, которые находятся в более или менее оди­наковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно ста-тистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней произво­дительности рабочих, имеющих аналогичные условия труда.

Когда говорят, что критерий должен иметь статистически достовер­ную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось подыскать подходящего критерия для их проверки. В частности, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик может носить количественный и каче­ственный характер.

Для вычисления количественногопоказателя — коэффициента ва­лидности — сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию тех же лиц. Используются разные виды линейной корреля­ции (по Спирмену, по Пирсону).

Наши рекомендации