Психометрические основы психодиагностики

Основная особенность психодиагностики – измерительно-испытательная направленность, за счет которой достигается количественная и качественная оценка изучаемого психического явления.

Выделяют три основных психодиагностических подхода, которые охватывают все множество имеющихся диагностических методик.

1. “Объективный” подход – диагностика осуществляется на основе успешности (результативности) и способа (особенностей) выполнения деятельности. Объективный подход к диагностике проявлений индивидуальности привел к появлению тестов личности, тестов интеллекта, тестов специальных достижений и тестов способностей.

2. “Субъективный” подход – диагностика осуществляется на основе сведений, сообщаемых о себе, самоописания особенностей личности, поведения в тех или иных ситуациях. Подход представлен опросниками, которые могут быть подразделены на опросники личностные (опросники черт личности, опросники типологические, опросники мотивов, опросники установок, опросники интересов, опросники ценностей), опросники состоянияи настроения и опросники-анкеты.

3. “Проективный” подход – диагностика осуществляется на основе анализа особенностей взаимодействия с внешне нейтральным, как бы безличным, материалом, становящимся в силу его известной неопределенности (слабоструктурированности) объектом проекции.

Различают следующие группы проективных методик:

конститутивные – структурирование, оформление стимулов, придание им смысла (тест Роршаха);

конструктивные – создание из оформленных деталей осмысленного целого (тест Мира);

интерпретативные – истолкование события, ситуации (тест Тематической апперцепции, ТАТ);

катартические – осуществление игровой деятельности в специально организованных условиях (психодрама);

экспрессивные – рисование на свободную или заданную тему
(“Дом – дерево – человек”);

импрессивные – предпочтение одних стимулов другим (тест Сонди, тест Люшера)

Классификация диагностических методик

Сегодня существует несколько классификаций психодиагностических методик. Выделяют четыре основных типа методик: тесты, опросники и анкеты, проективные техники и психофизиологические методики.

Тест - краткое, стандартизированное, обычно ограниченное во времени психологическое испытание, предназначенное для установления индивидуальных различий. В состав теста кроме системы заданий входят стандартизованная процедура проведения и технология обработки результатов. Тесты применяют главным образом для изучения познавательных процессов, восприятия, мышления, памяти и т. п.

Чаще всего используется такой тип теста, как тест интеллекта. При исследовании интеллекта важно проводить грань между тестами умственного развития и тестами достижений. Всё здесь зависит от цели исследования, которую ставит перед собой психолог. Так, для выполнения заданий тестов достижений необходимо применение логического и элементов творческого мышления. Тесты же умственного развития, соответственно, не могут быть свободны от знаний, умений и опыта человека.

При разработке тестов достижений и тестов умственного развития следует исходить из взаимосвязи между содержанием конкретных заданий и умственных действий по их усвоению. В психодиагностике под умственными действиями понимают компоненты процесса логической обработки содержания. В учебной деятельности логические приемы выполняются на определенном содержании, которое может быть адекватно усвоено только в определенных формах мыслительной деятельности.

Опросники и анкеты обычно предназначены для описания и оценки человеком самого себя. К ним обращаются тогда, когда необходимо изучить такие стороны человеческой психики, как мотивы, установки, интересы, отношения и т.д.

По форме опросники могут быть открытыми (предполагаются ответы в свободной форме) и закрытыми (ответы: “да”, “нет”, “не знаю” или иного типа). При подготовке опросника закрытого типа проводится большая работа по формулированию вопросов. Необходимо дублирование вопросов по каждому признаку. Это связано с тем, что респондент (отвечающий) иногда невольно пытается представить себя в лучшем или худшем свете. Это так называемый “эффект фасада”, который испытуемым может не осознаваться.

Во всех случаях применения опросников следует учесть, что полученные материалы трудно интерпретировать, их разработка требует высокой квалификации. При конструировании заданий для личностных опросников, необходимо учитывать следующие проблемы:

Установка на согласие. Это тенденция испытуемого соглашаться с утверждениями или отвечать на все вопросы “да” независимо от их содержания.

Установка на неопределенные или средние ответы.

Проективные методики не адресуются познавательной стороне психики и предназначены для диагностики личности. В них испытуемым предлагается реагировать на неопределенную (многозначную) ситуацию, например, дать толкование фигур или пятен неопределенных очертаний (тест Роршаха), интерпретировать содержание сюжетной картинки (тест ТАТ), нарисовать человека или животное и т.д. Для того чтобы фантазия индивида могла свободно разыграться, даются только краткие общие инструкции. Предполагается, что характер ответов испытуемого и его реакции выявляют особенности его личности, которые дают проекцию в его ответах. Диагностика с использованием проективной техники изучает результаты деятельности испытуемого, который обычно не подозревает, какие стороны его личности диагностируются. Проективная методика требует широкой теоретической подготовки психолога и большого опыта по применению методики.

Психофизиологические методики выявляют формально-динамические особенности психики и поведения человека. Согласно сложившимся в современной дифференциальной психофизиологии представлениям, темп, выносливость, работоспособность и другие динамические характеристики человека определяются основными свойствами нервной системы (ее силой, лабильностью, подвижностью, динамичностью).

В каждом из указанных типов методик могут быть выделены классы, которые можно разделить по способам проведения на индивидуальные и групповые методы.

Индивидуальное диагностирование имеет большую историю (с нее начинается психодиагностика) и преимущества: возможность вести наблюдения за испытуемым, видеть его непроизвольные реакции, слышать и фиксировать непредусмотренные инструкциями высказывания. Первые авторы тестов обращали на это особое внимание, рассматривали поведение отдельных испытуемых, давали его интерпретацию. При индивидуальном диагностировании психолог, ориентируясь на готовность испытуемого, может заменить некоторые задания другими, эквивалентными. Некоторые виды заданий, когда, например, необходимо собирать кубики различного цвета или блоки из кубиков по чертежу, в принципе невозможно включить в групповое диагностическое испытание.

Индивидуальная диагностика необходима при работе с детьми дошкольного и младшего школьного возраста, в клинической психологии для тестирования лиц с соматическими и нервно-психическими нарушениями, людей с физическими недостатками и т. д. Необходима она и в таких случаях, когда испытуемые плохо знают или совсем не знают языка, на котором изложены задания, не умеют читать и писать или когда нужен тесный контакт экспериментатора и испытуемого с целью оптимизации его деятельности (например, если нужна корректировка промежуточных результатов). Наиболее известные индивидуальные тестовые методики: тесты Станфорд - Бине, Д. Векслера.

Групповая диагностика. С помощью групповых тестов можно одновременно обследовать несколько сотен человек. Одно из основных преимуществ - массовость испытаний. Обычно такие формы имеют несколько (две или три) эквивалентных форм. Появились групповые тесты при вступлении США в первую мировую войну и определялись запросами практики. Понятно, что проведение этих тестов требует меньших затрат сил и времени в расчете на испытуемого.

В зависимости от характера стимульного материала в большинстве из указанных типов выделяют вербальные и невербальные методики.

Вербальные методики. Это методики, в которых задания представлены в словах, предложениях и т.п. Пример вербального теста - тест Р. Амтхауэра.

Невербальные тесты. Это такие методики, задания в которых даны в виде рисунков, чертежей, схем и т.п. Они могут быть как составными частями общих тестов (Векслера, Амтхауэра), так и специальными отдельными тестами (прогрессивные матрицы Равена).

Такие тесты используются в основном для исследования интеллекта. Важной стороной умственного развития также является пространственное мышление. Следует подчеркнуть, что особенности пространственного мышления нельзя выявить в полной мере, используя различные головоломки, пространственно-комбинаторные игры и тесты, построенные на неучебном материале. В реальной практике (игровой, учебной, профессиональной) пространственное мышление всегда включено в решение различных задач, опирается на систему знаний, которые не должны нивелироваться. Но пространственное мышление - лишь один из показателей умственного развития человека. Не менее важную его часть (а в подростковом возрасте, например, наиболее существенную) составляет логическое мышление.

Возможно изучение логического мышления не только в вербальном, но и в невербальном плане. Для этого исследователи (И.С. Якиманская, В.Г. Зархин, О.С. Зяблова) разработали тест логических операций с геометрическими объектами (ЛОГО), предназначенный для изучения невербального мышления старшеклассников.

В зависимости от используемых материалов в различных типах диагностических методик можно выделить классы бланковых, аппаратурных и компьютерных методик.

К бланковым (“карандаш - бумага”) можно отнести большинство тестов интеллекта, умственного развития, опросников, проективных и психофизиологических методик, для выполнения которых требуются только специальные тесты (брошюры), бланки для ответов и карандаш (авторучка).

В аппаратурных методах используются специальные технические средства. Примером таких тестов являются различные методики изучения ручной ловкости и пальцевой моторики, где используются специальные приспособления

Параметры эффективности тестов

Для того чтобы тест считался научно-эффективным, он должен пройти проверку по четырем специальным критериям. Эти критерии - стандартизация, нормы, надежность, валидность.

Стандартизация- это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: 1) как выработка единых требований к процедуре тестирования
и 2) как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры тестирования подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

К числу требований, которые необходимо соблюдать при проведении эксперимента, можно, например, отнести такие:

1) инструкции следует сообщать испытуемым одинаковым образом, как правило письменно ( в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере );

2) ни одному испытуемому не следует давать никаких преимуществ перед другими;

3) в процессе эксперимента не следует давать отдельным испытуемым дополнительные объяснения;

4) эксперимент с разными группами следует проводить по возможности в одинаковое время дня, в сходных условиях;

5) временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и т.д.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре её проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, так как только строгое их соблюдение даёт возможность сравнивать между собой показатели, полученные разными испытуемыми.

Другим наиболее важным этапом в стандартизации методик является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определённых стандартов успешности или неудачи в их выполнении. Так, например, ребёнок 6 лет, выполняя тест умственного развития, получил 117 балов. Как это понимать? Хорошо это или плохо? Часто ли такой показатель встречается у детей данного возраста? Количественный результат как таковой ничего не означает. Полученный балл нельзя интерпретировать как показатель относительно высокого, среднего или низкого развития, так как это развитие выражено в мерах, присущих данной методике, и, таким образом, абсолютного значения полученные результаты иметь не могут. Очевидно, необходима такая точка отсчёта, с помощью которой можно оценивать полученные при диагностировании индивидуальные и групповые данные. В традиционном тестировании такая точка добывается статистическим путём - это так называемая статистическая норма.

В общих чертах стандартизация диагностической методики, ориентированной на норму, осуществляется путём её проведения на большой репрезентативной выборке того типа, для которого данная методика предназначена. Относительно этой группы испытуемых, называемой выборкой стандартизации, вырабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше или ниже среднего уровня. В результате можно оценить разные степени успешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно нормативной выборки или выборки стандартизации.

Вернёмся к ребёнку, набравшему 117 баллов. В результате стандартизации данного теста было установлено, что границы нормы для шестилетних детей находятся в пределах от 84 до 116 баллов. Следовательно, результат малыша чуть выше нормы.

Есть и другой подход к оценке результатов диагностических испытаний (его последователи К.М. Гуревич и др.). В качестве точки отсчёта выступает не статистическая норма, а независимый от результатов испытаний, объективно заданный социально-психологический норматив. Этот норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном объеме и является таким нормативом. Все сопоставления индивидуальных и групповых результатов тестирования проводятся с тем максимумом, который представлен в тесте (а это полный набор заданий). В качестве критерия оценки выступает степень близости результатов к нормативу.

Надежность означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его проведении на одних и тех же испытуемых.

Степень надежности зависит от многих причин, поэтому важно выявить факторы, снижающие точность измерений. Такими факторами могут быть:

нестабильность диагностируемого свойства;

несовершенство диагностирующих методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания и т.д.);

меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.);

различия в манере поведения экспериментатора (от опыта к опыту инструкции предъявляются по-разному, различное стимулирование выполнения заданий и т.п.);

колебания в функциональном состоянии испытуемого (в одном эксперименте хорошее самочувствие, в другом - утомление);

элементы субъективности в способах оценки и интерпретации результатов.

Если устранить эти факторы, то уровень надежности тестов повысится.

Важнейшим средством повышения надежности психодиагностических методик является единообразие процедуры обследования, его строгая регламентация: одинаковые обстановка и условия для испытуемых какой-либо выборки; однотипный характер инструкций; одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т.д.

Для надежности большое значение имеет исследуемая выборка, ибо она может как снижать, так и завышать этот показатель. Например, показатель надежности может быть искусственно завышен, если в выборке небольшой разброс результатов и т.д. В настоящее время надежность чаще всего определяется на наиболее однородных выборках (выборках, сходных по полу, возрасту, уровню образования, профессиональной подготовке).

Надежность отражает, таким образом, степень согласованности двух независимо полученных рядов показателей. Это математико-статистический прием, с помощью которого устанавливается надежность методики, - корреляция.

Чем больше коэффициент корреляции приближается к единице, тем выше надежность методики, и наоборот.

Виды надежности можно толковать в трех смыслах (по К.М. Гуревичу):

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) константность, то есть относительная независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности, показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности, а показатель влияния личности экспериментатора - коэффициентом константности.

Именно в таком порядке следует проверять методики: сначала - элемент измерения, потом - меру стабильности и в конце - критерий константности.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности), используется так называемый “метод расщепления”. Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого метода испытуемых нужно поставить в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Методика признается надежной, когда полученный коэффициент не ниже +0,75 - +0,85. Лучшие по надежности тесты дают коэффициенты порядка +0,90 и более.

Определить надежность методики - не значит решить все вопросы, связанные с ее применением. Нужно установить, насколько устойчив (стабилен) признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков.

То, что измеряемый признак со временем меняется, не опасно для показателя надежности, важно, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого и т.д., то есть колебания признака не должны носить непредсказуемый характер. Если такое происходит, то признак необходимо исключать в диагностических целях.

Для проверки стабильности диагностируемого признака или свойства используется прием, известный под названием тест-ретест. Смысл приема - повторное обследование испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследований. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового места в выборке.

Факторы, влияющие на степень стабильности:

качество единообразия процедуры проведения экспериментов;

промежуток времени между первым и вторым обследованиями

Коэффициентом стабильности можно измерять не только абсолютные свойства, но и те свойства, которые находятся в процессе интенсивного развития (например умение проводить обобщения). В таком случае он, скорее всего, будет невысоким. Но это не является его недостатком, это еще одна его функция: быть показателем определенных изменений, развития исследуемого свойства. Такое динамичное свойство необходимо брать по частям, по этапам, стадиям его трансформации.

Таким образом, вопрос о стабильности измеряемого свойства не решается всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.

Критерием константности пользуются не часто, но пренебрегать им нельзя. Несмотря на то, что любая методика всегда снабжена программами, инструкциями (по поводу проведения теста), остается много моментов, зависящих от личности исследователя (скорость речи, тон голоса, паузы и т.д.). Особенно существенную роль играет личность экспериментатора при применении проективных методик.

Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже +0,80.

Итак, важно отметить, что только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностического применения на практике.

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности решается после того, как установлена точная надежность методики (ненадежная методика не может быть валидной). Но самая надежная методика без знания ее валидности является практически бесполезной.

Валидность теста - понятие, указывающее нам, ч т о тест измеряет и насколько хорошо он это делает. Валидность - это комплексная характеристика, включающая, с одной стороны, сведения о пригодности методики для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. Поэтому нет универсального подхода к определению валидности (какую сторону валидности исследователь рассматривает, такие же он использует для этого способы доказательства).

Проверка валидности методики называется валидизацией. Валидизация имеет две стороны: теоретическую (валидность измерительного инструмента, методики) и прагматическую (валидность цели использования методики). При прагматической валидизации суть предмета измерения (психологические свойства) оказывается вне поля зрения, так как важно доказать, что “нечто”, измеряемое методикой, имеет связь с определенными областями практики.

Как мы можем узнать, что тест измеряет то, для чего он предназначен? Рассмотрим существующие способы доказательства валидности тестов, каждый из которых соответствует определенному аспекту этого значения.

Очевидная (внешняя валидность):

Методика признается валидной в силу очевидности того, что она измеряет именно то, что подразумевается.

Доказательство валидности основывается на чувстве уверенности исследователя в том, что его метод позволяет понять испытуемого.

Методика рассматривается как валидная (то есть принимается утверждение, что такой-то тест измеряет такое-то качество только потому, что ее создатель имеет “очень высокий авторитет”, или потому, что та теория, на основании которой строилась методика, “очень хорошая”).

Очевидная валидность важна постольку, поскольку взрослые испытуемые обычно не включаются в работу с тестами, которым не достает внешней валидности.

Для теоретической валидизации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Поэтому для измерения валидности не столь сложно осуществить сопоставления новой методики, если для измерения валидности уже имеется методика, валидная по сути. Если корреляция методик подтверждает единую их эталонность, если новая методика более компактна и экономична в проведении и обработке результатов, то она более надежна и валидна, чем старая.

Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и, с другой стороны, отсутствие этой связи с методиками, имеющими иное теоретическое основание (дискриминантная валидность).

Прагматическая валидизация подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают большое значение особенно там, где встает вопрос отбора. Разработка и использование диагностических методик имеет смысл только тогда, когда есть обоснованное предложение, что измеряемое качество проявляется в определенных жизненных ситуациях и видах деятельности. Не случайно в 20-30-е гг. XX в. эмпирический критерий оценки диагностической методики доминировал (было важно, чтобы тест работал, помогал быстро и дешево подбирать людей). Теоретическая слабость тестов в конце концов вызвала шквал критики в адрес диагностических методик. Поэтому эмпирический критерий при определении валидности теста стали называть внешним критерием (то есть показатель проявления изучаемого свойства в повседневной жизни). Американские исследователи Тиффин и Маккормик выделяют четыре типа таких внешних критериев:

1. Критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.).

2. Субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или кому-либо, его мнения, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет).

3. Физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряются частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.).

4. Критерии случайности (применяются когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем требованиям (основным): он должен быть релевантным, свободным от помех (контаминации), надежным.

Под релевантностью надо понимать смысловое соответствие между диагностическим инструментом и независимым жизненно важным критерием. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным.

Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависят от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, “загрязнить” применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях или пытаются корректировать влияние помех. Например, производительность следует брать не по абсолютным показателям, а в отношении средней производительности рабочих, работающих в аналогичных условиях.

Оценка валидности методики может носить количественный и качественный характер.

А. Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, у тех же лиц.

Используются разные виды линейной корреляции (по Спирмену, по Пирсону). Количество испытуемых, необходимых для расчета валидности, как показала практика, должно быть не менее 50, но лучше, когда более 200 человек. Низким признается коэффициент валидности порядка 0,20 - 0,30, средним 0,30 -0,50 и высоким - свыше 0,60.

Б. Для оценки качественного показателя существует несколько видов валидности, обусловленных особенностями диагностических методик, а так же временным статусом внешнего критерия. Это следующие виды:

содержательная валидность. Этот прием применяется в основном в тестах достижения. Обычно в тесты достижения включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (три- четыре вопроса). Важно проверить, чтобы правильные ответы на эти некоторые вопросы свидетельствовали об усвоении всего материала;

валидность “по одновременности” или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени: успеваемость в период испытания, производительность в этот же период и т.д. С ними коррелируют результаты успешности по тесту;

“предсказывающая” валидность (“прогностическая” валидность). Определяется также по достаточно надёжному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешний критерий выражает в каких-либо оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Однако применить этот метод трудно, так как точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно;

“ретроспективная” валидность определяется на основе критерия, отражающего событие или состояние качества в прошлом. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения по диагностической пробе и т.д. у лиц с высокими и низкими в данный момент оценками.

Не существует какого-либо единственного показателя, демонстрирующего валидность теста. Для полной ее проверки следует учитывать множество получаемых показателей.

Когда тест проверяется на валидность, важно указывать, на какой вид валидности.

Критериально-ориентированные тесты

Различают критериально-ориентированные тесты и тесты, ориентированные на статистическую норму.

Норма характеризует выборку или популяцию, но не раскрывает действительных требований к человеку.

Социально-психологический норматив (СПН) - система требований, которые общество предъявляет каждому из его членов. Чтобы не быть отторгнутым от существующей общности, человек должен овладеть теми требованиями, которые к нему предъявляются, причем, процесс, этот является активным - каждый стремится занять определенное место в своей социальной общности и сознательно осуществляет этот процесс приобщения к классу, к группе. Эти требования и могут составлять содержание СПН, которые выступают как идеальная модель требований социальной общности к личности.

Следовательно, при оценке результатов тестирования итоги надо подводить по степени близости к СПН, который дифференцируется в образовательно-возрастных границах. Подобные требования могут быть закреплены в форме правил, предписаний, требований к человеку и включать самые разнообразные аспекты: умственное развитие, нравственное, физическое и т. д. Тем более что эти требования, составляющие содержание СПН, вполне реальны и присутствуют в образовательных программах и т.д.

Использование в качестве критерия развития СПН выдвигает на первый план качественный способ обработки теста, при котором необходимо учитывать: какие термины и понятия по степени обобщенности усвоены лучше, а какие - хуже; какие логические операции освоены более, а какие менее - успешно; в каком круге понятий и терминов ученики ориентируются менее, а в каком - более уверенно. Поэтому в отличие от статистической нормы СПН качественно иным образом рассматривает содержательную сторону развития человека.

Появление критериально-ориентированных тестов (КОРТ) связано с тестированием достижений и успехов в учебе как детей, так и взрослых после специальных курсов обучения. Первым, кто обозначил “самостоятельную сущность” нетрадиционной формы тестирования и отделил ее от тестирования, ориентированного на статистическую норму, был Р. Глезер (1963). Он же и ввел термин “criterion referenced measurement” - критериально-ориентированное измерение. Различие между критериально-ориентированным и ориентированными на норму подходами было зафиксировано, но в диагностической практике разница между двумя подходами не выявилась. Это, возможно, зависело от того, что было недостаточным проанализировать практический смысл применения критериально-ориентированной тестовой модели. Было важно другое: разработать методики конструирования и проверки тестов, ориентированные на критерий.

Предметом анализа КОРТ становится содержание деятельности индивида: что индивид знает или умеет делать по отношению к конкретным требованиям, которые предъявляет к нему учебно-образовательная программа. В КОРТе анализ текста должен заключаться в его проверке по характеристикам, сосредоточенным на содержательных и сравнительных особенностях заданий теста, а не только на его статистических показателях. Установление содержательного соответствия теста и реального учебного задания выступает как решающий этап разработки КОРТа. По отношению к КОРТу учебное задание является не “внешним критерием”, но той реальностью, существенные моменты которой данный КОРТ моделирует.

Виды критериев в КОРТе. На начальном этапе становления критериально-ориентированного подхода была выдвинута концепция критерия как уровня выполнения. КОРТы представляют сведения относительно того, что ученик не усвоил. Учащегося возвращают к тем фрагментам учебного материала, на которые ему необходимо обратить внимание (тестирование обнаруживает проблемы в знаниях и неосвоенные навыки).

Критерий как уровень мастерства - эталонная совокупность всех компонентов, составляющих конкретное знание. Располагая такой характеристикой, учитель или исследователь может сравнить то, что делает ученик, с тем, что он должен уметь делать. Особенность КОРТов, направленных на становление уровня мастерства, состоит в том, что они не только выявляют объемы усвоенного материала, но указывают на возможности ученика активно использовать полученные знания в усвоении нового, более сложного материала. Если КОРТы, ориентированные на уровень выполнения, могут установить, что ученик достаточно подготовлен, чтобы перейти на следующий этап обучения, то КОРТы, ориентированные на уровень мастерства, воплощают в себе требования, которые прежде всего обусловлены сложившимися в теории и методике обучения стандартами и образцами усвоения (они зафиксированы как учебные цели).

КОРТ на уровень мастерства рекомендуется строить по ступенчатому признаку. Каждая ступень будет характеризоваться своим уровнем сложности. Сложность здесь понимается как объективная категория, определяемая числом и характером свойств и отношений между элементами учебного задания. Ступенчатая структура представляет возможность не только установить, достаточно ли владеет учащийся определенным умением, но и выявить, в какой мере успешность реализации этого умения определена содержательными характеристиками учебного материала.

Компьютеризация психодиагностических методик

Компьютер не может подменить интуицию и творческую активность человеческой психики, ее пристрастность и избирательность, целостность восприятия и дар предвосхищения.

Но применение ЭВМ открывает широкие перспективы для психологических исследований. В связи с задачами психологической диагностики крайне важно, что с помощью компьютера экспериментатор получает для анализа такие данные, которые без ЭВМ получить практически невозможно: время выполнения отдельных заданий теста, время получения правильных или ошибочных ответов, количество отказов от решения и обращений за помощью, время, затрачиваемое испытуемым, на обдумывание ответа при отказе от решения, время ввода ответа (если он сложен) в ЭВМ и т.д. Эти особенности испытуемых можно использовать для углубленного психологического анализа их деятельности в процессе тестирования.

ЭВМ изменили почти все этапы тестирования - от создания теста до его применения, подсчета первичных показателей, регистрации и интерпретации, обеспечили гибкий и скоростной способ переработки данных.

С момента применения компьютеров в психодиагностике можно выделить несколько направлений в этой сфере.

Одно из них - сбор и обработка тестовых данных, к которым приспособлено большинство современных методик.

Большие возможности в решении указанных задач открываются при использовании ЭВМ для автоматизации стандартизации процедуры тестирования. Применение компьютера обеспечивает массовость испытаний, повышает их объективность и достоверность за счет снижения влияния на испытуемого личности экспериментатора, вариативность некоторых условий тестирования и т.д.

На еще более высоком уровне при этом осуществляется качественный анализ результатов диагностики и машинная интерпретация тестовых показателей. При такой организации тестирования определенные серии ответов связываются с теми или иными словесными формулировками, хранящимися в памяти ЭВМ. При желании можно получить информацию и в виде графиков, таблиц, диаграмм, профилей.

Важную роль играют компьютеры и в решении ряда вопросов, непосредственно связанных с разработкой новых тестов, с созданием алгоритма для их разработки.

Особое значение имеет проблема разработки методики адаптированного (индивидуализированного) тестирования, которому большинство зарубежных авторов отдают предпочтение. При этом подходе каждый испытуемый получает задание, соответствующее ему по трудности. Адаптированное тестирование значительно сокращает время испытаний, позволяет проводить их практически в индивидуальном темпе и повышает точность диагностики свойств испытуемых. Адекватность трудности заданий возможностям испытуемых повышает их мотивацию.

При тестировании с использованием ЭВМ исследователь может получить объективную информацию не только об особенностях выполнения определённых заданий группой учащихся (характеристика теста), но и об индивидуальных данных учащихся (характеристика испытуемого). Имеются в виду показатели умственного развития, скоростные особенности (темп) деятельности испытуемого, динамика его работоспособности, особенности выполнения вербальных и невербальных субтестов и т. д.

Наши рекомендации