Тема 3: "Основы конструирования психодиагностических методик"
§ 1. Статистическая природа тестовых шкал.
Любые первичные результаты, полученные с помощью какого-либо психологического теста, остаются бессмысленными, если отсутствует дополнительная информация, позволяющая их интерпретировать. Чаще всего результаты психологического теста можно проинтерпретировать, сопоставляя их с нормами выполнения этого теста группой лиц, которую принято называтьвыборкой стандартизации. Следовательно, в психодиагностике нормы устанавливаются опытным путем, исходя из того, как выполняет задания теста некоторая (репрезентативная) группа испытуемых. Зная распределение показателей в такой репрезентативной группе, можно выяснить место каждого индивидуального показателя (т.е. определить, отвечает ли он среднему значению, выше или ниже его).
Для того чтобы более точно определить место испытуемого относительно выборки стандартизации, полученный результат необходимо перевести в некую относительную меру – найти производный показатель. Таким образом, производные показателивыполняют две функции [1]:
- позволяют определить положение каждого обследуемого относительно выборки стандартизации и таким образом оценить его выполнение теста на фоне других испытуемых;
- позволяют сравнивать между собой результаты, полученные по разным тестам (или по разным шкалам теста).
Примером простейшего производного показателя является обычный процентный показатель, однако в психодиагностике он не нашел применения, так как сам по себе процент правильно выполненных испытуемым заданий теста нельзя интерпретировать без другой дополнительной информации, например, без учета трудности заданий теста.
Производные показатели могут выражаться в одних и тех же единицах и относиться к одним и тем же или похожим нормативным выборкам для различных тестов. Поэтому, оказывается возможным сравнение индивидуальных относительных данных по многим различным психическим функциям.
Производные показатели можно получить разными путями (в соответствие с их функциями):
- определение достигнутого уровня развития;
- установление относительного положения индивида в некоторой группе.
Существующие типы производных показателей, будут рассмотрены ниже. Прежде необходимо дать дефиниции некоторым понятиями (в том числе и статистическим), лежащими в основе разработки и использования тестовых норм.
По определению, данному в словаре [3], тест – в психологии - фиксированное во времени испытание, предназначенное для установления количественных (и качественных) индивидуально-психологических различий.
Наиболее типичное понятие теста в психодиагностике можно представить так [15]: тест- это последовательность кратких заданий (или пунктов), которая после выполнения их испытуемым, подвергается однозначной количественной интерпретации.
Исходы (ответы) испытуемых зависят от вида теста. Например, в интеллектуальных тестах, состоящих из отдельных задач, ответы могут интерпретироваться так: "правильное решение", "ошибочное решение", "отсутствие ответа" (пропуск задачи из-за недостатка времени). Примеры интерпретации в личностных опросников, состоящих из высказываний, предлагаемых для подтверждения испытуемым: "подтверждение" (ответ "верно"), "отвержение" (ответы "не согласен", "неверно").
Суммарный балл по тесту подсчитывается с помощью ключа: ключ устанавливает числовое значение исхода по каждому пункту. Например, за правильное решение задания - "+1", за неправильное или пропуск - "0". Тогда балл буквально выражает количество правильных ответов.
Известно [1, 15], что исход по отдельному заданию подвержен воздействию не только со стороны измеряемого фактора - способности или черты испытуемого, но и побочных шумовых факторов, которые являются иррелевантными по отношению к задаче измерения.
Примеры случайных факторов: колебания, вызванные неожиданными отвлекающими событиями (шум на улице, стук в дверь и т. п.), трудности в понимании смысла задания (вопроса), вызванные особенностями опыта данного конкретного испытуемого, и т. п.
Последовательность ответов оказывается последовательностью событий, содержащей постоянный и случайный компоненты, причем случайные компоненты могут оказывать как положительное, так и отрицательное влияние на результаты выполнения теста. Как известно, основным приемом, позволяющим устранить искажающее влияние случайных факторов на результат (суммарный балл), является балансирование этого влияния с помощью повторения. При этом фактически предполагается, что повторение обеспечивает рандомизацию (случайное варьирование) неконтролируемого фактора, в результате чего при суммировании исходов положительные и негативные эффекты случайных факторов взаимопоглощаются [15].
В оптимальном тесте набор заданий организуется таким образом, чтобы повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла. Необходимо признать, однако, что несмотря на различные статистические ухищрения, суммарный балл в психологических измерениях содержит несравненно большую долю случайного компонента, чем в обычных физических измерениях. Поэтому, суммарный балл, набранный испытуемым по тесту, можно определить лишь в известных пределах, заданных ошибкой измерения.
Прежде, чем перейти к анализу типов кривых распределений суммарных баллов вспомним, что понимается в психологии под измерением и какие типы измерительных шкал существуют.
В психологии различают три основные процедуры измерения. Основанием для различения является объект измерения. Различают [7, 9]: "измерение испытуемых" (например, особенности их поведения); "измерение, как задача для испытуемого" (например, задача испытуемого состоит в ранжировании или классификации внешних объектов); процедура совместного измерения "стимулов и людей" (например, поведение субъекта можно рассмотреть как проявление взаимодействия личности и ситуации). В узком смысле слова психологическим измерением является только "измерение испытуемых".
С точки зрения математики, измерением называется операция установления взаимно однозначного соответствия множества объектов и символов (чисел); причем символы (числа) приписываются объектам по определенным правилам.
Правила, на основании которых происходит приписывание чисел объектам, определяют шкалу измерения. Различают множество различных видов шкал, однако наибольшее распространение в психологии получили следующие [1, 5, 15]: "шкала наименований", "шкала порядка", "шкала интервалов" и "шкала отношений". Основные их характеристики можно представить в виде таблицы 1.
Таблица 1.Измерительные шкалы.
Тип шкалы | Измерительная операция | Описательные статистические величины | Примеры |
Наименования | Приписывание одинаковых чисел - наименований объектам, имеющим общий признак. | Число объектов в классе (категории). | Приписывание числового кода лицам с определенными социально- демографическими характеристиками. |
Порядка | Ранжирование объектов по выраженности определенного признака. | Медиана, процентили. | Ранжирование специалистов по степени профессиональной пригодности. |
Интервалов | Определение величины различий между объектами. | Среднее арифметическое, стандартное квадратичное отклонение, коэффициент корреляции. | Шкала температуры Цельсия. |
Отношений | Определение равенства отношений величин. | Коэффициент вариации. | Измерение длины, массы и т.д. |
Основная цель применения статистики - представить количественные данные в систематизированной и сжатой форме для того, чтобы облегчить их понимание.
Чтобы навести порядок в хаосе цифр, полученных в результате тестирования какой-то группы (например, в 1000 человек) нужно, прежде всего, составить таблицу частотного распределения (этих тестовых баллов). Для этого показатели распределяются по заранее выбранным интервалам (классам) значений. После того, как тестовые показатели распределены по интервалам, подсчитывается их количество в каждом из них. Полученное таким способом число и есть частота(количество случаев) для соответствующего интервала.
Как известно [1, 7, 9, 15], любое частотное распределение суммарных баллов можно представить графически в виде кривых распределений: гистограммы, полигона частотикумуляты.
На гистограммепо оси абсцисс откладываются "границы классов", на которые разбиваются первичные показатели суммарных баллов, а высота столбцов (ось ординат), вычерченных над каждым интервалом, соответствует числу испытуемых, чьи результаты попали в этот интервал. (Их количество определяет высоту столбца в относительной частоте встречаемости показателя или в процентах). В полигоне частот число испытуемых указывается точкой, расположенной над серединойинтервала на высоте, соответствующей его частоте, а сами точки последовательно соединяются прямолинейными отрезками.
Если на оси абсцисс нанести срединные значения классов, а по оси ординат - накопленные частоты классов, то получится график называемый кумулятой [11].
Идеальная нормальная кривая это такая кривая, которая обладает важными математическими свойствами, на ней основаны многие виды статистического анализа. По существу эта кривая означает, что число случаев максимально в середине распределения и постепенно спадает к ее краям. Кривая симметрична и имеет единственный пик в центре. Причем, чем больше группа, тем ближе распределение к теоретической нормальной кривой.
Как отмечает А. Анастази [1], группа тестовых показателей может быть описана в терминах той или иной меры центральной тенденции. Такая мера показывает наиболее типичный (или репрезентативный) результат, характеризующий выполнение теста всей группой. Самой известной из таких мер является среднее (среднеарифметическое) значение (Х). Другой мерой центральной тенденции является мода(Мо)или наиболее часто встречающийся результат. В частотном распределении мода определяется как середина интервала, для которого частота максимальна.
Третья мера центральной тенденции - это медиана(Ме), т.е. результат, находящийся в середине последовательности показателей, если их расположить в порядке возрастания или убывания. Медиана есть точка, делящая распределение ровно пополам, причем одна половина результатов лежит справа от нее, а другая слева.
Для наиболее полного описания результатов теста используются меры разброса данных, показывающие степень отклонений индивидуальных показателей от центральной тенденции. Наиболее наглядным и известным способом представления разброса является размах распределения, т. е. разность между самым высоким и самым низким результатом. Но эта мера крайне точна и неустойчива, поскольку она определяется только двумя показателями. Единственный необычно высокий или низкий результат может заметно повлиять на величину размаха. Более точный метод измерения разброса основан на учете разности между каждым индивидуальным результатом и средним значением по группе.
Такой мерой разброса является стандартное отклонение, обозначаемое буквой "σ" (при ее вычислении отрицательные знаки устраняются благодаря возведению каждого отклонения в квадрат), которая вычисляется исходя из дисперсии(σ2) или среднего квадрата отклонения.
Если дисперсия очень удобна при выяснении влияния различных факторов на индивидуальное выполнение тестовых заданий, то стандартное отклонение широко применяется как мера сравнения разбросов результатов измерений в различных группах.
Контрольные вопросы для самопроверки: §1. Статистическая природа тестовых шкал.
1. Что понимается под термином "тест" в психодиагностике?
2. Для чего применяется повторное тестирование?
3. Что понимается под термином "измерение" в психодиагностике?
4. Какие типы шкал используются в психометрике?
5. Дайте определение, что в психометрике понимается под "гистограммой", "полигоном частот" и "кумулятой"?
Литература к теме.
1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.
2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.
3. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.
4. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.
§2. Взаимосвязь свойств пунктов теста и видов распределений тестовых баллов.
Знание основных понятий и методов анализа заданий, а также этапов построения теста является необходимым и важным не только при конструировании новых тестов, но и при оценке опубликованных тестов. Кроме того, анализ заданий теста имеет прямое отношение к составлению неформальных, локальных тестов подобных тем, которые, например, готовят учителя для работы в классе в виде опросов или контрольных работ. К анализу заданий, включенных в тест, можно подходить как с точки зрения качественной оценки, так и с количественной точки зрения (т.е. изучать их статистические свойства).
Качественный анализ включает рассмотрение валидности по содержанию и оценку эффективности заданий (на них мы остановимся позже). Количественный анализ означает, в основном, измерение трудности (и некоторых видов валидности) заданий.
Валидность и надежность теста как целого зависят от свойств заданий, и их предварительный анализ позволяет повысить эти свойства теста. Устраняя, добавляя, заменяя или пересматривая отдельные задания можно усовершенствовать тест в целом [1].
Трудность заданий. Во всех физических измерениях калибровка шкалы измерительного инструмента производится на основе какого-либо эталона, роль которого выполняет физический объект, стабильно сохраняющий заданную величину измеряемого свойства (например, метр, килограмм и пр.).
В психометрике такие физические эталоны отсутствуют, так как мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Поэтому роль косвенных эталонов в психометрике отводится самим тестам: в том смысле, в каком трудность заданий теста можно рассматривать как величину, прямо пропорционально сопряженную со способностью (которую измеряют) - чем труднее задание, тем выше должен быть уровень способности, требуемый для ее решения [15].
По А. Анастази [1], чаще всего трудность задания определяется процентом испытуемых, давших правильный ответ. Чем легче задание, тем выше этот процент. Например, слово, значение которого правильно указали 70% выборки стандартизации (р=0,70), считается более легким, чем слово, которое знают только 15% (p=0,15). Обычно задания располагаются в порядке нарастания трудности, так, чтобы обследуемый начинал с относительно легких заданий и затем переходил ко все более сложным.
Такое расположение дает индивиду больше уверенности снижает вероятность того, что он, затратив слишком много времени на задания, которые для него слишком трудны, упустит из вида те, которые ему по силам.
При составлении теста задания подбираются так, чтобы они соответствовали определенному уровню трудности. Большинство стандартизованных тестов способностей предназначены для как можно более точной оценки индивидуального уровня развития способности, и если в таком тесте никто не может справиться с заданием, (оно является слишком сложным), то это задание оказывается просто лишним в данном тесте. То же можно сказать и о заданиях, с которыми могут справиться все (очевидно, это будут слишком легкие задания).
Ни те, ни другие задания не несут никакой информации об индивидуальных различиях. А поскольку такие задания не влияют на вариативность тестовых результатов, они ничего не прибавляют к показателям надежности или валидности теста. Следовательно, чем ближе трудность задания к 1,0 (очень трудное задание) или к 0 (очень легкое задание), тем меньшей способностью к дифференцировки испытуемых обладает тест. И наоборот, чем ближе уровень трудности заданий к 0,5, тем выше его разрешающая способность.
Таким образом, выходит, что для максимальной дифференциации испытуемых все задания должны быть на уровне трудность 0,5. Решение, однако, осложняется тем фактом, что в пределах одного теста задания могут коррелировать друг с другом. Чем однороднее тест, тем выше эти корреляции.
В экстремальной ситуации, если все задания скоррелированы и имеют уровень трудности 0,50, то одни и те же 50% испытуемых справятся со всеми заданиями теста. В итоге одна половина обследованных покажет 100% результат, а результатом другой половины будет ноль. Ввиду этого, задания лучше всего выбирать так, чтобы уровень трудности отдельных заданий имел некоторый умеренный разброс, но в среднем составлял 0,50.
Трудность пунктов теста можно выявить только с помощью процедуры проведения теста. При этом, показателем трудности оказывается "процентильная мера": процент испытуемых, справившихся с заданием теста. Чем меньше процент, тем выше трудность.
Распределение результатов теста.Известно [1], что трудность теста в целом, зависит от трудности отдельных заданий, из которых он составлен. Проверку трудности всего теста применительно к популяции, для которой он предназначен, можно произвести с помощью построения распределения частот суммарных баллов (см. параграф выше).
Кривая распределения тестовых баллов отражает свойства пунктов, из которых составлен тест. Известно [11], что у нормальной кривой мода, медиана и средняя арифметическая совпадают. Наряду с практически симметричными (нормальными) распределениями встречаются и скошенные, асимметричные. Математически они характеризуются нарушением равенства между модой, медианой и средней арифметической выборки.
Принято различать [11], правостороннюю,илиотрицательную,асимметрию и левостороннюю, или положительнуюасимметрию.
Если кривая имеет левостороннюю положительную асимметрию, это значит, что в тесте преобладают трудные задания. При положительной асимметрии частоты распределения суммарных баллов накапливаются больше в левой части распределения; вершина такого распределения сдвинута влево, мода оказывается больше средней арифметической.
Если кривая имеет правостороннюю отрицательную асимметрию, то значит большинство пунктов в тесте - легкие (слабые). При правосторонней отрицательной асимметрии варианты (набранные испытуемыми баллы) накапливаются больше в правой части распределения; вершина такого распределения сдвинута вправо, мода оказывается меньше средней арифметической.
Тесты первого типа плохо дифференцируют испытуемых с низким уровнем способностей: все эти испытуемые получают примерно одинаковый низкий балл. Тесты второго типа, наоборот, хуже дифференцируют испытуемых с высоким уровнем способностей.
Если пункты обладают оптимальным уровнем трудности, то форма кривой распределения будет зависеть от того, насколько пункты однородны. При этом если выборка репрезентативна срезу популяции, то можно ожидать, что эти результаты распределятся приблизительно по нормальной кривой.
Если тест содержитразнородные заданияпримерно равного уровня трудности (а именно такие задания и подбираются для измерения интегральных свойств личности - с широкой областью применения), то нормальность распределения суммарных баллов возникает автоматически - как артефакт самой процедуры подсчета суммарных баллов.
При этом, конечно, форма кривой распределения баллов не позволяет говорить о реальной форме распределения измеряемого свойства, каким оно является само по себе - в широкой популяции испытуемых. Нормальность распределения есть артефакт, прямое следствие направленного отбора пунктов с заданными свойствами [15].
Это понимается так: когда распределение результатов теста, полученное на выборке стандартизации, заметно отличается от нормального, обычно производится корректировка трудности заданий, пока не достигается приблизительно нормальная кривая. В процессе создания теста нормальность распределения рассматривается скорее как методологическая проблема, чем как эмпирически наблюдаемый факт [2]. Всякий раз, когда группа, на которой проводится стандартизация теста, показывает распределение, которое нельзя признать нормальным, обычной реакцией психолога являются действия по корректировке теста. Таким образом, большинство тестов, видоизменяется до тех пор, пока они не дадут в популяции, для которой они предназначены, распределение, приближенные к нормальному.
Некоторые пункты шкалы удаляются или добавляются, другие перемещались по шкале вверх или вниз; при этом исследователь каждый раз оценивает, к чему приводят подобные изменения, и, в конце концов, добивается желаемой приближенности распределения к нормальному виду. Поэтому, говоря, что данное распределение нормальное, чаще всего подразумевается, что был проведен процесс тщательной стандартизации данного теста. И наоборот, говоря, что данное распределение не соответствует норме, подразумевается только то, что тест получился неудачным или что тест применялся к группе, для которой он был не пригоден.
Если подбираются пункты, высоко положительно коррелирующие между собой (ответы на пункты не являются статистически независимыми), то в распределении баллов возникает отрицательный эксцесс. Максимальных величин отрицательный эксцесс достигает по мере возрастания вогнутости вершины распределения - до образования двух вершин - двух мод (с "провалом" между ними).
Бимодальная конфигурация распределения баллов указывает на то, что выборка испытуемых разделилась на две категории (с плавными переходами между ними): одни справились с большинством заданий, другие - не справились.
Такая конфигурация распределения свидетельствует о том, что в основе пунктов лежит какой-то один общий им всем признак; соответствующий определенному свойству испытуемых: если у испытуемых есть это свойство (способность, умение, знание), то они справляются с большинством пунктов, если нет этого свойства - то не справляются.
В некоторых редких ситуациях пункты могут отрицательно коррелировать друг с другом. В этом случае на кривой возникает положительный эксцесс: вся масса эмпирических точек скучивается вблизи среднего значения.
Такое возможно в двух случаях:
во-первых, когда ключ составлен неверно - объединены при подсчете отрицательно связанные признаки, которые обусловливают взаимоуничтожение баллов;
во-вторых, когда испытуемые применяют, разгадав направленность опросника, специальную тактику "медианного балла" - искусственно балансируют ответы "за" и "против" одного из полюсов измеряемого качества.
Есть несколько причин, по которым разработчики тестов обычно стремятся получить нормальное распределение. Если делать допущения относительно распределения какого-либо человеческого качества, нормальный график в большинстве ситуаций является наиболее вероятным. Известная сложность и множественность факторов, определяющих то, как данное качество проявляется у индивида, заставляет ожидать, что оно будет распределяться в соответствии с теорией вероятности.
Другой причиной стремления к поиску соответствия с нормальным распределением является та, что нормально распределенные данные позволяют подвергать их различным типам статистического анализа, который в противном случае оказывается неприменимым. Однако следует иметь в виду, что другие типы распределения могут быть предпочтительны для некоторых специальных целей и соответствующим образом использоваться [2].
Итак, когда в качестве единственного эталона измерения психодиагностами рассматривается сам тест, то в качестве меры измеряемого свойства выступает местоположение балла на кривой распределения.
Контрольные вопросы для самопроверки: §2.Взаимосвязь пунктов теста и видов распределений тестовых баллов.
1. Что понимается под трудностью заданий в психодиагностике?
2. Какая должна быть оптимальная трудность заданий? Дайте обоснование Вашему ответу.
3. Как связана трудность заданий с формой распределения суммарных тестовых баллов?
4. Для чего и всегда ли необходимо преобразовывать "сырые" баллы в производные показатели?
5. Почему большинство тестов разрабатывается так, чтобы распределение тестовых баллов в выборке стандартизации подчинялось нормальному закону?
Литература к теме.
1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.
2. Анастази А. Дифференциальная психология. Индивидуальные и групповые различия в поведении / Пер. с англ. – М.: Апрель Пресс, Изд-во ЭКСМО-Пресс, 2001. – 752 с.
3. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.
4. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.