Нормально распределенного диагностического параметра X

Операции по анализу распределения тестовых баллов, построе­нию тестовых норм и проверке их репрезентативности. Завершая этот раздел, кратко перечислим действия, которые последовательно должен произвести психолог при построении тестовых норм.

1. Сформировать выборку стандартизации (случайную или стра­тифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом ис­пытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал опре­деляется величиной W/m , где W=x max — х max; m - количество интерва­лов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для задан­ных интервалов равнозначности) в виде таблицы и в виде соответ­ствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего арифметического значения и стандар­тного отклонения, а также асимметрии и эксцесса с помощью компьюте­ра. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n < 200 с помощью более мощ­ных критериев) или произвести процентильную нормализацию с пе­реводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандарт­ных баллов).

6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщепле­нием выборки на две случайные половины. При совпадении норма­лизованных баллов для половины и для целой выборки можно счи­тать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варь­ированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных коор­динатах графики гистограммы и кумуляты для полной и частной вы­борок. При значимых различиях разбить выборку на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тесто­вых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица.

9. Определить критические точки (верхнюю и нижнюю) для до­верительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста.

11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точнос­тью прогноза критериальной деятельности) - осуществить обсле­дование более широкой выборки или отказаться от использования, данного теста.

НАДЕЖНОСТЬ ТЕСТА

В дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традиции раздельного изложения методов проверки этих важнейших пси­хометрических свойств теста.

Надежность и точность. Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений мож­но представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это пред­ставление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически заре­гистрированных баллов:

Нормально распределенного диагностического параметра X - student2.ru (3.2.1)

Так как истинная дисперсия и дисперсия ошибки связаны оче­видным соотношением, формула (3.2.1) легко преобразуется в фор­мулу Рюлона:

Нормально распределенного диагностического параметра X - student2.ru (3.2.2)

где а - надежность теста; Нормально распределенного диагностического параметра X - student2.ru . -дисперсия ошибки.

Величина ошибки измерения - обратный индикатор точности из­мерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипо­тезы о значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в поло­жении индивидуального балла (рис. 7).

Нормально распределенного диагностического параметра X - student2.ru

Рис. 7. Соотношение распределений Sm – стандартное отклонение эмпирического среднего, St – стандартное отклонение ошибки

Как же определить ошибку измерения? На помощь приходят кор­реляционные методы, позволяющие определить точность (надеж­ность) через устойчивость и согласованность результатов, получае­мых как на уровне целого теста, так и на уровне отдельных его пун­ктов.

Надежность целого теста имеет две разновидности.

1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испыту­емых, обычно через две недели после первого тестирования. Для ин­тервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:

Нормально распределенного диагностического параметра X - student2.ru

где х1i. - тестовый балл i-го испытуемого при первом измерении;

х2i. - тестовый балл того же испытуемого при повторном измерении;

n - количество испытуемых.

Оценка значимости этого коэффициента основывается на несколь­ко иной логике, чем это обычно делается при проверке нулевой гипо­тезы - о равенстве корреляций нулю. Высокая надежность достига­ется тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле

Нормально распределенного диагностического параметра X - student2.ru (3.2.4)

Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда­ется достичь коэффициентов, превышающих 0,8. При г = 0,75 отно­сительная доля стандартной ошибки равна Нормально распределенного диагностического параметра X - student2.ru . Этой ошиб­кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от средне­го по выборке оказывается, как правило, завышенным. Для того что­бы выяснить «истинное» значение тестового балла индивида, приме­няется формула

Нормально распределенного диагностического параметра X - student2.ru (3.2.5)

где Нормально распределенного диагностического параметра X - student2.ru - истинный балл; '

хi — эмпирический балл i-го испытуемого;

r - эмпирически измеренная надежность теста;

Нормально распределенного диагностического параметра X - student2.ru - среднее для теста.

Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тог­да истинный балл Нормально распределенного диагностического параметра X - student2.ru = 0,9 Нормально распределенного диагностического параметра X - student2.ru 120 + 0,1 Нормально распределенного диагностического параметра X - student2.ru 100 =118.

Конечно, требование ретестовой надежности является коррект­ным лишь по отношению к таким психическим характеристикам ин­дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тре­воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестиро­ванию используется коэффициент ранговой корреляции Спирмена:

Нормально распределенного диагностического параметра X - student2.ru , (3.2.6)

где di — разность рангов /-го испытуемого в первом и втором ранго­вом ряду.

С помощью компьютера определяется более надежный коэффи­циент ранговой корреляции Кендалла (1975).

2. Надежность- согласованность (одномоментная надежность).

Эта разновидность надежности не зависит от устойчивости, име­ет особую содержательную и операциональную природу. Простей­шим способ ее измерения состоите коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллель­ные формы теста получают расщеплением составного теста на «чет­ную» и «нечетную» половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммар­ные баллы и между двумя рядами баллов по испытуемым определя­ются допустимые (с учетом уровня измерения) коэффициенты кор­реляции. Если параллельные тесты не нормализованы, то предпоч­тительнее использовать ранговую корреляцию. При таком расщеп­лении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:

Нормально распределенного диагностического параметра X - student2.ru (3.2.7)

где rx - эмпирически рассчитанная корреляция для половин.

Делить тест на две половины можно разными способами, и каж­дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син­хронной надежности, который соответствует разбиению теста на та­кое количество частей, сколько в нем отдельных пунктов. Такова фор­мула Кронбаха:

Нормально распределенного диагностического параметра X - student2.ru (3.2.8)

где а - коэффициент Кронбаха;

k- количество пунктов теста;

Нормально распределенного диагностического параметра X - student2.ru - дисперсия по j-му пункту теста;

Нормально распределенного диагностического параметра X - student2.ru - дисперсия суммарных баллов по всему тесту.

Обратите внимание на структурное подобие формулы Кронбаха (3.2.2) и формулы Рюлона (3.2.8).

Несколько раньше была получена формула Кьюдера - Ричардсо­на, аналогичная формуле Кронбаха для частного случая - когда отве­ты на каждый пункт теста интерпретируются как дихотомические переменные с двумя значениями (1 и 0):

Нормально распределенного диагностического параметра X - student2.ru Нормально распределенного диагностического параметра X - student2.ru (3.2.9)

где KR20 - традиционное обозначение получаемого коэффициента;

Нормально распределенного диагностического параметра X - student2.ru -дисперсия i-и дихотомической переменной, какой является

i-й пункт теста; р = Нормально распределенного диагностического параметра X - student2.ru , q = 1 - p

В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:

Нормально распределенного диагностического параметра X - student2.ru (3.2.10)

где Нормально распределенного диагностического параметра X - student2.ru - эмпирическое значение статистики % квадрат с п-1 степе­нью свободы;

k - количество пунктов теста;

n - количество испытуемых;.

a - надежность.

Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо­ванность пунктов теста, используя при этом только подсчет диспер­сий. Однако коэффициенты а и KR2I> позволяют оценить и среднюю корреляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:

Нормально распределенного диагностического параметра X - student2.ru 11)

где Нормально распределенного диагностического параметра X - student2.ru - средняя корреляция между пунктами теста. Легко увидеть идентичность формулы (3.2.11) обобщенной формуле Спирмена - Бра­уна, позволяющей прогнозировать повышения синхронной надежно­сти теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение Нормально распределенного диагностического параметра X - student2.ru может сочетаться с высокой надежностью. Пусть Нормально распределенного диагностического параметра X - student2.ru = 0,1, a k =100, тогда по формуле (3.2.11)

Нормально распределенного диагностического параметра X - student2.ru

Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной до­статочно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент:

Нормально распределенного диагностического параметра X - student2.ru (3.2.12)

где θ - коэффициент, получивший название тета-надежности теста;

k - количество пунктов теста;

λ1 - наибольшее значение характеристического корня матрицы

интеркорреляций пунктов (наибольшее собственное значение, или аб­солютный вес первой главной компоненты).

Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной характе­ристики. Но, кроме того, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того, как на основании многофакторного анализа отобраны пункты по одному фактору, снова проводится фак­торный анализ - только для этих отобранных пунктов).

Надежность отдельных пунктов теста. Надежность теста обес­печивается надежностью пунктов, из которых он состоит. Чтобы по­высить ретестовую надежность теста в целом, надо отобрать из ис­ходного набора пунктов, апробируемых в пилотажных психометри­ческих экспериментах, такие пункты, на которые испытуемые дают устойчивые ответы. Для дихотомических пунктов (типа «решил - не решил», «да - нет») устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:

Тест 1

Да Нет

a B
c D

Да Тест 2

Нет

Здесь в клеточке а суммируются ответы «Да», данные испытуе­мым при первом и втором тестировании, в клеточке b - число случа­ев, когда испытуемый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В качестве меры корреляции вычисляется фи-коэффициент:

Нормально распределенного диагностического параметра X - student2.ru (3.2.13)

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:

Нормально распределенного диагностического параметра X - student2.ru (3.2.14)

Если вычисленное значение хи-квадрат выше табличного с од­ной степенью свободы, то нулевая гипотеза (о нулевой устойчивос­ти) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывает­ся тем меньшим, чем сильнее частота ответов «да» отличается от частоты ответа «нет».

Кроме того, сама четырехклеточная матрица позволяет просле­дить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может ока­заться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приоб­ретенного при первом тестировании). Выявленные в результате тако­го анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентатив­ной выборке величина Нормально распределенного диагностического параметра X - student2.ru превышает 0,71. При этом φ< 0,5.

Для т<?го чтобы повысить одномоментную (синхронную) надеж­ность теста, следует из исходной пилотажной батареи пунктов отбро­сить те, которые плохо согласованы с остальными[12]. В отсутствие ком­пьютера согласованность для пунктов также очень просто определяет­ся с помощью четырехклеточной матрицы. В этом случае в первом стол­бце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».

Высокая Низкая

A B
C D

Да

Нет

При нормальном распределении частот суммарных баллов «вы­сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар­гинальными квантилями (рис. 8).

Для оценки согласованности с суммарным баллом применяется полная[13] или упрощенная формула фи-коэффициента:

Нормально распределенного диагностического параметра X - student2.ru (3.2.15)[14]

где Нормально распределенного диагностического параметра X - student2.ru - количество ответов «верно» («да») на i-й пункт теста;

N* - сумма всех элементов матрицы;

N* = n • 0,54 где n - объём выборки;

Pi = а + b - При включении в эстремальную группу 1/3 выборки

N* = 0,66 • n.

Нормально распределенного диагностического параметра X - student2.ru

Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф­фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста.

При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р < 0,01 пороговое зна­чение вычисляется так:

Нормально распределенного диагностического параметра X - student2.ru (3.2.16)

При постоянном использовании компьютера при подсчете сум­марных баллов ключ для каждого пункта Q целесообразно опреде­лить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с сум­марным баллом. Тогда тестовый балл подсчитывается по формуле

Нормально распределенного диагностического параметра X - student2.ru (3.2.17)

где хi — суммарный балл i-го испытуемого;

Нормально распределенного диагностического параметра X - student2.ru - ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;

Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат­ного.

Более чувствительный коэффициент, который также применяет­ся для дихотомических пунктов, - это точечный бисериальный коэф­фициент корреляции, учитывающий амплитуду отклонения индиви­дуальных суммарных баллов от среднего балла:

Нормально распределенного диагностического параметра X - student2.ru 3.2.18)

где Нормально распределенного диагностического параметра X - student2.ru x* - сумма финальных баллов тех индивидов, которые дали утвердительный ответ на i-й пункт теста (решили i-ю задачу);

Sx - стандартное отклонение для суммарных баллов всех индиви­дов из выборки;

Нормально распределенного диагностического параметра X - student2.ru - стандартное отклонение по i-му пункту;

Нормально распределенного диагностического параметра X - student2.ru - средний балл по всем пунктам.

А. Анастази относит критерий внутренней согласованности тес­та к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и мож­но в данном случае говорить о валидности, то только в смысле осо­бой внутренней валидности теста. Как правило, слишком высокая со­гласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составлен­ных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель­ствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).

В компьютерных данных факторного анализа аналогом корреля­ции пункта с суммарным баллом является нагрузка пункта на веду­щий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласо­ванного теста предстанет в виде пучка векторов, плотно прилегаю­щих к фактору и вытянувшихся вдоль его оси (рис. 9).

Нормально распределенного диагностического параметра X - student2.ru

Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами

Последовательность действий при проверке надежности:

1. Узнать, существуют ли данные о надежности теста, предпо­лагаемого к использованию, на какой популяции и в какой диагнос­тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, про­вести заново проверку надежности с учетом указанных ниже воз­можностей.

2. Произвести повторное тестирование на всей выборке стан­дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициен­тов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический про­гноз - проекция тестового балла на будущее), в каких своих пунк­тах тест менее надежен (анализ этих пунктов позволяет психологи­чески осмыслить содержательный механизм взаимодействия пунк­тов с испытуемыми).

3. Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не ме­нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и ста­бильности теста в целом.

ВАЛИДНОСТЬ ТЕСТОВ

Проблемы валидизации психологических тестов являются цент­ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивос­ти) получаемых результатов относительно измеряемых свойств объек­тов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью раз­личения «объекта» и «предмета» измерения. Надежность - это устой­чивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель­ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци­альной психометрике значимость проблемы валидности резко возра­стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует срав­нивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по раз­меру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относитель­но объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обя­зательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав­шейся однажды задачей (например, с анаграммой «дзиканпр»), испы­туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за­дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возмож­ности интеллекта, например, методика «креативного поля» Д. Б. Бо­гоявленской.

Устойчивость теста относительно объектов (испытуемых) явля­ется необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

валидность ≤ надежность.

Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности[15]. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической пси­хологии - «преступность» (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдер­живать развитие концептуального аппарата дифференциальной пси­хологии. При этом суть самого предмета измерения: измеряемого пси­хического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию[16]. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: Нормально распределенного диагностического параметра X - student2.ru x— сумма баллов по тесту, полученных «высокой» груп­пой по критерию; Нормально распределенного диагностического параметра X - student2.ru - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования лич­ностной предрасположенности к совершению краж проведено обсле­дование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свиде­тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг­рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси­хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате­гории госпитализированных больных (обычно он выражается в по­вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин­терпретировать в смысле симптомов предрасположенности к опреде­ленным психогенным заболеваниям, ибо они относятся к следстви­ям, а не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказыва­ется провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для из­мерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между балла­ми двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвер­гентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.

Однако во многих случаях для измеряемого свойства психодиа­гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро­вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтвержде­ние указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполага­емой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле­дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.

Наши рекомендации