Проблемы объективности психодиагностической информации

Объективность психодиагностики вообще и тестовых пока­зателей в частности достигается путем неуклонного соблюде­ния психологом критериев достоверности психодиагностичес­кого измерения, а также путем приобретения опыта получения, использования и интерпретации полученных данных.

Достоверность психодиагностического измерения опреде­ляется валидностью (соответствием тестовых данных измеряе­мому свойству), надежностью (точностью психодиагностичес­ких измерений) и прогностичностью (предположением о раз­витии измеренного свойства) применяемых психологических методик (тестов).

Валидность тестов

Валидностью как элементом достоверности психодиагнос­тического измерения свойств субъекта называется мера соот­ветствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности человека. В теории психометрии определяют два основных типа и по крайней мере одиннадцать видов валидности методик (см. рис. 7).

Рис. 7. Структура валидности

Различают два типа валидности — внешнюю и внутреннюю*. Внешняя валидность есть мера возможности распространения результатов тестирования на генеральную совокупность**. Вне­шняя валидизация осуществляется путем расчета репрезента­тивности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабаты­вался стимульный материал и задания к тесту.

* См.: Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001.— С. 133-193.

** Там же.

Репрезентативность выборки — это представительность эк­спериментальной выборки, которая отражает основные свой­ства генеральной совокупности. Репрезентативность опреде­ляется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристи­ками исследуемой популяции с целью определения их одно­родности.

К качественным характеристикам могут быть отнесены со­циально-демографические, видовые, интеллектуальные (обра­зовательные), профессиональные и другие характеристики по­пуляции (группы), которые являются предметом исследования или существенно влияют на него.

Количественная характеристика экспериментальной груп­пы — это минимальная ее численность, сохраняющая свойства генеральной совокупности. Формирование репрезентативной выборки по количественному признаку осуществляется при помощи теоремы П. А. Чебышева о вероятности ошибки реп­резентативности, которая гласит: «С вероятностью сколь угод­но близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней» и далее (следствие 1 из теоремы П. А. Чебышева) «...что с вероят­ностью, как угодно близкой к единице («практически досто­верно»), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик»*.

* Карасев А.И. Основы математической статистики. — М.: Росвузиздат, 1962. — С. 172.

В психологической литературе существует несколько тео­ретических подходов к расчету объема минимально репрезен­тативной выборки*. Часто приводятся таблицы опытно полу­ченных данных**. Так, С. Москвин отмечает, что при объемах генеральной совокупности 400, 500, 1000, 2000, 5000, 10000 и более 10 тыс. человек минимальная выборка составляет соот­ветственно 200, 222, 286, 333, 370, 398 и 400 испытуемых (указ. публ., с. 28). Г. Лоза указывает на следующее соотношение ге­неральной совокупности и объема экспериментальной выбор­ки при проведении социологических исследований 100/16-17 чел., 300/50 чел., 1000/100 чел. и 5000/200 испытуемых. В лек­ции А. Гончарова минимальная репрезентативная выборка от­носительно генеральной совокупности соответственно состав­ляет: 500/222, 1000/286, 2000/333, 3000/350, 4000/360, 5000/370, 10 000/385, 100 000/398 и более 100 000 - 400 респондентов.

* Введение в профессию. — М.: Воениздат, 1992; Карасев А.И. Основы математи­ческой статистики. — М.: Росвузиздат, 1962; Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. — СПб.: Питер-Ком, 1999 и др.

** Введение в профессию. — М.: Воениздат, 1992; Москвин С. Выборка в социоло­гическом исследовании // Военно-социологическое исследование, 1993. С. 27-30; Гон­чаров А.И. Методы изучения общественного мнения и социальной информации (Лек­ция). - М.: ГА ВС, 1993.

В ходе анализа психологических данных для расчета объема минимальной репрезентативной выборки используются следу­ющие формулы:

1) формула расчета объема минимальной репрезентативной выборки* при нахождении доли элементов генеральной сово­купности, обладающих некоторым признаком (номинальная измерительная шкала):

* Карасев А.И. Основы математической статистики. — М.: Росвузиздат, 1962. — С. 213.

2) формула расчета объема минимальной репрезентативной выборки* при нахождении средней признака (интервальная измерительная шкала):

*Там же, с. 212.

3) формула расчета объема минимальной репрезентативной выборки*:

где n— объем минимальной репрезентативной выборки испы­туемых;

t — коэффициент кратности ошибки, связанный с вероят­ностью гарантии ошибки выборочного наблюдения (вели­чина t-критерия Стъюдента);

δ — величина стандартного отклонения;

D — размер ошибки доверительного интервала измерения признаков;

N — объем генеральной совокупности;

p — частота проявления данного признака;

q = 1 - р.

* Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. -СПб.: Питер-Ком, 1999. - С. 64-65.

Практическое задание. Рассчитать объем минимально-реп­резентативной выборки испытуемых, если объем генеральной совокупности 5000 чел., а вероятность проявления исследуе­мого признака («угадывания» при помощи теста) — 0.8.

Дано: t — коэффициент кратности ошибки, связанный с вероятностью (Pt), с которой требуется гарантировать резуль­таты выборочного наблюдения; D — размер ошибки довери­тельного интервала измерения признаков = 0,05; N — объем генеральной совокупности = 5000; р — частота проявления дан­ного признака = 0.8; q = 1 — р = 0.2.

Определить: n — минимально необходимую численность экспериментальной выборки.

Ответ: n = 235.

Вывод: При повышении достоверности измерений проис­ходит заметное уменьшение объема минимально репрезента­тивной выборки. Аналогичное влияние отказывает точность измерений (D).

Перекрестная валидизация производится путем апроба­ции теста на выборке, отличной от экспериментальной. Пе­рекрестная валидизация осуществляется для того, чтобы оп­ределить границы применения методики по критерию «ха­рактеристика популяции» (для определения уровня развития свойства у детей, подростков, мужчин-женщин, определен­ной группы специалистов и т. д.). В ходе перекрестной валидизации рассчитываются коэффициенты корреляции между одними и теми же показателями, полученными в результате тестирования разных групп испытуемых. Вывод о возмож­ности применения теста на данной популяции делается при помощи параметрических критериев (t-критерий Стъюдента, n — критерий Уэлша).

Практическое задание. Рассчитать объем эксперименталь­ной выборки по критерию обучаемости испытуемых (приме­нялся тест ОСО*).

* ОСО — тест «Оценка общей способности к обучению».

Дано:

Группа 1 (школьники 9-го класса — 15 лет):

Количество испытуемых n = 471

Среднее значение показателя Мх = 3.75

Среднеквадратическое отклонение δ = 1.4

Группа 2 (школьники 10-го класса — 16 лет):

Количество испытуемых n =178

Среднее значение показателя Мх = 3.66

Среднеквадратическое отклонение δ = 0.8

Группа 3 (курсанты училища связи — 18 лет):

Количество испытуемых n=104

Среднее значение показателя Мх = 3.20

Среднеквадратическое отклонение δ=1.1

Решение: Для расчетов используется формула t-критерия:

* Экспериментальные выборки значимо не различаются на уровне р≤0.05.

** Экспериментальные выборки значимо различаются на уровне р≤0.05.

Вывод: в результате расчетов выявлено значимое различие показателей обучаемости между первой и третьей и между вто­рой и третьей исследованными группами, которые не могут счи­таться однородными и составлять единую совокупность. Толь­ко между первой и второй выборками по данному критерию не существует значимых различий (р<0.05). В целях проверки валидности первую и вторую группы можно объединить в одну экспериментальную выборку и считать единой популяцией в количестве 649 человек.

Уяснив содержание внешней валидности методик, перейдем к рассмотрению аспектов внутренней валидности.

Внутренняя валидность — это мера соответствия тестовых оценок уровню развития измеряемого свойства. Она состоит по крайней мере из пяти элементов:

а) концептуальная (теоретическая) валидность — теорети­ческое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством;

б) содержательная валидность — степень репрезентативно­сти содержания заданий теста измеряемой области психичес­ких свойств;

в) конструктная валидность — степень репрезентативности исследуемого психологического конструкта в результатах теста («насколько результаты теста рассматриваются в качестве меры исследуемого психологического конструкта — фактора, свой­ства»)*

г) операционная валидность — степень репрезентативнос­ти в конкретных экспериментальных операциях реальных опе­рациональных условий психической деятельности;

д) эмпирическая валидность — совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. К этим характеристикам относятся так называемые очевидная и критериальная виды валидности.

* Анастази А. Психологическое тестирование. В 2-х книгах. — М.: Педагогика. Т 1. С. 140.

Очевидная валидность — это представление о тесте, сфере его применения, результативности и прогностической ценно­сти, которое возникает у испытуемого и другого лица, не рас­полагающего специальными сведениями о характере исполь­зования и целях методики.

Критериальная валидность — комплекс характеристик, включающий текущую и прогностическую валидности методи­ки и отражающий соответствие диагноза и прогноза определен­ному кругу критериев развития измеряемого свойства. Крите­риальная валидность оценивается величиной связи, корреля­ции показателя теста с «внешним критерием».

Эмпирическая валидность измеряется при помощи коэффи­циентов валидности.

Текущая [диагностическая (конкурентная)] валидность* мера способности теста дифференцировать испытуемых по изу­чаемому признаку. Текущая валидность теста определяется ис­ходя из его «трудности» и мер изменчивости измеряемого при­знака.

* Текущая, диагностическая и конкурентная валидности здесь употребляются как синонимы.

Трудностью теста называется отношение количества решен­ных заданий методик к нерешенным заданиям*. Уровень труд­ности характеризуется коэффициентом трудности (Тт), кото­рый вычисляется по формулам А и Б.

* Анастази А. Психологическое тестирование. В 2-х книгах. — М.: Педагогика. Т. 1.С. 180-182.

где Np— количество решенных заданий теста; Nh — количе­ство нерешенных заданий теста.

Оптимальная «трудность теста», рассчитанная с помощью формулы А, должна колебаться в пределах 50%, однако, как признают многие психологи, достичь такого положения край­не затруднительно. На практике критериальная «трудность» рассчитывается для всей тестовой батареи и уже ее значение должно колебаться в пределах 50%, а «трудность» входящих в нее тестов - находиться в пределах «умеренного разброса». Видимо, этот «умеренный разброс» находится в пределах d, то есть ± 16%. (Следует также учитывать 5%-ю ошибку вычисле­ний.)

где δ — стандартное отклонение, которое вычисляется по фор­муле:

Трудность теста, рассчитанного по формуле (Б), находится в пределах от 1 до 25 (цифры 13 и 4 выбраны экспериментально в целях исключения отрицательных и дробных показателей и удобства расчетов). Средняя трудность теста имеет значение 13.

Практическое задание. Рассчитать трудность тестовой бата­реи, состоящей из двух субтестов.

Решение:

К мерам изменчивости измеряемых признаков, как прави­ло, относят характеристики распределения эмпирических дан­ных (нормальность распределения) и характеристики вариации признаков.

Нормальность распределения данных определяет числен­ную характеристику дифференциации испытуемых. Она вычис­ляется при помощи критерия Хи-квадрат Пирсона, а также с использованием коэффициентов асимметрии и эксцесса рас­пределения переменных.

Ширина полосы разброса данных по шкале измерений от min до max; это характеристика вариации признаков. Простей­шими измерителями вариации признаков являются размах ва­риации R (это разность между наибольшим и наименьшим зна­чениями признаков, то есть R = xmax — xmjn) и дискриминатив-ность заданий — субтестов (способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно «максимального» или «минимального» результата теста). Мера соответствия успешности выполнения одного субтеста всей методике является показателем дискриминативности заданий теста и называется коэффициентом дискриминации (индексом дискриминативности). Индекс дискриминативности теста рас­считывается в процессе разработки тестов и тестовой батареи. Он вычисляется при помощи а) точечно-биссериального ко­эффициента корреляции (Rpb) (см. выше) и б) метода контрас­тных групп в виде разности между долей лиц, правильно ре­шивших задание из «высокопродуктивной» и «низкопродуктив­ной» групп (D)*.

* См. Словарь-справочник по психологической диагностике / Бурлачук Л.Ф., Морозов С.М. - Киев, 1989. - С. 47-48.

Наибольший интерес представляет характер группировки значений признака вокруг их средней. Мерой ее определения являются дисперсия (среднеквадратическое отклонение) и ко­эффициент вариации (V), который определяется как отноше­ние дисперсии (dx) к среднему (Мх), выраженное в процентах:

Между характеристиками распределения и вариативностью переменных имеется связь, которая предопределяет оптимальное сочетание формы распределения с вариативностью. Большая ва­риативность признаков говорит о том, что распределение ненор­мально, асимметрично и сильно скошено. Малая вариативность показывает, что тест не дифференцирует испытуемых по измеряе­мому признаку (испытуемые отвечают или решают задание оди­наково). При анализе трудности, нормальности распределения и вариативности показателей тестов необходимо соблюдать МЕРУ, которая вырабатывается в процессе накопления опыта диагнос­тической работы и статистической обработки данных.

Прогностическая валидность является элементом содержа­ния достоверности тестов и определяется как степень точнос­ти и обоснованности суждения о диагностируемом психичес­ком свойстве по его результату спустя определенное время после измерения.

Показателем прогностичности теста является степень рег­рессии тестовых данных к объективным критериям. Регрессия представляет собой функцию f (х1 х2 х3, ... хn), описывающую зависимость среднего показателя теста, измеряющего данное свойство от заданных фиксированных значений реального про­явления этого свойства (внешнего критерия — у). Эта функция может носить линейный и нелинейный характер (линейная рег­рессия: у = b + ах; параболическая зависимость: у = b + ах + сх2; гиперболическая зависимость: у = b + а/х; показательная функция: у = b + а).

В практической психодиагностике для прогноза развития или проявления измеренного свойства чаще применяют линей­ную или множественную линейную регрессию (у = b + а1 х12 х2… +аn хn). Физический смысл ее заключается в приравнивании зависимой и независимой переменных. Изменение зависимой переменной прямо определяет изменение независимой пере­менной. Коэффициент а показывает угол наклона оси регрес­сии, а свободный член b — отстояние начала оси регрессии от начала координат. Коэффициент корреляции показывает уро­вень прогностичности функции, a R2 - уровень объясняемой дисперсии у за счет изменения х. При использовании тестовой батареи прогноз измеряемого свойства осуществляется посред­ством связанных между собой нескольких зависимых переменных (х1, x2, x3,... xn), которые и формируют множественную ли­нейную регрессию. При использовании множественной линей­ной функции при прогнозе развития измеряемого свойства повышается уровень прогностичности тестирования и его дос­товерность за счет перекрытия разными методиками различных сторон измеряемого свойства.

Надежность тестов*

* См.: Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001. — С. 103-132.

Надежность — это характеристика психодиагностической методики, отражающая точность психодиагностических изме­рений, а также устойчивость (стабильность) результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психологического исследования.

Наибольшая стабильность результатов наблюдается при применении графических и графологических тестов, показате­ли которых меняются крайне медленно. Медленно изменяется почерк, практически неизменными остаются качество линий рисунков и их композиция.

Наибольшая динамичность показателей наблюдается у ин­теллектуальных тестов, которые напрямую зависят от способ­ности человека накапливать и перерабатывать информацию.

На устойчивость (стабильность) показателей теста влияют следующие факторы:

• состояние и настроение обследуемых;

• мотивация испытуемых к тестированию;

• эргономические факторы (освещенность, температура в помещении, вибрация, шумы и пр.);

• характеристика деятельности (монотонность-динамич­ность, помехи и др.);

• степень обучаемости (или натренированности) испытуе­мых и др.

Надежность результатов тестирования зависит также от а) изменчивости инструмента психологического измерения и б) факторов стабильности самой процедуры измерения. Таким образом, надежность есть степень согласованности результа­тов тестирования, получаемых при первом и последующих измерениях.

На практике наиболее широко применяются шесть типов надежности: надежность ретестовая (тест-ретест надежность); надежность параллельных форм; надежность частей теста (на­дежность как гомогенность тестов); надежность по Кудеру -Ричардсону; надежность интерпретатора («оценщика») и стан­дартная ошибка измерений.

Определение коэффициента надежности в первых двух слу­чаях вычисляется по формулам расчетов коэффициентов кор­реляции (в зависимости от шкалы, в которой измерены дан­ные) между первым и последующим измерениями или между параллельными формами теста.

Расчет коэффициента надежности при исследовании го­могенности теста осуществляется путем разбиения теста на равные субтесты и расчета корреляции между этими частя­ми. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена -Брауна:

где R — корреляция «половин» теста.

Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть два ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:

где рi— доля 1-го варианта ответа на i-й вопрос;

qi — доля 2-го варианта на i-й вопрос.

Надежность частей теста может также рассчитываться по формуле Кудера — Ричардсона:

где К — количество равных частей теста;

δxi2 - дисперсия i-й части теста;

δх2 — дисперсия целого теста.

При работе с клиническими опросниками, тестами креатив­ности и проективными технологиями надежность методик опре­деляется путем сравнения интерпретаций результатов двумя или более экспертами-психологами. Высокие коэффициенты корре­ляции между ними показывают надежность тестовой оценки.

Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квад­рат. Интерпретируется он следующим образом. Например, коэф­фициент корреляции между параллельными формами теста равен 0.75. Коэффициент надежности рассчитывается так: 0.752= 0.56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельно­го теста), а 44% — от ошибок или случайных переменных.

Разберем гипотетический пример определения надежности двух форм теста* в ходе исследования креативности 100 школь­ников. В результате коэффициент надежности взаимозаменяе­мых форм с интервалом ретестирования две недели составил 0.7. Была вычислена надежность-гомогенность тестов при по­мощи формулы Спирмена — Брауна, которая составила 0.8. Надежность интерпретации («оценщика») с привлечением вто­рого специалиста-психолога была равна 0.92. Анализ источни­ков дисперсии ошибок показан в таблице.

* См. Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001. — С. 120-121.

Анализ источников дисперсии ошибок в исследуемом тесте
По надежности взаимозаменяемых форм (с временным интервалом две недели) 1 — 0.7 = 0.3 (ошибка ретеста + ошибка гомогенности)
По надежности эквивалентных половин теста (формула Спирмена — Брауна) 1 — 0.8 = 0.2 (ошибка гомогенности)
Разность 0.3 — 0.2 = 0. 1 (ошибка ретеста)
По надежности интерпретации («оценщика») 1 — 0.92 = 0.08 (различия между интерпретациями)
Суммарная оценка дисперсии ошибок 0.2 + 0.1 + 0.08 = 0.38
Истинная дисперсия 1 — 0.38 = 0.62

Результаты исследования надежности теста креативности можно представить схематично в процентном распределении дисперсии показателей теста.

«Истинная» дисперсия: 62% Дисперсия ошибок: 38%
Временная устойчивость; согласованность форм; независимость от различий между интерпретациями («оценщиками»). Ошибка гомогенности: 20% Ошибка ретеста: 10% Различия между интерпретациями; 8%

Надежность теста можно выразить посредством расчета стандартной ошибки измерений — SEM (стандартная ошибка показателя)*. Она рассчитывается по формуле [33].

где δx — стандартное отклонение показателей теста;

Rxx — значение коэффициента надежности.

* См.: Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001. — С. 127-131.

Физический смысл SEM заключается в определении дис­персии показателей конкретного теста вокруг «истинного по­казателя», которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нор­мального распределения психологических данных попадает в интервал Мх ± δx, то примерно два шанса против одного (68 : 32), что ошибка измерений будет «колебаться» в пределах ± 1 SEM. При увеличении плотности распределения данных, например –Мx± 3 SEM, увеличивается и вероятность предсказания (99.7:0.3) при соответствующем росте интервала ошибки в обе стороны.

Пример: рассчитаем стандартную ошибку измерений при помощи тестов CFIT и Равена. Интеркорреляция между пока­зателями тестов составляет 0.81. Стандартное отклонение — 15. Результирующий показатель исследуемой методики CFIT ра­вен, допустим, 110 IQ-баллов.

Это означает, что при определении «истинного» IQ и соотно­шении шансов удачного предсказания истины 2 : 1 (или 68 : 32) ошибка будет колебаться в интервале ±1.5 IQ-баллов. И «ис­тинный» показатель теста находится в пределах от 103.5 до 116.5.

При увеличении вероятности прогноза до соотношения 99.7 : 0.3 (3 ± δx) ошибка возрастает до ± 19.5, а «истинный» показа­тель займет место между 90.5 и 129.5.

Таким образом, надежность, валидность и прогностичность эмпирических данных дают возможность измерять психологические переменные на соответствующем уровне достоверности, который диктуется практикой социальных исследований.

3.4. Разработка, адаптация и использование психодиагностических методик (тестов)

В практике психодиагностической работы перед психоло­гом возникают две основные задачи: разработка, адаптация методик и формирование тестовой батареи.

Алгоритм работы в обоих случаях приблизительно оди­наков. Различие заключается в том, что при разработке тес­та весомое место занимает концептуальная валидизация ме­тодики, которая практически отсутствует в процессе фор­мирования тестовой батареи, потому что для измерения ка­кого-либо свойства подбираются теоретически валидные тесты.

В качестве примера разработки методики для иллюстрации процесса валидизации нового теста взят алгоритм отработки технологии «Семантический анализ деятельности» (САД)* и теста «Семантического дифференциала «Божественного Откро­вения» (СДО), а формирование и валидизация тестовой бата­реи показаны на примере профессиологической задачи отбора персонала.

* В процессе разработки и использования, как это часто случается, пока тест не закончил свое становление, методика "Семантического анализа деятельности" (САД) несколько раз меняла свое название. В настоящее время полное наименование методи­ки следующее: "Технология психосемантического анализа — САД" (ТПА-САД), но впол­не законно употребление следующих наименований: "Семантический анализ деятель­ности", "Тест-технология САД", "Технология САД" или просто "Методика САД", "Тест САД".

Наши рекомендации