Смешанная систематическая ошибка свободного члена и наклона линии регрессии
До сих пор рассматривались лишь «чистые» систематические ошибки свободного члена регрессии или наклона линии регрессии – случаи, в которых систематической ошибке подвержен либо первый элемент, либо второй, но не оба вместе взятые. Подводя итог, можно отметить, что «чистая» систематическая ошибка свободного члена регрессии показывает, что между двумя группами существует расхождение в предсказанном значении критериальной переменной, кроме того, величина этого расхождения с изменением тестового балла не меняется. И наоборот, «чистая» систематическая ошибка наклона линии регрессии показывает, что величина расхождения изменяется вместе с изменением тестовых баллов, получаемых респондентами.
Также возможно (и чаще всего происходит на практике) одновременное присутствие систематической ошибки и свободного члена, и наклона линии регрессии. В таком случае между тестовыми баллами и прогнозируемым значением критериальной переменной в двух разных будет наблюдаться сложная взаимосвязь. Например, может оказаться, что при низком уровне технических способностей прогнозируемое значение критериальной переменной для мужчин будет выше, чем для женщин; однако же при высоком уровне технических способностей прогнозируемое значение критериальной переменной будет выше в группе женщин. Возможны весьма различные варианты такого рода расхождений, один из них изображен на Рисунке 11.7.
Рисунок 11.7. Графики линейной регрессии в группах мужчин и женщин по сравнению с графиком общего регрессионного уравнения (иллюстрация смешанной систематической ошибки свободного члена и наклона линии регрессии)
Систематическая ошибка критериальной переменной
До сих пор обсуждение систематической прогностической ошибки было сосредоточено вокруг самого валидизируемого теста. Однако также возможны случаи, когда систематической ошибке подвержена критериальная переменная. Например, возможно, что руководитель, проводящий оценку компетентности участников после прохождения ими обучающей программы, склоняется в пользу одной из групп. Тест, использующийся в качестве критериальной переменной, например, 100-пунктовый тест технической компетентности, также может быть подвержен ошибке. В приведенных выше рассуждениях всегда подразумевалось, что критериальная переменная систематическую ошибку не содержит, но, естественно, такой вариант тоже возможен.
Эффект надежности
Следует понимать, что и угловой коэффициент регрессии (наклон линии), и значение свободного члена зависят от надежности тестовых показателей. В приведенном выше обсуждении подразумевалось, что валидизируемый тест и критериальная переменная обладают высокой надежностью (напр., Rxx > 0.90). Уменьшение надежности тестовых показателей может оказать значительное влияние на параметры регрессионного уравнения и, как следствие, повлиять на заключение исследователя о наличии прогностической погрешности. Эти вопросы являются довольно сложными и выходят за рамки данной книги, но заинтересованному читателю можно порекомендовать Дженсена (Jensen, 1980, глава 9).
ДРУГИЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ
Следует также отметить, что для обнаружения систематической ошибки тестовых баллов используются и другие статистические методы, до сих пор нами не затронутые. Например, такой метод, как моделирование структурными уравнениями, при определенных условиях может определить наличие как конструктной, так и прогностической систематической ошибки. В качестве статистического метода оценки прогностической систематической ошибки в данной главе рассматривался регрессионный анализ. Такие более сложные регрессионные методы, как, например, иерархическая регрессия, расширяют возможности традиционного и предоставляют исследователям возможность тестировать гипотезы о конкретных источниках ошибки. Моделирование структурными уравнениями и такие регрессионные методы, как иерархическая регрессия, являются довольно сложными статистическими процедурами, рассмотрение которых выходит за рамки данной книги.
СПРАВЕДЛИВОСТЬ ТЕСТА
Наконец, остановимся вкратце на такой противоречивой проблеме психологического тестирования, как справедливость теста. Когда результаты психологического теста используются для принятия решений, которые влияют на жизнь людей, респонденты, принадлежащие к определенной группе (напр., к определенным этническим или расовым меньшинствам) могут посчитать, что результаты теста являются несправедливыми и неблагоприятными для членов именно этой группы. Например, предположим, работодатель использует определенный психологический тест, чтобы отобрать потенциальных сотрудников. Предположим, что в среднем мужчины справляются с тестом лучше женщин, поэтому более вероятно, что на работу наймут мужчин. Женщины могут посчитать, что результаты теста используются несправедливо.
Очень важно отличать справедливость теста от систематической ошибки теста. Как уже говорилось, систематическая ошибка теста – это психометрическое понятие, используемое в теориях валидности тестовых показателей. Систематическая ошибка определяется в рамках психометрических теорий статистическими методами, которые позволяют исследователям принимать решение о наличии или отсутствии погрешности измерения. Справедливость теста, наоборот, не имеет отношения к психометрическим свойствам. Справедливость теста имеет отношение к правильному использованию результатов тестирования и является скорее социальным, философским и, возможно, правовым термином, который отражает ценностное суждение (Ghiselli et al., 1981; Jensen, 1980; Thorndike, 2005). Здесь уместно было бы вспомнить старинный афоризм о том, что справедливость – в глазах смотрящего. Можно опросить респондентов о том, считают ли они тест справедливым, но их ответы не будут иметь ничего общего с психометрическими свойствами данного теста. Возможен вариант, когда исследователь имеет убедительные доказательства того, что показатели определенного теста не подвержены систематической ошибке, однако у большинства респондентов складывается мнение, что показатели теста используются несправедливо. Более того, они могут быть правы, потому что справедливость теста и систематическая ошибка теста - два разных понятия, которые существуют в различных областях знания, в научной сфере и в общественно-политической сфере.
Справедливость теста – важная проблема психологического тестирования. Психологическое тестирование предполагает выбор и администрирование теста, а также интерпретацию его результатов. Предполагается, что психодиагносты должны быть знакомы с психометрическими свойствами используемого теста. Те действия, которые психодиагносты производят с результатами теста, могут повлиять на суждение респондентов о его справедливости. Более того, даже тест с высокими психометрическими качествами может быть использован для принятия несправедливых решений. Справедливость теста является важной социальной проблемой. Психометрические свойства теста, включая информацию о потенциальном наличии систематической ошибки, всегда должны служить фактором применения теста в той или иной сфере, однако они не всегда влияют на то, как справедливость теста будут оценивать сами респонденты.
РЕЗЮМЕ
В нескольких последних главах затрагивался ряд вопросов, имеющих большое значение для определения понятий надежности и валидности. В Главе 8 были представлены концептуальные основы валидности, имеющие отношение к интерпретации и использованию результатов теста. Также в ней были рассмотрены несколько видов эмпирических показателей, свидетельствующих о валидности теста (напр., внутренняя структура теста, взаимосвязь теста с другими переменными). В Главе 9 рассматривались методы, которые используются, чтобы оценить «номологическую сеть» результатов тестирования: например, такие методы, как матрица множественных методов и признаков и квантификация конструктной валидности. Данные методы могут быть использованы для того, чтобы определить, насколько взаимосвязь результатов тестирования с другими переменными соответствует той, которая была предсказана на основе теоретического конструкта.
Данная и предыдущая главы представили на рассмотрение анализ тех факторов, которые могут представлять угрозу для надежности и валидности интерпретации и использования тестовых баллов. В Главе 10 рассматривались установки респондента на тот или иной ответ (напр., установка на согласие, установка на социальную желательность). Систематическая ошибка, связанная с установками на ответ, искажает истинные индивидуальные различия между респондентами. В Главе 11 рассматривалась уже систематическая ошибка теста, которая приводит к тому, что систематически искажаются (или создаются) различия между группами респондентов. Существуют простые и широко распространенные методы работы с установками респондентов на тот или иной ответ. Что касается методов работы с систематической ошибкой теста, они несколько противоречивы и во многом выходят за пределы данной книги. Для того, чтобы познакомиться с современными исследованиями данных вопросов, рекомендуем заинтересованным читателям обратиться к работам таких авторов, как Sackett, Schmitt, Ellingson (2001).
В целом можно отметить, что валидность интерпретации и использования тестовых баллов – фундаментальная проблема, с которой сталкиваются ученые, изучающие поведение и использующие для этого методы психологического измерения. Спустя десятилетия концептуальной и методологической работы разработчики, пользователи и исследователи тестов определили значение и способы оценки валидности. Несмотря на то, что факторы, угрожающие валидности, до сих пор существуют, психологи добились значительного прогресса в идентификации этих факторов и в разработке различных стратегий для их выявления, предотвращения или сведения к минимуму. Тем не менее, психологические тесты должны использоваться и интерпретироваться в тесном соотношении с теоретическими и практическими основами их значения и применения, которые описаны в предыдущих главах.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
Одна из самых полных и информативных работ по проблемам систематической ошибки теста и справедливости его использования:
Jensen, A.R. (1980).Bias in mental testing. New York: Free Press.
ГЛАВА 12
ТЕОРИЯ ГЕНЕРАЛИЗУЕМОСТИ
Доктор Джонсон – специалист в области возрастной психологии, особенно она интересуется исследованием агрессивности у подростков. Есть несколько вариантов того, как она может в своих исследованиях проводить измерение агрессивности. Она могла бы попросить «целевых» респондентов заполнить самооценочный опросник на агрессивность, либо же она могла бы опросить друзей этих респондентов, и в таком случае уровень агрессивности респондента оценивался бы не им самим, а его друзьями. С другой стороны, она могла бы постараться избежать использования опросников и измерить агрессивность испытуемого путем наблюдения за его поведением. Например, доктор Джонсон могла бы попросить испытуемых в течение пяти минут разговаривать с незнакомцем противоположного пола и записать этот разговор на видеокамеру. Затем она могла бы привлечь к работе свою помощницу, Дорис, попросив ее просмотреть записи и оценить у каждого из участников исследования уровень поведенческой агрессии. Понимая необходимость использования нескольких мер, она могла бы попросить Дорис оценить каждого испытуемого по трем позициям, которые, как она считает, связаны с агрессивностью, - враждебный, злой и недоброжелательный. Цель, которую преследует доктор Джонсон, - количественно выразить индивидуальные различия респондентов в отношении агрессивности, которую они проявляют.
Данная стратегия измерения хорошо вписывается в классическую теорию тестов (Classical test theory, CTT) – психометрический подход, описанный ранее в главах, посвященных проблеме надежности. Эта стратегия относительно проста, оценивается лишь один потенциальный источник ошибки измерения - различия пунктов (вопросов, заданий или утверждений) теста. В данном случае классическая теория тестов может применяться доктором Джонсон для оценки степени вклада межпунктовых различий в общую погрешность измерения. На основе определения межпунктовой корреляции она могла бы вычислить коэффициент надежности «альфа» для трехпунктовой шкалы агрессивности. Кроме того, она могла бы воспользоваться процедурами типа формулы Спирмена-Брауна и предсказать коэффициент надежности шкалы с большим или меньшим набором сходных по смыслу пунктов.
Данная относительно простая исследовательская стратегия, однако, может вызвать у доктора Джонсон некоторые сомнения. В частности, ее может обеспокоить то, что для оценки поведенческих проявлений агрессивности приходится надеяться лишь на одного наблюдателя. Будучи уникальной личностью, Дорис обладает своим неповторимым способом мышления и интерпретации событий, включая интерпретацию поведения, потенциально связанного с агрессией. Например, Дорис может иметь склонность воспринимать сарказм как проявление агрессии. Когда испытуемый делает саркастичное замечание, Дорис воспринимает это замечание как агрессивное, хотя многие другие наблюдатели могли бы воспринять его как шутку. Исходя из данных соображений, доктор Джонсон могла бы нанять еще двух наблюдателей, Кена и Тима, которые также должны будут смотреть видеозаписи и оценивать поведение испытуемых. При такой организации исследования каждый из наблюдателей независимо оценивает каждого из испытуемых по каждому из пунктов (враждебный, злой, недоброжелательный). Затем доктор Джонсон объединит оценки трех независимых наблюдателей и получит обобщенные баллы агрессивности, надеясь на то, что эти баллы будут более объективными, потому что уникальные особенности интерпретации поведения одним наблюдателем будут сглаживаться уникальными особенностями интерпретации поведения другим наблюдателем.
Несмотря на то, что классическая теория тестов находит широкое применение для концептуализации и оценки качества многих измерительных методов, в данном случае для улучшенной стратегии измерения, использованной доктором Джонсон, она неприменима. Улучшенная стратегия более сложна, поскольку включает в себя несколько компонентов, каждый из которых может быть рассмотрен как источник ошибки измерения. В то время как первоначальный вариант ее исследования включал в себя только лишь набор пунктов, последний вариант включает в себя два компонента измерения – набор пунктов и набор наблюдателей. Возможно, разные компоненты измерения по-разному влияют на его общее качество. Например, возможен вариант, при котором три пункта работают на измерение агрессивности адекватно, однако различные наблюдатели в своих оценках поведения испытуемых значительно расходятся. Несмотря на потенциальную важность такого рода различий, классическая теория тестов не может развести различные компоненты измерительного процесса. Отдельная оценка эффектов различных компонентов измерения на его общее качество, а также внесение соответствующих поправок в процесс тестирования становятся возможными при применении подхода, получившего название «теория генерализуемости».
В данной главе будет представлена общая логика и процедура психометрического анализа, основанного на теории генерализуемости (G-теория; Cronbach, Gleser, Nanda, & Rajaratnam, 1972). Сперва будут раскрыты основные понятия G-теории и проведено ее сопоставление с классической теорией тестов. Затем будут приведены два примера применения G-теории, иллюстрирующие ее логические основания, вычисления и интерпретацию. Первый пример относительно прост, он направлен на то, чтобы познакомить читателя с процессом G-анализа и показать его параллели с психометрическим анализом на основе классической теории тестов. Второй пример более сложен, его задача – показать большую степень гибкости G-теории. В конце главы будут обсуждаться несколько вопросов, имеющих значение для организации процесса и интерпретации результатов психометрического анализа, основанного на теории генерализуемости.