Тестирование особых популяций

Текущая обстановка.После 1950-х гг. возросла озабоченность общественности правами этнических групп, женщин, инвалидов и других групп меньшинств.1 Эта озабоченность нашла отражение в принятии закона о гражданских правах на уровне штатов и на федеральном уровне. В связи с поиском способов улучшения образовательных и профессиональных возможностей меньшинств психологическое тестирование оказалось в центре внимания (Gifford, 1989a, 1989b). Психологическая литература содержит обширные материалы дискуссий по этой теме, результативность которых колебалась от прояснения до окончательного запутывания вопроса. Среди наиболее весомых вкладов в разрешение данной проблемы — ряд меморандумов и руководящих документов, подготовленных профессиональными ассоциациями (см., например, АСА, 1989; АРА,Board of Ethnic Minority Affairs, 1990; АРА, Division of Evaluation, Measurement, and Statistics, 1993; Prediger, 1993; Sackett, & Wilk, 1994). В добавление к ним все более доступными становятся инструкции по корректной психологической оценке представителей разных меньшинств (см. главу 9; Dana, 1996a; Sattler, 1988, chaps. 19, & 20; Suzuki et al., 1996; Valencia, & Lopez, 1992). В докладах и отчетах, подготовленных при содействии Национального научно-исследовательского совета, Бюро технической оценки проектов ( Office of Technology Assesment) и других подоб-

1 Хотя женщины представляют статистическое большинство в структуре населения США, в правовом, трудовом и некоторых других отношениях они разделяют с меньшинствами многие из их проблем. Вот почему, когда термин «меньшинство» (minority) употребляется в этом смысле, предполагается, что он включает и женщин.

Часть 5. Области применения тестирования

ных групп (упоминавшихся ранее в этой главе), проанализирована полемика по поводу тестов в свете современной социальной обстановки и представлены сбалансированные позиции в отношении функций тестирования.

Много внимания уделяется снижению тестовых показателей из-за возможного влияния культурных условий на развитии способностей, интересов, мотивации, атти-тюдов и других психологических особенностей представителей меньшинств. Некоторые из предложенных решений этой проблемы отражают неверное понимание сущности и функции психологических тестов. Различия прошлого опыта групп или отдельных лиц неизбежно проявляются при выполнении тестов. Каждый психологический тест измеряет выборку поведения. Коль скоро культура влияет на поведение, ее влияние будет и должно обнаруживаться тестами. Если мы исключим из теста все культурные различия, мы тем самым можем уменьшить его валидность в той области поведения, для оценки которой он предназначен. В этом случае тест не сможет обеспечить нас информацией, необходимой для исправления тех условий, которые ухудшили его выполнение.

Методы тестирования для специфических популяций и их теоретическое обоснование более полно обсуждались в главах 9 и 12. Специальный анализ понятия «систематическая ошибка» был дан в главе 6, в связи с измерением валидности теста. В этой главе преимущественно рассматриваются профессиональные проблемы и социальные последствия тестирования меньшинств.

Правовое регулирование.После 1960 г. наблюдалось бурное развитие событий, имеющих отношение к тестированию меньшинств в сфере образования и трудоустройства. К этим событиям относятся законодательные меры, директивы исполнительной власти и судебные решения. Законы, касающиеся образовательного тестирования, приводились и кратко рассматривались в главах 9 и 17; обзор современных тенденций и проблем тестирования по приказу вышестоящих организаций представлен в работе Linn, & Gronlund (1995, chap. 18).1

В области трудоустройства суды стали играть все большую роль в толковании и применении законов о гражданских правах. Последствия нескольких знаменитых судебных прецедентов широко обсуждались в литературе по тестированию и кадровой работе психологами, юристами и лицами, имеющими психологическое и юридическое образование (см., например, АРА, СРТА, 1988; Bersoff, 1983, 1984; Bruycre, & O'Keeffe, 1994; Hollander, 1982; Merenda, 1995; Meyers, 1992; Wigdor, 1982). Имеющее самое прямое отношение к обсуждаемому вопросу федеральное законодательство обеспечивается Разделом VII Закона о гражданских правах от 1964 г. (P.L. 88-352), называемым также Законом о равных возможностях трудоустройства, вместе с последующими поправками, Законом о гражданских правах от 1991 г. (P.L. 102-166) и Законом об инвалидах-американцах от 1990 г. (P.L. 101-336). Обязанность по контролю за исполнением этих законов и право принуждения к их исполнению возлагается, главным образом, на Комиссию по вопросу равных возможностей занятости (Equal Employment Opportunity Commission [EEOC]), которая разрабатывает и распространяет для этой цели руководящие документы. В 1978 г., в интересах упрощения процедуры и улучшения координации, ЕЕОС, Комиссией по государственной гражданской службе

1 Обсуждение некоторых важных судебных решений в области психопедагогической оценки можно найти в работах Ayers, Day, & Rotatori (1990) и Reschly (1988).

Глава 18. Этические и социальные аспекты тестирования

(ныне — Служба управления кадрами США) и министерствами юстиции, труда и финансов были совместно приняты Единые правила проведения отбора наемных работников (Uniform Guidelines on Employee Selection Procedures).^

Закон о равных возможностях трудоустройства запрещает дискриминацию на основе таких признаков, как раса, цвет кожи, религиозные убеждения, иол или национальное происхождение, в процедурах отбора, приводящих к принятию решений о найме на работу. Эти предписания обязательны для отдельных работодателей (как частных, так и государственных), профсоюзов, бюро по трудоустройству, отделов аттестации и лицензирования. В тех случаях, когда применение теста или другой методики отбора дает существенно более высокий процент отказов в приеме на работу кандидатов из меньшинств по сравнению с процентом отказов другим кандидатам («эффект выталкивания»),2 полезность теста или методики должна обосновываться доказательством их валидности для данного вида работы.

Если касаться истории, то требования к приемлемой валидизации теста были определены в Стандартах тестирования, Принципах валидизации и использования методов отбора персонала (Principles for the Validation and Use of Personnel Selection Procedures — SIOP, 1987) и других аналогичных ведомственных документах. Однако в последние два десятилетия имело место несколько прецедентов, когда чужеродные юридические соображения вторгались в психометрическую практику, особенно в связи с защитой гражданских прав. Один из этих прецедентов — юридическое соглашение, получившее известность как «Золотое правило» (см. также главу 7). Этим соглашением разрешился спор между страховой компанией «Золотое правило» и Службой тестирования в образовании (ETS) по поводу экзаменов, разработанных ETS для лицензирования страховых агентов. Соглашение предписывало, что в тех случаях, когда получается различное соотношение правильных ответов в группах меньшинства и большинства, приоритет должен отдаваться тем заданиям теста, которые обнаруживают минимальные межгрупповые различия. Хотя все это было продиктовано благими намерениями, а именно стремлением обеспечить честность испытаний и минимизировать «эффект выталкивания», соглашение «Золотое правило» вызвало горячие споры по поводу содержащихся в нем предположений о природе необъективности заданий (item bias) и того, в какой степени эмпирические данные оправдывают меру, предлагавшуюся в этом соглашении (АРА, СРТА, 1988; Bond, 1987; Linn, & Drasgow, 1987; Rooney, 1987).

Рассматривая программу позитивных действий (affirmative action), «Единые правила...» указывают на то, что даже когда процедуры отбора удовлетворительно вали-дизированы, в случае получения непропорционально большой доли отказов для членов меньшинств следует предпринять меры для сокращения этого несоответствия до минимума. Позитивные действия подразумевают, что организация делает больше, чем просто отказывается от дискриминационной практики. Психологически, программы позитивных действий, которые в последние годы перешли в активное наступление на политической арене, можно трактовать как попытки компенсировать остаточные по-

1 К настоящему времени эти «Единые правила...» устарели и явно нуждаются в критическом анализе и пересмотре. Их переработанный вариант может появиться вслед за публикацией новых Стандартов тестирования, ожидаемой в конце 1990-х гг. (см. главу 1).

2 Противоречия в способах оценки «эффекта выталкивания» (adverse impact) в различных судебных прецедентах проанализированы Б. Лернером (В. Lerner, 1980а; см. также Ironson, Guion, & Ostrander, 1982).

Часть 5. Области применения тестирования

следствия прошлых социальных неравенств. Применение в 1980-х гг. практики субгруппового нормирования в Батарее тестов общих способностей (GATB) для обеспечения сопоставимости относительного количества направлений на работу, полученных белыми, черными и испаноязычными кандидатами, несмотря на большое различие в их тестовых показателях способностей (глава 17; см. также Hartigan & Wigdor, 1989), как раз и было примером позитивных действий, нацеленных на снижение «эффекта выталкивания» теста. Эта практика, однако, вызвала настолько острую полемику, что она привела к принятию Закона о гражданских правах от 1991 г. (P.L. 102-166), запрещающего любую форму корректировки показателей на основе расы, цвета кожи, вероисповедания, пола или национального происхождения. В этой области психологического тестирования признается, что Закон от 1991 г. «имеет гораздо более серьезные последствия, чем могли представить себе члены Конгресса» (D. С. Brown, 1994, р. 927) и может серьезно ограничить применение тестов личности и физических способностей, использующих раздельные нормы для мужчин и женщин (см. также L. S. Got-tfredson, 1994; Kehoe, & Tenopyr, 1994; Sackett, & Wilk, 1994). Фактически, авторы и издатели некоторых тестов уже предприняли шаги по обеспечению альтернативных способов подсчета показателей, исключающих разделение норм по полу (см., например, Gough, & Bradley, 1996).

Другая исполненная благих намерений попытка уничтожить преграды на пути к равным возможностям для всех, вызвавшая озабоченность работодателей и тех, кто заинтересован в корректной практике тестирования при приеме на работу, — Закон об инвалидах-американцах от 1990 г. (ADA, P. L. 101-336). Положения этого закона, касающиеся занятости, не позволяют работодателям до предложения работы использовать медицинские тесты и наводить справки об употреблении кандидатами наркотиков в прошлом или об их лечении от психических болезней. Разработанные ЕЕОС правила и положения, касающиеся собеседований и медицинских обследований при найме на работу (1994,1995), оставили пока открытым вопрос о том, какие из психологических и личностных тестов допустимо применять в таких ситуациях.

Противоречия между профессиональными, правовыми и этическими нормами, по-видимому, сохранятся и в будущем (см., например, D. С. Brown, 1996). И они, бесспорно, затруднят применение тестов для принятия решений в так называемых сферах «высоких интересов», к которым относятся образование и занятость. В значительной степени сложившаяся ситуация есть признак некоторого движения вперед, поскольку она подчеркивает необходимость открыто признать, что ценности вплетены в принятие любых решений, имеющих последствия, независимо от того, касаются ли они сферы научных или практических интересов. Как пишет Мессик: «Ценности изначально присущи тестированию и его результатам... Это признание делает явным то, что всегда присутствовало в скрытом состоянии, а именно: оценки валидности являются ценностными суждениями» (Messick, 1995, р. 748). Да, даже благонамеренные и разумные люди могут резко расходиться — и действительно расходятся — по поводу ценностей. В этот и заключается проблема.

Факторы, связанные с тестом.При тестировании лиц из разных популяций важно разделять факторы, влияющие как на сам тест, так и на критериальное поведение, и факторы, влияние которых ограничивается лишь тестом. Именно эти последние, связанные с тестом факторы (test-relatedfactors), снижают его валидность. Примеры таких факторов включают опыт участия в тестах, мотивацию хорошо выполнить тест,

Глава 18. Этические и социальные аспекты тестирования

раппорт с тестирующим, чрезмерный акцент на скорости и любые другие переменные, влияющие на выполнение конкретного теста, но не имеющие отношения к основной области изучаемого поведения. При тестировании лиц с разным культурным происхождением или с различными дефектами необходимо сделать все возможное для ослабления действия связанных с тестом факторов (см. Sattler, 1988, chaps. 19, 20). Желательно создать сходные отношение к тесту и степень знакомства с ним, а также воспользоваться другими средствами, специально разработанными для этой цели (см. главы 1 и 9).

Специфическое содержание теста также может влиять на тестовые показатели способами, совершенно не связанными с той способностью, для оценки которой предназначен данный тест. Например, использование в тесте на арифметическое рассуждение названий или изображений предметов, неизвестных в определенной культурной среде, представляло бы связанную с тестом помеху, затрудняющую его выполнение членами такой культуры. Другой, более тонкий способ, которым специфическое содержание теста может оказывать побочное влияние на его выполнение, связан с эмоциональными реакциями и аттитюдами тестируемого. Например, рассказы или картинки, изображающие типичные для людей среднего класса семейные сцены, могут вызвать отчужденность у ребенка, живущего в необеспеченной семье. Сохранение в содержании теста половых стереотипов, наподобие изображений мужчин врачами или летчиками, а женщин — медсестрами или стюардессами, также может оказывать отрицательное воздействие. В свете этих соображений большинство издателей тестов теперь прилагают специальные усилия, чтобы очистить тест от неподходящего содержания. Фактически, проверка содержания теста на предмет возможных негативных следствий для тестируемых меньшинств является теперь общим этапом в процессе конструирования теста (см., например, EST Standards, 1981 / 1987).

Тестированию лиц с разным культурным происхождением и жизненным опытом, так же как и тестированию инвалидов, уделяется большое внимание во всех разделах Стандартов тестирования. Эта генеральная линия отражается в нескольких отдельных стандартах на разработку и использование тестов. В добавление к этому, специальные главы, с характерными только для них наборами стандартов, посвящены проблемам в тестировании людей с низким общественным положением и языковыми трудностями, составляющих значительную долю населения США.

Интерпретация и использование показателей теста.Безусловно, самые важные соображения, которые приходится учитывать в тестировании особых групп, да и в тестировании вообще, касаются интерпретации тестовых показателей. Наиболее частые опасения в отношении применения тестов к представителям меньшинств имеют своим источником неправильную интерпретацию показателей. Если представитель национального меньшинства получает низкий показатель по тесту способностей или отклонение в показателе по личностному тесту, важно разобраться в причинах этого. Например, низкий показатель по арифметическому тесту мог быть результатом нежелания выполнять тест, неумения хорошо читать или, среди прочих причин, недостаточного знания арифметики. Следует также обратить внимание и на тип норм, используемых при оценивании индивидуальных результатов.1

1 Специальный раздел декабрьского выпуска журнала Psychological Assessment (December 1994) отведен под информационные и методические материалы по различным аспектам нормативной оценки.

Часть 5. Области применения тестирования

Тесты предназначены показывать, что способен делать конкретный человек в данный момент времени. Они не могут сообщить нам, почему он выполняет тест именно так. Чтобы ответить на этот вопрос, нам необходимо исследовать условия его развития, мотивацию и другие релевантные обстоятельства. Тесты не могут также сообщить, на что мог бы быть способен ребенок, выросший в культурно или образовательно неблагоприятной среде, если бы он воспитывался в более благоприятной среде. К тому же тесты не могут компенсировать культурную депривацию путем исключения ее последствий из своих показателей. Напротив, тесты должны обнаруживать такие последствия, чтобы можно было предпринять соответствующие коррекцион-ные меры. Скрывая последствия культурной депривации отказом от тестов или пытаясь изобрести тесты, нечувствительные к таким влияниям, можно только затормозить продвижение к подлинному решению социальных проблем.

Тенденция к распределению по категориям и навешиванию ярлыков, в качестве упрощенной замены понимания, все еще довольно распространена. Диагностические категории классической психиатрии, посредством которых пациенты обозначались как «параноидный шизофреник» или «маниакально-депрессивный тип», являют собой хорошо известный пример этой тенденции. Сознавая многочисленные недостатки такой системы классификации, авторы более современных руководств по психиатрической диагностике описывают расстройства различных типов и прикрепляют диагностические ярлыки к патологическим состояниям, а не к страдающим от них людям (см., например, American Psychiatric Association, 1994). Да и психологи все больше обращаются к описаниям личности. В отличие от диагностических ярлыков, эти описания сконцентрированы на происхождении и индивидуальном значении отклонений в поведении и обеспечивают более эффективную основу для терапии. Но от традиционных ярлыков удается избавиться далеко не всегда.

Еще одним примером тенденции к категоризации являются ошибки в интерпретации IQ. Согласно распространенному заблуждению, IQ служит показателем врожденного интеллектуального потенциала и представляет неизменное свойство организма. Как видно из главы 12, этот взгляд не подтверждается ни теоретическими рассуждениями, ни эмпирическими данными. Из правильно интерпретированных результатов теста интеллекта никак не следует жесткая классификация людей, напротив, интеллектуальные тесты (как и любые другие) можно сравнить с картой, на которой указано положение конкретного человека, занимаемое им в момент тестирования. В сочетании с информацией о его жизненном опыте тестовые показатели должны облегчать эффективное планирование оптимального развития индивидуума.

Объективность тестов.В ситуациях, где социальные стереотипы и предрассудки могут искажать межличностные оценки, тесты дают некоторые гарантии против фаворитизма и произвола в принятии решений. Когда движение за гражданские права набрало силу, некоторые его активные участники обратили внимание на положительную функцию, выполняемую стандартизованными тестами. Комментируя использование тестов в школах, Дж. В. Гарднер писал: «Тесты не видят, одет ли подросток в лохмотья или в твид, не слышат жаргона трущоб. Тесты выявляют интеллектуальные способности в любой из прослоек населения» (J. W. Gardner, 1961, р. 48-49).

Даже если упразднить все тесты, необходимость выбора будет по-прежнему преследовать как отдельных людей, так и целые организации. Для принятия решений пришлось бы прибегнуть к таким давно известным альтернативам, как рекомендатель-

Глава 18. Этические и социальные аспекты тестирования

ные письма, собеседования и средний балл. В наши дни эти альтернативные источники данных часто используют вместе с показателями тестов, но не вместо тестов. Фактически, стандартизованные тесты были внедрены в практику в качестве средства, компенсирующего ненадежность, субъективность и возможную тенденциозность этих традиционных способов. Эти альтернативы тестированию, как правило, оказывались менее точными, чем тесты, в предсказании результатов учебы или работы (Wig-dor, & Garner, 1982, Pt. I, chap. 1). Более современные альтернативные способы, такие как методики оценки выполнения работы и портфельной оценки, со временем могут оказаться более эффективными по сравнению с традиционными тестами. Пока, однако, исследования с использованием этих методик свидетельствуют о том, что они не превосходят стандартизованные тесты, вместе с которыми или вместо которых они применялись для оценки представителей особых популяций, ни по валидности, ни по объективности (см. главу 17).

Огульная критика тестирования обычно не делает различий между положительным вкладом тестов в обеспечение справедливости принимаемых решений и неправильным использованием тестов в качестве упрощенных заменителей тщательно обоснованных оценок. Рассматривая тестирование в его социальном контексте, Комитет по тестированию способностей (Wigdor & Garner, 1982, Pt. I) призвал не рассматривать тесты как панацею от всех бед или, наоборот, как козла отпущения, виноватого во всех проблемах общества, и не смешивать общественные цели расширения возможностей для членов различных меньшинств со справедливостью процесса тестирования. «В поисках более справедливого общественного устройства люди поместили тестирование способностей в центр своих споров и тем самым не только прославили, но и ославили его на весь мир» (р. 239). С этим заявлением трудно не согласиться и сейчас, причем, в силу отсутствия жизнеспособных альтернатив, оно скорее всего останется правильным еще в течение долгого времени.

В общем, тесты действительно могут использоваться неправильно по отношению к меньшинствам, впрочем, как и по отношению любому другому человеку или группе. Однако когда тесты используются надлежащим образом, они выполняют важную функцию, предотвращая случайную и несправедливую дискриминацию. При оценивании социальных последствий тестирования нам необходимо тщательно оценить социальные последствия отказа от тестирования и вынужденной опоры на другие процедуры принятия решений, которые не столь беспристрастны ко всем, как тестирование. Кроме того, определяя последствия тестирования, мы должны быть внимательными, чтобы развести последствия правильного и неправильного использования тестов, а также отделить прямые последствия тестирования от тех, что опосредованы внешними по отношению к нему факторами (Тепоруг, 1995). В противном случае у нас есть шанс по совершенно ложным соображениям (!) отбросить за ненадобностью инструмент, который, хотя и всегда нуждался в усовершенствовании, может оказаться незаменимым.

ПРИЛОЖЕНИЕ А

Наши рекомендации