Мультикультурное тестирование

Проблема. Тестированию людей, различающихся культурным происхождением, стало уделяться все большее внимание с начала 1950-х гг. Тесты необходимы для максимального использования людских ресурсов в развивающихся странах во многих частях мира. Быстро развивающейся системе образования в этих странах тестирование требуется как для организации приема в учебные заведения, так и для организации индивидуального консультирования. По мере развития промышленности появляется необходимость в тестах для отбора и распределения персонала, особенно в области обработки информации, машиностроения и автоматизации производства.

В Америке практические проблемы мультикультурного тестирования1 связывались главным образом с культурами меньшинств, включенными в преобладающую культуру. В основном, интерес касался применимости имеющихся тестов к лицам, поставленным своей культурой в неблагоприятное положение. Следует ясно сознавать, что культурная ущербность {cultural disadvantage) — понятие относительное. Объективно между любыми двумя культурами или субкультурами существуют только различия. Каждая культура способствует развитию такого типа поведения, которое более приспособлено к ее ценностям и требованиям. Когда человек должен приспосабливаться и продвигаться в условиях культуры или субкультуры, отличающихся от той, в которой он воспитывался, то имеющиеся различия в культурах могут стать серьезным препятствием, а могут обернуться преимуществом.

Хотя интерес к кросс-культурному тестированию в значительной мере был вызван особенностями современного социального и политического развития, сама проблема была поставлена еще в 1910 г. Некоторые из первых кросс-культурных тестов создавались для тестирования эмигрантов, наплыв которых в США отмечался на рубеже двух столетий (Knox, 1914). Другие ранние формы тестов разрабатывались в рамках сравнительного изучения способностей людей, принадлежащих к относительно изолированным культурным группам. Эти культуры часто почти или совсем не соприкасались с западной цивилизацией, в рамках которой было разработано большинство психологических тестов.2

Традиционно, кросс-культурные тесты пытались исключить один или более параметров, по которым различаются культуры. Наиболее известным примером такого параметра служит язык. Если подлежащие тестированию культурные группы говорили на разных языках, то разрабатывались тесты, не требовавшие применения языка ни со стороны тестирующего, ни со стороны тестируемых. Если существенно варьировал уровень образования и преобладала неграмотность, исключались задания, требующие умения читать. Устная речь не исключалась из этих тестов, поскольку они предназначались для лиц, говорящих на общем языке. Другим параметром, по которому различаются культуры или субкультуры, является скорость. Не только темп ежедневной жизни, но мотивация и ценность быстрого выполнения заданий весьма заметно разнятся в разных национальных культурах, в этнических меньшинствах внутри одной нации и между городской и сельской субкультурами (см., например, Klineberg, 1928; R- R. Кпарр, 1960; M.Womer, 1972). Соответственно в кросс-культурных тестах часто,

Вместо термина «мультикультурное тестирование» широко употребляются такие термины, как «кросс-кУЛьтурное тестирование» и «транскультуралыюе тестирование», "то касается примеров этих ранних тестов, см. Anastasi (1954, chap. 10).

Часть 3. Тестирование способностей

хотя и не всегда, стремились элиминировать влияние скорости, увеличивая время выполнения заданий и не давая дополнительных баллов за более быстрое их выполнение.

Другие параметры, по которым различаются культуры, имеют отношение к содержанию теста. Так, например, материалом для неязыковых тестов и тестов для не умеющих читать служит информация, специфическая по отношению к конкретной культуре. Тесты могут требовать от испытуемого понимания назначений таких предметов, как скрипка, почтовая марка, ружье, перочинный нож, телефон, пианино или зеркало. Очевидно, лица, выросшие в относительно изолированных культурах, могут испытывать недостаток жизненного опыта для правильного ответа на такие задания. Главным образом для того, чтобы контролировать влияние параметров такого типа, и были разработаны первые классические «культурно-свободные» тесты. После краткого рассмотрения типичных тестов, предназначенных для устранения влияния одного или более перечисленных выше параметров, мы обратимся к анализу альтернативных подходов к кросс-культурному тестированию.

Типичные традиционные инструменты.' Пытаясь сконструировать тесты, пригодные для использования в различных культурах, психометристы использовали разнообразные процедуры, часть которых иллюстрируется рассматриваемыми в этом разделе тестами. Пересмотренная международная шкала действия Лейтер (Roid, & Miller, 1997) — индивидуально проводимый тест действия, впервые опубликованный в 1940 г. Шкала была подготовлена после применения в течение ряда лет в разных этнических группах на Гавайях. Впоследствии эта шкала была применена Портеусом к некоторым африканским группам и другими исследователями еще к нескольким национальных группам. Пересмотренная версия шкалы, выпущенная в 1948 г., основывалась на дополнительных результатах тестирования американских детей, учащихся средней школы иновобранцев времен Второй мировой войны. Редакция 1997 г. основана на выборках более 2000 типичных и нетипичных жителей США в возрасте от 2 до 20 лет. Отличительно]! чертой шкалы Лейтер, впоследствии заимствованной другими инструментами, является почти полное исключение речевых инструкций. Каждый тест начинается с самой легкой задачи того типа, с которым обследуемый сталкивается на протяжении всего этого теста. Понимание задач, которые даются индивиду^ ально и без ограничения времени, рассматривается как часть теста. Весь графический стимульный материал предъявляется на специальных подставках, с соответствующим приспособлением для размещения карточек с ответами. Тестируемый отвечает на задачу, выбирая карточки с наиболее подходящими изображениями и помещая их на лоток для ответов, как можно увидеть на рис. 9-4.

Шкала Лейтер предназначалась для изучения широкого диапазона функций, аналогичных тем, для которых создавались вербальные шкалы. В ее современной форме этот диапазон существенно расширен, благодаря чему LIPS-R охватывает четыре области: Рассуждение {Reasoning), Визуализацию (Visualization), Внимание (Attention) и Память (Memoiy). К задачам, входящим на разных возрастных уровнях в области Рассуждения и Визуализации, относятся: рисуночные аналогии, завершение форм,

1 Критический анализ некоторых невербальных средств измерения, обсуждаемых в этом и предыДУ" щих разделах, так же как и других таких тестов, можно найти в Naglieri, & Prewctt (1990).

Глава 9. Тесты для специфических популяций

Мультикультурное тестирование - student2.ru

Рис. 9-4. Типичные материалы, используемые в Пересмотренной международной шкале

действия Лейтер. Показанная здесь незавершенная задача из теста «Последовательный порядок»

(Sequential Order) требует от испытуемого выбрать пять карточек из шести и разместить их в

правильном порядке на лотке для ответов

(С любезного разрешения Stoelting Company)

установление сходства и последовательное упорядочивание (проиллюстрированное на рис. 9-4). Тесты областей Внимания и Памяти включают меры устойчивости и распределения внимания и разнообразные задачи на непосредственную и отсроченную память. Как и можно было ожидать, пересмотренная шкала Лейтер была существенно обновлена и стала более совершенной, чем ее ранние версии, в том, что касается психометрических характеристик. Например, градуировка уровней трудности в последней версии производилась на основе теории «задание — ответ» (IRT), а показатели LIPS-R уже не выражаются в виде традиционных коэффициентов IQ. В добавление к этому, наличие современных репрезентативных норм и расширенное содержание шкалы должны значительно повысить ее полезность. Новое руководство по LISP-R содержит сведения о различных типах надежности и данные о валидности.

Прогрессивные матрицы Равена (Raven's Progressive Matrices [RPM]) первоначально предназначались для измерения фактора g по Спирмену, или общего интеллекта О- Raven, 1983; Raven, Raven, & Court, 1995). В соответствии с проведенным Спирме-ном теоретическим анализом фaктopagэтoт тест требует главным образом выявления отношений между абстрактными элементами. Задания состоят из набора матриц, или композиций графических элементов, организованных в строки и столбцы, в каждой из которых один элемент пропущен. Задача состоит в том, чтобы выбрать подходящий элемент-вставку из заданного набора вариантов. Самые легкие задания требуют лишь точность различения, тогда как более трудные предполагают использование аналогий, Перестановок, чередований паттерна и других логических отношений. Два образца типичных заданий из Стандартных прогрессивных матриц показаны на рис. 9-5. Тест

Часть 3. Тестирование способностей

Мультикультурное тестирование - student2.ru

Рис. 9-5. Типичные задания из Стандартных прогрессивных матриц: одно легкое (А5) и одно трудное (Е1)

(Воспроизводится с разрешения J. С. Raven Ltd.)

Равена обычно проводится без ограничений времени и может предъявляться индивидуально или группе испытуемых. Инструкции крайне просты и даются устно.

Имеется три формы Прогрессивных матриц Равена, различающихся по уровню трудности. Стандартные прогрессивные матрицы (StandardProgressive Matrices [SPM— 1996 Edition]) — форма, пригодная для обследования «средней» части человеческой популяции в возрастных границах от 6 до 80 лет. Более легкая форма — Цветные прогрессивные матрицы (ColouredProgressive Matrices [CPM— 1990 Edition]) — рассчитана на тестирование детей более младшего возраста и специфических групп, которые по разным причинам невозможно адекватно протестировать с помощью SPM. Нормы по SPM установлены для детей от 5,5 до 11,5 лет, а также для выборок лиц пожилого возраста без снижения интеллекта (от 60 до 89 лет) и умственно отсталых взрослых. Третья форма — Прогрессивные матрицы повышенной сложности (Advanced Progressive Matrices [АРМ — 1994 Edition]) — была специально разработана для тестирования подростков и взрослых, превосходящих средний уровень популяции.

Руководства для всех уровней Прогрессивных матриц Равена (RPM) выпускаются частями, которые можно приобрести по отдельности или в любой желаемой комбинации и в едином переплете. Часть 1 содержит общий обзор и обновлялась в последний раз в 1995 г.; обновление данных в других частях происходило в разные годы: от 1990 до 1996. Эти части содержат конкретные руководства для каждого из трех уровней RPM. В комплект тестов Равена входят также руководства по двум словарным тестам, стандартизованным для использования в сочетании с RPM. В последней части руководства приводятся сводные данные дополнительных исследований надежности и валидности, а также добавочные нормы, полученные в разных странах и на специфических популяциях (Court, & Raven, 1995). Пользователям доступны, кроме того, несколько дополнений с британскими данными стандартизации и нормативной инфор-

Глава 9. Тесты для специфических популяций

мацией, собранной в Северной Америке, Ирландии и Германии, а также аннотированная библиография более 2000 исследований с использованием RPM}

Хотя к настоящему времени накопилось большое количество публикаций, посвященных результатам исследований RPM, эти исследования, вследствие преследуемых в них различных целей, крайне разобщены и разнородны. Авторы теста рекомендуют потенциальным пользователям выделять среди этого многообразия те исследования и те популяции, которые более всего отвечают их собственным интересам, но предупреждают, что все эти исследования существенно различаются по своей методологии, объемам выборок и качеству выполнения.

В общем, ретестовая надежность в группах старших детей и взрослых, умеренно однородных по возрасту, колеблется примерно от 0,70 до 0,90. Однако в области низких показателей надежность оказывается значительно меньше этих величин. Коэффициенты внутренней согласованности по больше части превосходят 0,80 и даже 0,90. Корреляции с вербальными и невербальными тестами интеллекта варьируют в пределах от 0,40 до 0,75, обнаруживая тенденцию быть выше с невербальными, чем с вербальными тестами. Исследования с умственно отсталыми и с различными профессиональными и образовательными группами свидетельствуют об удовлетворительной текущей валидности. Коэффициенты прогностической валидности относительно критериев успешности обучения оказываются несколько ниже соответствующих коэффициентов для обычных вербальных тестов интеллекта. Результаты факторного анализа, проведенного несколькими исследователями, говорят о том, что тест RPM имеет высокие нагрузки по общему фактору для большинства мер интеллекта (идентифицированному многими психологами KaKg Спирмена), но в то же время на выполнение этого теста влияют пространственная способность, индуктивное рассуждение, перцептивная точность и другие групповые факторы.

Иллюстрацией еще одного подхода к невербальному тестированию может служить тест Гудинаф «Нарисуй человека» (Goodenough Draw-a-Man Test), в котором испытуемому дают инструкцию «нарисовать мужчину и постараться сделать это как можно лучше». Этим тестом пользовались без изменений с момента его первоначальной стандартизации в 1926 г. до 1963 г. В 1963 г. его пересмотренная и расширенная версия была опубликована под названием Тест рисования Гудинаф—Харриса (Goodenough-Harris Drawing Test — D. В. Harris, 1963).

В нем, как и в исходном варианте, акцент делается на точности детской наблюдательности и на развитии понятийного мышления, а не на умении рисовать. При оценке учитывается, сколько и каких частей тела и деталей одежды изображает ребенок, как учтены пропорции, перспектива и другие особенности изображения. В итоге получилось 73 оцениваемых элемента, отобранных на основе возрастных различий, связи с суммарными показателями по этому тесту и с показателям группового теста интеллекта.

В пересмотренной версии шкалы тестируемых просили нарисовать женщину и самих себя. Подсчет баллов по шкале «Рисунок женщины» производится практически так же, как и по шкале «Рисунок мужчины». Шкала «Рисунок себя» разрабатывалась Как проективный тест личности, но имеющиеся данные о ее применении нельзя на-

Последнюю можно получить на диске или в виде распечатки у J. H. Court, по адресу, имеющемуся у Издателей RPM.

Часть 3. Тестирование способностей

Мультикультурное тестирование - student2.ru

Мужчина Женщина Мужчина:
Первичный показатель: 7 Первичный показатель: 31 Первичный показатель: 66
Хронологический возраст: 5;8 Хронологический возраст: 8;8 Хронологич. возраст: 12;11
Стандартный показатель: 73 Стандартный показатель: 103 Стандарта, показатель: 134

Рис. 9-6. Образцы рисунков, полученных в Тесте рисования Гудинаф—Харриса

(С любезного согласия Дейла Б. Харриса)

звать многообещающими.1 Первичные показатели (в баллах) по каждой шкале преобразуются в стандартные показатели со средним М = 100 и SD = 15. На рис. 9-6 показаны три пояснительных рисунка, выполненных детьми в возрасте 5;8, 8;8 и 12;11, и соответствующие им первичные и стандартные показатели. Надежность Теста рисования Гудинаф—Харриса неоднократно исследовалась различными методами. Коэффициенты ретестовой надежности, надежности эквивалентных половин теста и надежности оценщика вполне удовлетворительны; влиянием обучения рисованию в школе на величину показателей, по-видимому, можно пренебречь (J. A. Dunn, 1967; D. В. Harris, 1963).

Помимо данных анализа заданий, собранных при разработке шкал, информацию о конструктной валидности дают корреляции с другими тестами интеллекта. Величина этих корреляций меняется в достаточно широких пределах, но большинство из них превышают 0,50. При исследовании детей, посещающих детский сад, оказалось, что Тест «Нарисуй человека» коррелировал выше с числовой способностью (numerical aptitude) и ниже со скоростью и точностью восприятия, чем это наблюдалось у учеников 4-го класса (D. В. Harris, 1963). Такие результаты говорят о том, что данный тест в разные возрастные периоды может измерять разные функции. Обе версии исполь-

' Другие проективные подходы к использованию рисунков человеческой фигуры обсуждаются главе 15, включая методику Элизабет Коппиц (Е. Koppitz), охватывающую как когнитивные, так эмоциональные аспекты.

Глава 9. Тесты для специфических популяций

зовались в большом количестве исследований различных культурных и этнических групп, показавших, что выполнение этих тестов в большей степени зависит от различий в культурном происхождении, чем предполагалось первоначально. Деннис (Dennis, 1966), например, проанализировал сравнительные данные, полученные с помощью этого теста в 40 далеких друг от друга культурных группах, и обнаружил, что средне-групповые показатели оказались весьма связанными со степенью представленности изобразительного искусства в каждой из культур.

Культурные различия в жизненном опыте обнаружились и в хорошо спланированном сравнительном исследовании мексиканских и американских детей с помощью теста Гудинаф—Харриса (Laosa, Swartz, & Diaz-Guerrero, 1974). В более позднем крупном исследовании этого теста в Иране средние показатели 6-13-летних детей получились несколько ниже американских норм, но при этом обнаружили хорошую возрастную дифференциацию и положительные корреляции с социоэкономическим статусом и мерами учебных достижений (Mehryar, Tashakkori, Yousefi, & Khajavi, 1987). Следует добавить, что такие результаты, полученные при использовании теста Гудинаф—Харриса, являются типичными результатами, получающимися при работе со всеми тестами, первоначально претендовавшими на роль «культурно-свободных» {culture-free) или «культурно-честных» {culture-fair) (Samuda, 1975, chap. 6).

Новая версия теста «Нарисуй человека», задуманная с целью обновления версии Гудинаф—Харриса и улучшения ее технических качеств, теперь доступна пользователям под названием «Нарисуй человека: Система количественной оценки» {Draw A Person: A Quantitative Scoring System [DAP] —Naglieri, 1988). DAP обеспечивает более свежие и детализированные нормы, но имеет несколько отличающуюся методику проведения и пересмотренную систему подсчета баллов, менее претенциозную по сравнению с системой Теста рисования Гудинаф—Харриса. Вдобавок ко всему, DAP включает нормативные данные, собранные на выборках чернокожих и испаноязычных детей. Однако несмотря на эти улучшения, данная версия была подвергнута критике за ее относительно узкий охват и отсутствие обоснования преимуществ новой системы подсчета баллов (Cosden, 1992).

В заключение вернемся к общей оценке обсуждаемых в этом разделе инструментов. Некоторые из них, хотя и разрабатывались первоначально для кросс-культурного тестирования, нашли основное применение в работе клинических и консультирующих психологов, — для получения информации, дополняющей данные, собранные с помощью таких инструментов, как шкалы Стэнфорд—Бине и Векслера, и для получения исходных данных в тестировании лиц с различными «неспособностями» {disabilities). Осознание этого факта привело к подготовке нового поколения таких средств измерения. Одно из них, доступное уже во второй редакции, — это Тест невербального интеллекта {Test of Nonverbal Intelligence [TONI-2] — L. Brown, Sherbenou, & Johnsen, 1990), который сходен по содержанию и диапазону применимости с RPM (что касается критических обзоров по TONI-2, см. К. R. Murphy, 1992 и Watson, 1992). В настоящее время проводится стандартизация других важных инструментов этого типа, которые предполагается выпустить в продажу в конце 1990-х гг.1

Примером может служить Универсальный тест невербального интеллекта (Universal Nonverbal Intelligence Test) - авторы: В. A. Bracken & R. S. McCallum.

Часть 3. Тестирование способностей

Подходы к кросс-культурному тестированию.Теоретически можно идентифицировать три подхода к разработке тестов для лиц, воспитанных в разных культурах или субкультурах, хотя на практике некоторые характерные особенности всех трех подходов могут сочетаться. Первый подход связан с подбором заданий, общих для множества различных культур, и валидизацией окончательного теста относительно локальных критериев в этих культурах. Это основной подход к созданию культурно-свободных тестов, хотя при его практической реализации вторичной валидизацией тестов в разных культурах часто либо просто пренебрегали, либо проводили ее неадекватно. Однако без этого этапа нельзя быть уверенным в том, что тест относительно свободен от элементов, свойственных определенной культуре. Более того, маловероятно, что вообще можно было бы разработать любой конкретный тест, полностью удовлетворяющий этим требованиям на широком спектре культур.

Тем не менее мультикультурные методы оценки необходимы для фундаментального исследования некоторых принципиальных вопросов. Один из таких вопросов касается универсальности психологических принципов и конструктов, полученных в рамках единственной культуры (Anastasi, 1958, chap. 18; Berry et al., 1992; Irvine, 1983; Irvine, & Carrol, 1980). Другой вопрос имеет отношение к роли средовых условий в формировании индивидуальных различий в поведении — проблема, которая может более эффективно изучаться в широком диапазоне средовой изменчивости, обеспечиваемой за счет выраженного различия культур. Исследования такого рода требуют инструментов, которые можно применять по крайней мере в частично сравнимых условиях различных культур. Меры предосторожности против неправильной интерпретации результатов, полученных с помощью таких инструментов, следует искать в подходящих для данной цели планах эксперимента и в основательном знакомстве исследователей с изучаемыми культурами или субкультурами. Что необходимо, так это установить специфические эмпирические переменные в любой данной культуре, которые могут быть связаны с социально значимыми различиями в поведенческом развитии, характеризующими такую культуру (J. W. Berry, 1983; Brislin, 1993; Segall, 1983; Whiting, 1976). Замечательный пример осуществления такой исследовательской программы — из области тестирования личности — можно найти в серии публикаций, посвященных кросс-культурному изучению тревожности (Cross-Cultural Anxiety Series). Этот цикл работ был посвящен исключительно измерению тревожности в разных культурах и оказался необычайно плодотворным в том, что касается расширения базы знаний об этом конструкте и о том, как тревога переживается людьми в разных частях света (см., например, Spielberger, & Diaz-Guerrero, 1990).

Второй подход состоит в том, чтобы создать тест внутри одной культуры и предъявить его людям с другими культурными корнями. В этом случае мы должны избегать рассматривать любой тест, разработанный в рамках одной культуры, как универсальную мерку для измерения «интеллекта» или других конструктов. Не следует также предполагать, что низкий показатель по такому тесту имеет одинаковое причинное объяснение для двух лиц, принадлежащих к разным культурам. Что мы действительно можем установить с помощью такого подхода, так это культурную дистанцию между группами, а еще степень аккультурации индивидуума и его готовность к получению образования и профессиональной деятельности, специфичных для данной культуры-Некоторые исследователи пытались придать особое значение тому, что культурная среда, в которой воспитывается человек, влияет на приобретаемые им когнитивные навыки и знания. Ранние примеры включают тест распознавания следов (footprint

Глава 9. Тесты для специфических популяций

recognition test), стандартизованный на австралийских аборигенах (Porteus, 1931), и Тест «Нарисуй лошадь» (Draw-a-Eorse Test), стандартизованный на детях индейцев пуэбло (DuBois, 1939).

Согласно третьему подходу, внутри каждой культуры могут разрабатываться специфические тесты (или основательные адаптации существующих тестов), которые должны валидизироваться относительно локальных критериев и использоваться только в соответствующей культуре. Иллюстрацией этого подхода служит разработка тестов для отбора военного и промышленного персонала в определенных культурах. Конкретный пример дает программа по разработке тестов, реализуемая в некоторых развивающихся странах Азии, Африки и Латинской Америки при поддержке Агентства международного развития (Schwarz & Krug, 1972). В таких случаях тесты вали-дизируются относительно конкретных образовательных и профессиональных критериев, для прогнозирования которых эти тесты создаются, а их выполнение оценивается исходя из локальных норм. Каждый тест применяется только в той культуре, где он был разработан, и не используется для кросс-культурных сравнений. Однако если предсказываемые критерии имеют отношение к технологии, вероятно, востребованным окажется «интеллект западного типа», — и тесты будут отражать направление, в котором развивается конкретная культура, а не свойственные ей в настоящее время особенности. Вдобавок ко всему, как показывает недавний обзор использования тестов в мире, современная действительность такова, что в целом чаще всего применяются, — по крайней мере, при обследовании детей и молодежи, — тесты, сконструированные в США и Европе. Фактически, среди всех охваченных этим обзором государств, наименее развитые страны, которые, вероятно, в наибольшей степени отличаются от Соединенных Штатов и европейских стран, более других опираются на зарубежную технологию тестирования (Ни, & Oakland, 1991; Oakland, & Ни, 1992).1

К настоящему времени накопилась обширная литература по психологическому тестированию культурных меньшинств внутри плюралистических обществ, таких как США, Израиль и Нидерланды (см., например, Bleichrodt, & Drenth, 1991; Duran, 1989; Figueroa, 1990; Hessel, & Hamers, 1993; Samuda, Kong, Cummins, Lewis, & Pascual-Leone, 1991; Zeidner, 1988). В данной книге мы обращаемся к этому материалу всякий раз, когда его можно ясно и сжато изложить. Так, в главе 18 центром рассмотрения станут вопросы социальной и этической ответственности и соблюдения интересов тестируемых при применении тестов в работе с культурными меньшинствами. Технические психометрические проблемы систематической ошибки тестов и взаимодействия «задание х группа» рассматривались в главах 6 и 7. А в этой главе акцент был сделан на инструментах, разрабатываемых для кросс-культурного тестирования способностей. Проблемы в интерпретации результатов кросс-культурного тестирования, вместе с современными тенденциями, будут рассмотрены в главе 12.

В наши дни мультикультурное тестирование постепенно уходит от конструирования специальных тестов и все больше сосредоточивается на роли тестирующего в процессе проведения обследования. По существу, в обязанности тестирующего входит: 1) получение информации о культурном происхождении тестируемого; 2) выбор тес-

Учитывая существующее положение дел, Международная комиссия по тестам (International Test Commission) подготовила тщательно продуманный и ясный набор методических рекомендаций по адаптации образовательных и психологических тестов (Hambleton, 1994, 1996; Van de Vijver, & Ham-bleton, 1.996). Многие из этих вопросов рассмотрены в статье Geisinger (1994).

Часть 3. Тестирование способностей

та, наиболее пригодного для той цели, ради которой он используется; 3) эффективное проведение теста с конкретным испытуемым; 4) интерпретация результатов теста с учетом истории жизни испытуемого и того контекста (профессионального, образовательного, общественного и т. д.), в котором оцениваются его квалификационные данные. Эти функции роли тестирующего будут дополнительно обсуждаться в главе 12.

Оценка среды. Хотя изучение традиционных кросс-культурных тестов представляет исторический интерес и, в связи с этим, улучшает понимание происхождения и природы современных тестов, быстро растущие контакты между мировыми культурами радикально меняют потребность в таких тестах. Все больше и больше эффективных тестов будет разрабатываться (или адаптироваться) в конкретных культурах и для совершенно конкретных целей — например, для применения в сферах образования, трудоустройства или консультирования. Бесперспективность поисков универсального теста человеческого интеллекта стала очевидной вследствие растущего понимания значительного вклада в его формирование условий и истории жизни конкретного человека. А это привело к росту активности в области оценивания среды функционирования индивидуума.1

Традиционный подход к оценке среды человека опирался на довольно общий, комплексный индекс социоэкономического уровня. Социологи пользовались сложными методиками определения принадлежности индивидуума к социальному классу (Warner, Meeker, & Eells, 1949). Однако проще и быстрее вычисляемые индексы оказались равно эффективными, давая результаты, весьма близкие к получаемым с помощью трудоемких социологических методов. В действительности, достаточно близкую аппроксимацию социоэкономического уровня можно получить на основе учета профессии основного кормильца в семье. Было сконструировано несколько грубых шкал для классификации родительских профессий по уровням; в некоторых из них информация о профессии объединяется с уровнем образования родителей, как в широко используемом двухфакторном Индексе социального положения {Two-FactorIndexojSocial Position). Этот индекс, впервые описанный Холлиншедом (Hollingshead, 1957), можно найти в разных источниках (например, Bonjean, Hill, & McLemore, 1967; Hopkins, & Stanley, 1981). Были разработаны и более объективные методы регистрации сведений о профессиональной деятельности и выведения на их основе индекса профессионального уровня (Duncan, 1961; Strieker, 1985).

Главное ограничение традиционных глобальных индексов проистекает из того, что они классифицируют среды в одномерном континууме: лучше — хуже или выше — ниже. На самом деле среды различаются по подкрепляемому ими конкретному поведению и, следовательно, по их воздействию на специфические индивидуальные характеристики (см., например, McAndrew, 1993). Поэтому оптимальные среды для развития атлетических навыков, школьных умений, креативности и социальной конформности могут принципиально различаться. Ценное руководство по эмпирическому подходу к классификации и описанию условий внешней среды, влияющих на поведение человека, можно найти в новой редакции пионерской работы Роджера Баркера по экологической психологии (Schoggen, 1989).

Кросс-культурное тестирование выдвигает на первый план важную роль, которую родительское поведение и домашняя обстановка играют в интеллектуальном разви-

Этот вопрос обсуждается более подробно в главе 12.

Глава 9. Тесты для специфических популяций

ТИИ растущего ребенка (см., например, М. Н. Bornstein, 1991). Сейчас также признается, что такие средовые различия не ограничиваются ясно определимыми культурными или этническими популяциями, но могут оказывать существенное влияние на психологическое развитие любого человека. Кроме того, изучаемые среды требуют более конкретного определения на основе поощряемого ими специфического поведения. Более точной оценке психологического влияния различных домашних условий и семейной атмосферы было уделено повышенное внимание.

В наше время пользователям доступно довольно много мер и разного типа методик оценки семьи и домашних условий (Bradley, & Brisby, 1993; Paget, 1991). Хорошо известный и широко используемый инвентарь домашней среды называется «Обследование семьи для оценки условий жизни» {Ноте Observation for Measurement of the Environment [HOME] — В. М. Caldwell & Bradley, 1984). Этот инструмент нацелен на выявление типов стимуляции и родительского поведения в домашней обстановке, которые способствуют когнитивному развитию (Bradley Caldwell, 1984; В. М. Caldwell, & Bradley, 1978; J. H. Stevens, & Bakeman, 1985). Инвентарь HOME в настоящее время доступен в трех версиях, предназначенных для обследования семей с детьми трех возрастных категорий: от рождения до 3 лет, от 3 до 6 лет и от 6 до 10 лет. НОМЕ позволяет получить показатели по нескольким шкалам, оценивающим такие переменные, как обеспечение ребенка подходящим игровым материалом, разнообразие стимуляции, языковая стимуляция, поощрение социальной зрелости и учебного поведения (что касается обзора, см. Boehm, 1985). Индексы социоэкономического статуса {SES) семей младенцев коррелируют с интеллектуальной деятельностью в раннем детстве также или даже сильнее, чем показатели НОМЕ. Однако сочетание SES и показателей НОМЕ может повышать предсказуемость интеллекта при определенных обстоятельствах (см., например, D. L.Johnson et al., 1993). К тому же переменные, оцениваемые с помощью инвентаря НОМЕ и других сходных инструментов, могут добавить уникальную и ценную информацию к оценке детей, производимой для многих других целей.

ГРУППОВОЕ ТЕСТИРОВАНИЕ

В то время как индивидуальные тесты, такие как шкалы Стэнфорд—Бине и Векс-лера, находят свое основное применение в клинике, групповые тесты используются преимущественно в системе образования, гражданских службах, в промышленности и армии. Напомним, что массовое тестирование началось в США во время Первой мировой войны с разработки армейских тестов альфа и бета. Армейский альфа представлял собой вербальный тест, предназначенный для общего отбора и распределения новобранцев. Армейский бета был неязыковым тестом и предназначался для не владеющих английским или неграмотных новобранцев, которых невозможно было протестировать с помощью формы альфа. Эти тесты явились своего рода образцом для последующего развития большого числа групповых тестов для гражданского населения.

Пересмотренные гражданские формы обоих армейских тестов продолжали использоваться еще не один десяток лет после окончания войны. В армии США позже был разработан Квалификационный тест вооруженных сил (Armed Forces Qualification Test [AFQT]) в качестве средства предварительного отбора, с последующим использованием комплексных классификационных батарей способностей для распределения военнослужащих по соответствующим армейским специальностям. AFQT обеспечивает единый показатель, получаемый на основе выполнения равного количества заданий на выявление словарного запаса, арифметических и механических способностей, понимания пространственных отношений. Еще позднее была разработана Батарея профессиональной пригодности Вооруженных сил (Armed Services Vocational Aptitude Battery [ASVAB]) для использования во всех родах войск в качестве комбинированного инструмента отбора и классификации военнослужащих. Некоторые субтесты ASVAB служат для оценки общей пригодности к воинской службе. Что касается распределения персонала, то каждая армейская служба выбирает и комбинирует субтесты таким образом, чтобы они в наибольшей степени отражали требования конкретной воинской специальности.

В этой главе мы сначала рассмотрим принципиальные различия между групповыми и индивидуальными тестами. За этим последует беглый обзор начинающих появляться процедур индивидуально приспособленного тестирования в группах и использования компьютеров в программах тестирования. Затем мы приведем несколько свежих примеров групповых тестов широкого назначения. В заключение мы рассмотрим

Глава 10. Групповое тестирование

главную современную тенденцию в разработке и применении тестов, которая отчетливо проявляется как в области групповых, так и в области индивидуальных тестов, обсуждавшихся в главе 8. Эта тенденция — к слиянию тестов, первоначально разрабатываемых в качестве общих мер единственной широкой способности (например, интеллекта или способности к обучению), с комплексными батареями способностей. Все больше тестов способностей адаптируется в целях обеспечения гибкости использования, в результате чего один измерительный инструмент может давать показатели разного уровня обобщенности — от общих до специфических, отвечая широкому разнообразию целей и ситуаций тестирования.

Наши рекомендации