Основные области применения тестов в наше время
Психологические тесты используются для решения самых разнообразных задач, и области их применения непрерывно расширяются. После более или менее подробного разбора показательных примеров разных типов тестов, обратимся теперь к рассмотрению вопросов, относящихся к их применению. В этой главе мы рассмотрим три основные области: образовательную, профессиональную и клиническую (включая консультирование), в которых тесты помогают выполнению многочисленных функций. В следующей, заключительной главе мы обсудим этические и социальные вопросы, связанные с практикой тестирования во всех трех областях.
Тестирование в образовании
Почти все типы существующих тестов используются в школах. Тесты интеллекта, тесты специальных способностей, комплексные батареи способностей и личностные тесты — все эти типы тестов можно найти в наборе инструментов консультанта по вопросам образования и школьного психолога. Учителям и администрации в системе образования часто приходится действовать в соответствии с информацией, полученной в результате проведения нескольких разных типов тестов. Однако некоторые их типы были специально разработаны для использования в сфере образования.' Именно эти тесты и рассматриваются в данном разделе. Они включают инструменты для предсказания и классификации (или распределения) в рамках строго определенных мест получения образования и широкий класс тестов учебных достижений.
Тесты достижений: сущность и назначение.Имея явное численное превосходство над всеми другими типами тестов, тесты достижения (achievement) предназначены для измерения воздействия теоретических и практических курсов обучения. Стало уже традицией противопоставлять тесты достижений тестам способностей (aptitude
1 В Стандартах тестирования 1985 г. (AERA, АРА, NCME, 1985) и в предложенном их пересмотре (см. главу 1) имеется глава, посвященная использованию тестов в образовании.
Глава 17. Основные области применения тестов в наше время
tests), относя к последним тесты общего интеллекта, комплексные батареи способностей и тесты специальных способностей. С определенной точки зрения, различия между тестами достижений и способностей есть различия в степени единообразия релевантного предшествующего опыта. А это значит, что тесты достижений измеряют влияние относительно стандартизованных последовательностей опыта, таких как начальный курс французского языка, тригонометрии или программирования. В отличие от тестов достижений выполнение тестов способностей (aptitude) отражает совокупное влияние разнообразного опыта повседневной жизни. Можно сказать, что тесты способностей измеряют результаты научения в относительно неконтролируемых и неизвестных условиях, тогда как тесты достижений измеряют результаты научения при частично известных и контролируемых условиях.
Другое различие между тестами способностей и достижений относится к их назначению. Тесты способностей служат для предсказания уровня последующего выполнения определенной функции или деятельности. Их используют для оценки степени целесообразности прохождения конкретным человеком того или иного специального курса обучения или для предсказания уровня его достижений в новой ситуации. Напротив, тесты достижений обычно представляют конечную оценку состояния индивидуума по завершении обучения. Главное значение в этих тестах придается тому, что конкретный человек способен делать в настоящий момент.
Однако нужно признать, что между применением тестов способностей и достижений невозможно провести жесткую границу. Некоторые тесты способностей могут строиться в расчете на весьма специфическое и единообразное предварительное обучение, а некоторые тесты достижений — охватывать относительно широкий и нестан-дартизованный образовательный опыт. Аналогичным образом, тест достижения можно использовать в качестве предиктора предстоящего обучения (и научения). По существу, тесты достижений служат тем же целям, что и тесты способностей. Например, тесты достижений по предметам, предваряющим собственно медицинскую подготовку, могут служить предикторами успешности выполнения программы медицинского факультета.
В стремлении освободиться от дополнительных значений, приобретенных терминами aptitude1 и achievement,2 их все чаще заменяют более нейтральным термином ability3 в названиях средств оценки когнитивного поведения.4 Любой когнитивный тест, независимо от его традиционного названия, обеспечивает выборочную проверку того, что индивидуум знает на момент тестирования, и измеряет уровень развития,
' Способность как готовность, склонность, предрасположенность (с оттенком изначальной данности и неизменности) к определенной деятельности. — Примеч. науч. ред.
2 Достижение как превышение обычного уровня или как успех, победа. — Примеч. науч. ред.
3 Способность как возможность что-то делать, например, различать цвета, считать или находить аналогии. — Примеч. науч. ред.
1 Показательный пример изменений, происходящих в названиях тестов, — новые названия экзаменационных тестов Совета колледжей, официально введенные в 1994 г. За широко известной аббревиатурой SAT теперь скрывается Scholastic Assessment Test (Тест академической оценки), а не Scholastic Aptitude Test (Тест академических способностей). Новый SAT был перегруппирован и разбит на две составные части: SAT-T. Reasoning Test (Тест рассуждений), заменивший прежний Тест академических способностей, и SAT-IT. Subject Tests (Предметные тесты), заменившие собой прежние Тесты достижений (Achievement Tests). Разумеется, изменения названий этих тестов сопровождались другими, более существенными нововведениями, которые будут рассмотрены в одном из последующих разделов данной главы.
Часть 5. Области применения тестирования
Рис. 17-1.Тесты развиваемых способностей: континуум специфичности опыта
достигнутый одной или несколькими способностями (abilities). Ни один тест не показывает, как или прчему конкретный человек достиг такого уровня. Для ответа на эти вопросы необходимо тщательно исследовать сопутствующие переменные и особенно жизненный опыт индивидуума. В этом смысле каждый тестовый показатель имеет за собой прошлое, которое нужно досконально изучить для правильного понимания получившего его человека. Но тот же тестовый показатель имеет перед собой будущее постольку, поскольку позволяет предсказать то, как поведет себя данный человек в других, не тестовых ситуациях и к тому же по прошествии какого-то времени.
Как бы ни назывались тесты развиваемых способностей (developed abilities), — тестами общего интеллекта, комплексными батареями способностей, тестами специальных способностей или тестами достижений — все их можно упорядочить на континууме по специфичности жизненного опыта, предполагаемого эти тестами. Схематическое изображение этого континуума дано на рис. 17-1. На одном его конце находятся тесты достижений по учебным курсам (course-oriented achievement tests), охватывающие узкоспециальные умения и навыки или знание фактов. Тесты владения лексикой русского языка или навыков текущего ремонта телевизоров попали бы на этот конец континуума. Соседнее место занимают широко ориентированные тесты достижений (broadly-oriented achievement tests), применяемые в наше время обычно для оценки достижения главных, долгосрочных целей образования. Здесь мы обнаруживаем тесты на понимание и применение научных принципов, умение анализировать и критически оценивать художественную литературу или живопись. Еще более широко ориентированными являются тесты основных когнитивных навыков (tests of basic cognitive skills), — таких, как способность понимать прочитанное, умение выполнять арифметические расчеты и делать логические выводы, — которые влияют на эффективность деятельности человека в самых разных областях. Очевидно, что на этом уровне тесты достижений трудно отличить от традиционных тестов интеллекта и способностей. Преимущественно вербальные когнитивные батареи, традиционно называемые теста-
' Это частичное перекрытие можно доказать эмпирически, на основе анализа сходства содержания тестов с такими названиями и уровня корреляции между ними (см., например, W. Coleman, & Cureton, 1954; Cooley, & Lohnes, 1976).
Глава 17. Основные области применения тестов в наше время
ми интеллекта, тесно примыкают к наиболее широко ориентированным тестам достижений. Следующими по порядку идут неязыковые тесты и тесты действия (nonlan-guage and performance tests), обычно не требующие чтения или письма. И замыкают рассматриваемый континуум кросс-культурные тесты, предназначенные для оценки людей с самым разным происхождением и жизненным опытом.
Маркирование одних инструментов как «тесты способностей», а других как «тесты достижений» привело к ряду типичных ошибок в использовании результатов тестирования. Характерный пример — отнесение к группе «ленивых» (учащихся ниже (своих возможностей) тех детей, у которых показатели по тестам достижений ниже их показателей по тестам академических способностей или тестам интеллекта. В действительности же, такие интраиндивидуальные различия в показателях тестов отражают общеизвестный факт, что никакие два теста (или другие показатели уровня выполнения, скажем отметки по учебному предмету) не коррелируют прямолинейно друг с другом. В данном случае вопрос об учении ниже своих возможностей (under-achievement) или, наоборот, сверхдостижениях (overachievement) более точно может быть сформулирован как вопрос «перепрогнозирования» (overprediction) или «недо-прогнозирования» (underprediction) первого теста относительно второго. Причинами ошибок предсказания в конкретных случаях являются ненадежность измерительных инструментов, различия в охвате содержания, разное влияние аттитюдных и мотива-ционных факторов на меры достижений и способностей, а также воздействие таких промежуточных событий, как прохождение коррективного курса обучения или длительная болезнь (R. L. Thorndike, 1963).
Уже давно различают и признают множество ролей, которые тесты достижений могут играть в образовательном процессе. Как вспомогательное средство при распределении по классам — или при любой другой оценке достигнутой компетентности — стандартизованные тесты достижений обладают преимуществами объективности, единообразия и оперативности. Если они правильно сконструированы, то обладают и другими достоинствами, такими как полнота охвата содержания и ослабление действия посторонних и случайных факторов при подсчете показателей. Тесты достижений составляют также важный элемент программ коррекционного обучения. В этой связи они могут оказаться полезными как для выявления учащихся, не способных к отдельным видам обучения, так и для измерения прогресса в ходе коррекционной работы.
Для всех типов учащихся периодическое проведение хорошо сконструированных и правильно подобранных тестов достижений может существенно облегчить процесс учения. Такие тесты выявляют недостатки прошлого обучения, задают направление последующего и мотивируют ученика. Побудительная сила «знания результатов» неоднократно демонстрировалась психологическими экспериментами во многих типичных ситуациях обучения, с различающимися по возрасту и уровню образования учащимися. Эффективность такой самопроверки обычно повышается ее оперативностью.
Рассматриваемые под другим углом зрения, тесты достижений служат средством приспособления обучения к индивидуальным потребностям. Обучение может быть наиболее эффективным лишь тогда, когда отвечает тому уровню, на котором находится ученик. Выяснение того, что ученики уже умеют делать и что они знают о предмете, есть поэтому необходимый первый шаг к эффективному обучению. Проведение тестирования в начале учебного года позволяет педагогам предпринять конструктивные шаги по ликвидации основных пробелов в знаниях учащихся, обнаруженных при выполнении тестов. Дальнейшие примеры роли тестов достижений в процессе обучения
Часть 5. Области применения тестирования
можно отыскать в связи с предметно-ориентированным тестированием и индивидуализированными обучающими системами (см. главу 3).
Наконец, в качестве вспомогательных средств тесты достижений можно использовать для оценки и совершенствования преподавания и для формулирования образовательных целей. Тесты достижений могут дать информацию о том, какой объем знаний и навыков в действительности преподается учащимся. Привлекая внимание к таким вопросам и снабжая конкретными фактами, тесты достижений побуждают к анализу образовательных целей и содействуют критическому рассмотрению содержания и методов обучения.1 С тех пор как повысилась подотчетность системы образования государственным органам и общественности, за несколько десятилетий было проведено беспрецедентное количество проверочных тестов в образовательных учреждениях всех уровней. В большинство случаев такое контрольное тестирование проводилось по поручению (или заказу) местных отделов образования, комитетов по образованию штата, а также федерального правительства (В. Gifford, 1989b; Hartle, & Battaglia, 1993; National Council on Educational Standards and Testing, 1992). «Государственная оценка образовательного прогресса» ( The National Assessment of Educational Progress), называемая неофициально «табелем успеваемости нации», являет собой один из самых известных примеров непрерывной правительственной программы тестирования (см., например, Alexander, & James, 1987; Gentile, Martin-Rehrmann, & Kennedy, 1995; E. G.Johnson, 1992; Messick, Beaton, & Lord, 1983; NAEP, 1985; F. B. Womer, 1970). Поскольку применение стандартизованных тестов приобрело национальные масштабы и поскольку с их результатами могут быть связаны серьезные экономические последствия, сами эти тесты были подвергнуты усиленной проверке и критике. Методы, используемые для оценки образовательного прогресса, бывшие некогда сферой компетенции исключительно специалистов по тестированию, оказались таким образом предметом крайне политизированных дебатов, которые привлекли внимание законодателей и руководителей промышленных предприятий, а также вызвали сильный интерес у широкой общественности (R. E. Bennett, & Ward, 1993; Courts, & Mclner-ney, 1993; Gifford, & O'Connor, 1992; S. P. Robinson, 1993; G. P. Wiggins, 1993). Обсуждение спорных вопросов и тенденций, связанных с программами тестирования и оценки школьного образования по приказам вышестоящих организаций, можно найти в работе Linn & Gronlund (1995, chap. 18).2
Что предпочтительнее: составление или выбор ответа?Так уж сложилось исторически, что традиционные школьные экзамены состояли из набора вопросов, на которые нужно было ответить устно или письменно. В обоих случаях экзаменуемый сам составлял и формулировал ответ. Термин essay question («экзаменационный воп-
1 Недавние публикации, посвященные проблемам обучения математике и естественным наукам (см., например, Penner, Batsche, Knoff, & Nelson, 1993) и совершенствования мыслительных навыков (см., например, Mulcahy, Short, & Andrews, 1991), служат примером такого рода глубокой, ориентированной на принятие решений работы, являющейся следствием подобного критического рассмотрения содержания и методов обучения.
2 На фоне грядущего реформирования школьных экзаменов в нашей стране читателям будет небесполезно познакомиться с иным взглядом на методы стандартизованной оценки учебных достижении, изложенным Джоном Равеном в его небольшой, но весьма содержательной работе (Равен Дж. Педагогическое тестирование: Проблемы, заблуждения, перспективы: Пер. с англ. — М.: Когито-Центр, 1999). — Примеч. науч. ред.
Глава 17. Основные области применения тестов в наше время
рос»)1 стал широко использоваться для обозначения всех вопросов, предполагающих ответы в свободной форме, причем не только требующих от экзаменуемого развернутых ответов (наподобие сочинений или эссе), но и таких, на которые он должен дать короткий словесный или числовой (в виде решения математической задачи, например) ответ. В противоположность этому, «объективными вопросами» (objective questions) стали называть вопросы, требующие выбора ответа из предлагаемых альтернатив. Несмотря на то что есть несколько видов заданий, требующих выбора со стороны экзаменуемого, например дихотомических («верно/не верно») и на составление пар (matching), наиболее часто используемым, наиболее полно изученным и наиболее часто критикуемым типом тестовых заданий оказался, вне всякого сомнения, вопрос с множественным выбором ответов.
Критики формата множественного выбора утверждают, что он поощряет механическое запоминание и заучивание изолированных фактов, вместо того чтобы способствовать развитию навыков решения задач (problem-solving) и осмысленного понимания. В добавление к этому, многие чиновники от образования и представители политических кругов не делают различий между использованием заданий с множественным выбором и стандартизованным тестированием и огульно поносят оба этих элемента методологии оценивания.2 По иронии судьбы, те самые программы стандартизованного тестирования, которые использовались для построения точного графика образовательного прогресса, часто обвиняются в открываемых с их же помощью недостатках образования (Courts, & Mclnerney, 1993; Н. Gardner, 1992; Resnick, & Resnick, 1992). К сожалению, критика чрезмерного и неуместного использования стандартизованных тестов в некоторых случаях оказалась полностью оправданной. Во всяком случае, обвинения в перегруженности учебного плана проверочными тестами и заявления о необходимости срочно реформировать систему образования, включая программы тестирования, высказывались педагогами, работающими на всех уровнях этой системы, и становились все громче на протяжении последних двух десятилетий. Сторонники реформы образования считают, что нужно прежде всего пересмотреть цели учебных программ и усовершенствовать методы обучения вместе со средствами оценки его результатов, и воспринимают эти три сферы как неразрывно связанные.
Так как рассмотрение философских, политических и практических аспектов образовательной реформы выходит за рамки этой книги, мы ограничимся обсуждением ряда предложенных альтернативных методов оценки. Эти альтернативы описаны под разными заголовками: оценка «на основе анализа выполнения учебных заданий» (performance-based assessment), «аутентичная» (authentic) оценка, «прямая» (direct) оценка (см., например, Е. L. Baker, O'Neil, & Linn, 1993; Linn, & Gronlund, 1995, chap. 10). Хотя каждый из этих подходов расставляет свои акценты в оценке учебных достижений, все их объединяет одна важная особенность — предпочтение задач, которые, подобно прежним «экзаменационным вопросам», требуют от экзаменуемого составить собственный ответ. Сейчас такие задания называют задачами с составлением ответа (constructed-response tasks) или задачами со свободным ответом (open-ended tasks). Они противопоставляются задачам с выбором ответа (selected-response tasks); это
1 При кратком, терминологическом переводе на русский утрачиваются коннотативные значения, связанные со словом essay (эссе). — Примеч. науч. ред.
2 Следует заметить, что в таких инструментах, как SATu тесты NAEP, да и в других стандартизованных средствах измерения достижений, применяемых во многих масштабных программах образовательного тестирования, в течение некоторого времени использовались essay questions и другие виды заданий, предполагающих свободную форму ответа.
Часть 5. Области применения тестирован»!
общий термин, применяемый к заданиям, требующим от экзаменуемого только выбрать ответ из предложенных вариантов, как это имеет место в заданиях с множественным выбором и в других типах вопросов, обычно называемых «объективными». Задания с составлением ответа могут заключаться в простом заполнении пробелов тестового бланка (Jill-in-the-blanks), решении задач или письменном изложении вопросов и тем (essays), а также в разного рода демонстрациях умений и навыков, наподобие игры на музыкальном инструменте, произнесения речи или починки автомобиля.1
Метод, называемый портфельной оценкой (portfolio assessment), предлагает другой набор альтернатив. Относящие к этому типу средства оценки нацелены преимущественно на то, чтобы сделать процесс оценивания учебных достижений как можно более обоснованным и реалистичным. Хотя этот термин применяется к широкому набору методик, портфель обычно состоит из накопленного за относительно длительный период архива выборочных образцов работ учащихся в конкретных областях, таких как письмо или любая другая деятельность, прогресс в которой можно документально зафиксировать (Camp, 1993; Gitomer, 1993; D. P. Wolf, 1993). Портфельный метод оценки предлагает пользователям гибкую стратегию и может реализовываться более или менее формально, при разной степени сотрудничества между учеником и учителем (см. работу Karlsen, 1992, которая служит примером опубликованного инструмента этого типа).
Даже из этого краткого обзора читатель, вероятно, сделал вывод, что средствам оценки работы учащихся и усвоенного ими материала уделяется огромное внимание. Интерес специалистов распространяется не только на то, что измеряют различные тестовые задания и насколько хорошо они это делают, но и на другие психологические аспекты заданий. Например, Zeidner (1993) исследовал аттитюды учащихся в отношении разных форматов тестовых заданий и обнаружил, что они предпочитают задания с множественным выбором традиционным вопросам, требующим составления ответа (essays). Исследование Lu, & Suen (1995) показывает, что оценка на основе анализа выполнения учебных заданий (performance-based assessment), в общем, ставит в более благоприятные условия поленезависимых учащихся по сравнению с полезависимы-ми (см. главу 16). Другие исследователи изучили взаимосвязь между тестовой тревожностью и типами заданий и пришли к выводу, что показатели по тестам с составлением ответов (constructed-response tests), по-видимому, больше подвержены влиянию тревоги, чем показатели тестов с выбором ответов (Crocker, & Schmitt, 1987). Обсуждение переменных, которые могут вторгаться в мотивацию тестируемых и влиять на их скорость реагирования и уровень выполнения, — таких, например, как цель процедуры оценивания, — а также некоторых других факторов, которые могут сказываться на интерпретации тестов с составлением и с множественным выбором ответов, можно найти в работе Сноу (R. E. Snow, 1993).
В то же время постепенно накапливалась эмпирическая литература, посвященная психометрическим (в строгом смысле слова) качествам задач, используемых для оценки достижений в учебных заведениях (performance-based tasks).2 Темпы этих исследований, как и области получаемых результатов, широко различаются в зависимости
1 Разумеется, задания теста можно классифицировать и но другим измерениям (dimensions), помимо измерения «составление/выбор ответа». Примеры двух разных таксономии типов заданий можно найти в работах R. E. Bennett (1993) и R. E. Snow (1993).
2 См. в особенности R. E. Bennett, & Ward (1993).
Глава 17. Основные области применения тестов в наше время
от конкретных типов изучаемых заданий. Довольно много работ было посвящено исследованию надежности процедур определения показателя для задачи с составлением ответа, которые, подобно применяемым в ситуационных тестах процедурам (см. главу 16), часто состоят из рейтингов (Е. L. Baker et al., 1993; Linn, & Gronlund, 1995, chap. 10). В общем, когда правила выставления оценок ясны и подробно разработаны, а оценщики должным образом подготовлены, получаемые коэффициенты надежности оценщика (interraterreliability) вполне благоприятны. С другой стороны, обобщае-мость, или распространимость, результатов на другие темы и задачи оказывается типично низкой, свидетельствуя о том, что задания с составлением ответа обладают относительно высокой степенью специфичности. Этот результат не является неожиданным, учитывая, что такие задания, как правило, сложнее и допускают более широкий спектр ответов, чем задания с выбираемыми ответами.
Что касается вопросов валидности, то здесь эмпирическая база остается пока еще ограниченной, по крайней мере, в отношении наименее ограничивающих свободу экзаменуемого и наиболее новых по принципам построения типов задач с составлением ответа. Один из самых важных вопросов, требующих первоочередного решения, — это вопрос о том, в какой степени задания с составлением и с выбором ответов измеряют эквивалентные свойства, черты или навыки. Хотя данных здесь накоплено не столь уж много, обзор исследований по этой проблеме (Traub, 1993) позволяет предположить, что степень эквивалентности варьирует в зависимости от предметной области. Например, когда разные форматы заданий используются в тестах на понимание прочитанного или в тестах математических знаний, они, в общем, дают эквивалентные результаты, тогда как в области письма тип используемых заданий, по-видимому, действительно оказывает значимое влияние на тестовые показатели.
Между тем тестовые задания с множественным выбором по-прежнему широко используются в образовательных тестах. Фактически, введение различных форматов заданий в образовательные тесты, совпавшее по времени с жесткой критикой заданий с множественным выбором, по-видимому, послужило серьезным стимулом к усовершенствованию последних. Найти руководство по разработке, критическому анализу и оценке заданий с множественным выбором не составляет труда (см., например, На-ladyna, 1994), а исследования конкретных аспектов этого формата, таких как оптимальное число предлагаемых вариантов ответа, продолжаются и по сей день (Trevisan, Sax, & Michael, 1991, 1994). Более того, постоянно опробуются и распространяются новые и усовершенствованные варианты задач с выбором ответа (см., например, Linn, & Gronlund, 1995, chap. 8; Sax, 1991; Sireci, Thissen, & Wainer, 1991; Wainer, & Kiely, 1987; Wainer, & Lewis, 1990).
Проводились также прямые сравнения между заданиями с составлением и с выбором ответов (например, Lukhele, Thissen, & Wainer, 1994). В большинстве случаев, при проведении сравнений по таким критериям, как экономичность, оперативность и прогностическая валидность, их результаты оказывались в пользу заданий с множественным выбором, особенно когда эти задания сравнивались с традиционными вопросами для письменного экзамена (essay) (Anastasi, 1988b, p. 416-418; R. E. Bennett, 1993). Нужно, однако, заметить, что проблема оценивания и сравнения различных форматов заданий для оценки учебных достижений в то время, когда и цели, и методы такой оценки находятся в состоянии непрерывного изменения, далеко не так проста, чтобы решать ее путем прямых сравнений. К тому же не следует забывать, что формат задания — это только одна из многих взаимодействующих между собой переменных, ко-
Часть 5. Области применения тестирования
торые определяют справедливость, точность и общее качество методики оценки. Цель оценки, оцениваемая предметная область и характеристики оцениваемых лиц — все эти переменные требуют обязательного учета (Е. L. Baker et al., 1993; R. E. Bennett 1993; Dwyer, 1993; Mislevy, 1993). Например, такие вопросы, как дифференцированное влияние неудач на последующую мотивацию тестируемых могут ставиться впереди всех прочих критериев оценивания заданий, особенно для учащихся с физическими и умственными недостатками или другими особенностями, ставящими их в неблагоприятное положение. Однако стоит заметить, что в данное время нет оснований считать, будто оценка на основе выполнения учебных заданий {performance-based assessment) ведет к сужению разрыва, который существовал между показателями представителей белой расы и некоторых этнических меньшинств по стандартизованным тестам, построенных по принципу множественного выбора ответов. На самом деле, некоторые исследования показывают, что этот вид расхождения показателей может быть еще больше в тестах с составлением ответом, чем в тестах с выбором готовых ответов (Hartle, & Battaglia, 1993). Современные проблемы в области оценки академических достижений учащихся с выраженными культурными и языковыми различиями рассматриваются, кроме того, в работах Cancelli, & Arena (1996), К. W. Howell, & Rueda (1996), Shinn, & Baker (1996).
Типы образовательных тестов
Вгодовом отчете Службы тестирования в образовании за 1990 г.попечительский совет этой организации предсказал, что образовательное тестирование изменится в последующее десятилетие больше, чем оно изменилось за пять предыдущих (ETS, 1990). Похоже, что это предсказание оказалось точным и, пожалуй, могло бы быть повторено в отношении грядущего десятилетия. В настоящее время тесты всех видов подвергаются значительной переработке, и одновременно быстрыми темпами идет разработка новых оценочных инструментов. Поэтому представленный ниже обзор сосредоточен на типах инструментов, традиционно используемых в сфере образования, а не на подробной характеристике отдельных тестов. Разумеется, рассматриваются также некоторые непрерывные линии, по которым идет совершенствование этих инструментов внутри каждого типа.
Батареи общих достижений.Есть несколько батарей для измерения общих академических достижений в областях, чаще всего охватываемых учебными планами. Этот тип теста может использоваться и в первых классах, и при обследовании взрослых, хотя свое основное применение он нашел в начальной школе.1 В типичных случаях эти батареи дают профили показателей по отдельным субтестам или в основных областях обучения. Преимущество таких батарей по сравнению с независимо разработанными тестами достижений состоит в том, что они позволяют проводить горизонтальные либо вертикальные сравнения или оба этих типа сравнений одновременно. Таким образом, относительное положение индивидуума в разных областях знаний или учебных навыков можно оценивать исходя из результатов единой нормативной выборки, а прогресс ученика от класса к классу может отображаться в единицах одной шкалы
1 Речь идет об американской начальной школе, включающей первые 6-8 классов. — Примеч. науч. рей-
Глава 17. Основные области применения тестов в наше время
показателей. Пользователю теста следует выяснить, была ли выбранная им конкретная батарея стандартизована таким образом, чтобы обеспечить один из двух или оба вида сравнений.
Хотя некоторые батареи общих достижений предназначены исключительно для начальных классов, а некоторые — для средней школы, все же большинство имеют широкий диапазон, охватывающий оба уровня образования, а иногда и первый год обучения в колледже. Лишь немногие из них представлены единой для всех классов батареей, тогда как большинство состоит из нескольких частично перекрывающихся батарей, которые оформлены в виде отдельных тестовых буклетов, используемых на разных уровнях обучения. Некоторые из батарей действительно образуют согласованную серию тестов, обеспечивающую сопоставимые измерения в диапазоне от приготовительных классов (Grades К) до 12-го класса. Один такой набор составляют Тесты основных навыков штата Айова (Iowa Tests of Basic Skills), Тесты достижений и умений (Tests of Achievement and Proficiency) и Тесты развития в обучении штата Айова (Iowa Tests of Educational Development); другой — комплект Стэнфордского теста достижений (Stanford Achievement Test Series).
Заслуживающей внимания особенностью некоторых батарей достижений является их совместное нормирование с тестами академического интеллекта или академических способностей. Среди наиболее важных примеров — батареи достижений, со-четанные с тремя многоуровневыми тестами, разговор о которых шел в главе 10, а именно: серия Стэнфордских тестов достижений в связке с Тестом школьных способностей Отиса—Леннона; серия Тестов штата Айова и Тесты достижений и умений в связке с Тестом когнитивных способностей; Калифорнийские тесты достижений и Комплексные тесты основных навыков в связке с Тестом когнитивных навыков (см. табл. 10-1). Использование в этих случаях одной и той же выборки стандартизации дает возможность проводить прямые сравнения показателей любого ученика, полученных им по двум типам тестов. Обычно тесты каждой пары высоко коррелируют, и испытуемые получают по ним очень близкие показатели. Когда у кого-то из учеников один из показателей (либо по тестам способностей и навыков, либо по тестам достижений) значительно выше другого, желательно выяснить возможные причины такого расхождения. Батарея достижений измеряет преимущественно то, что ученик усвоил из основных школьных курсов, тогда как тест когнитивных навыков оценивает более широкий спектр умений и знаний, приобретенных учеником как в школе, так и за ее пределами. Любое значимое расхождение в выполнении этих двух типов тестов может отражать влияние специальных способностей (или, наоборот, неспособности к чему-то конкретному), либо воздействие таких некогнитивных факторов, как мотивация, интересы и аттитюды. Происхождение и жизненный опыт индивидуума часто дают подсказку к пониманию обстоятельств, вызвавших необычное расхождение в выполнении тестов.
Батареи достижений явно различаются по техническому уровню процедур, используемых для конструирования входящих в них тестов. Тем не менее как группа, эти батареи отвечают высоким стандартам разработки тестов, особенно в том, что касается объема и репрезентативности нормативных выборок, надежности и валиди-зации содержания. После составления заданий на основе подробной спецификации теста проводится их всесторонний анализ, включая применение методов IRT. Чтобы избежать смещения результатов, вызываемого половыми и этническими различиями, обычно используют специальные процедуры. Все батареи включают оценку базо-
Часть 5. Области применения тестирована
вых навыков в таких областях, как чтение, язык и математика, и варьирующего объема предметных знаний в сфере естественных и социальных наук. Некоторые к тому же содержат ряд субтестов, предназначенных для измерения учебных навыков или умения использовать различные источники информации. Наконец, отвечая на запросы пользователей, издатели основных стандартизованных батарей достижений предлагают в настоящее время большее разнообразие заданий и опций. Теперь в них используются задания со свободным ответом и более широкий набор заданий с выбором ответа, назначение которых — измерять мыслительные навыки высшего порядка в более значимых контекстах. Издатели обеспечивают повышенную гибкость приспособления оценочных пакетов к требованиям учебных планов конкретных образовательных учреждений за счет предоставления пользователям возможности составлять разнообразные «смеси» из различных по содержанию и формату заданий и к тому же выбирать подходящую систему количественных показателей. Они также предлагают больше согласующих элементов (linkages) между тестами и учебными материалами.1
Тесты на минимум базовых навыков.Два последних десятилетия свидетельствовали о растущей озабоченности низким уровнем компетентности выпускников средней школы в таких областях, как чтение, письмо и арифметические навыки. Эта обеспокоенность привела к повышенному спросу на тесты для оценки уровня базовых навыков как средства подтверждения образовательного минимума и как основы для выдачи аттестата об окончании средней школы. Предложение сделать такое тестирование обязательным вызвало бурю споров, в которых большинство аргументов противной стороны указывало на высокую вероятность неправильного использования и истолкования тестов минимальной компетентности, а также на возможное снижение гибкости обучения и усиление бюрократических средств управления в сфере образования.2 Хотя в большинстве штатов установлена политика в отношении тестирования минимума компетентности, определяемые ею стратегии и процедуры широко различаются в разных штатах относительно сроков проведения тестов и ступени обучения, на Которой они должны проводиться; конкретного использования результатов тестирования, а также сущности и степени местной автономии в разработке или выборе тестов. Кроме того, тесты, используемые для принятия решений о выдаче или отказе в выдаче аттестата, должны отражать специфику учебного плана в разных <