Развитие тестирования в зарубежной педагогике и психологии
Исторически сложилось, что ядром дидактической диагностики в 20-е годы становятся дидактические и психодиагностические тесты. Вошедшие в практику диагностирования в образовании на рубеже XIX и XX веков тесты по своим кажущимся, но обманчивым простоте, оперативности, дешевизне применения прочно закрепились в системах образования Запада. Специфика национальных систем образования такова, что в одних странах тесты как средство контроля получали активную правительственную и научную поддержку (в Великобритании, Франции, США), в других они просто не запрещались и использовались отдельными учебными заведениями, постепенно распространяясь в качестве «передового педагогического опыта». В США еще в 1908 г. Ф. Парсоне, организовавший в Бостоне Бюро профессиональной ориентации, стал основателем системы «Гайденс», помогающей школьникам в отборе предметов для обучения, в профориентации.
Появление педагогических тестов за рубежом нередко связывают с именем французского врача и психолога А. Бине (A. Binet). Его работа по диагностике интеллектуальных способностей, вышедшая в 1905 г., считается точкой отсчета в становлении основных научных подходов к измерениям в психологии и образовании. Конечно, были и более ранние попытки создания подобных тестов. Британские исследователи Ф. Гальтон (F. Gallon) и Дж.Кэттелл (/ Cattell) в 1890 г. использовали термин «тест на интеллект» (mental test). Им же принадлежит заслуга введения в научный оборот специальной характеристики качества теста (power of discrimination), указывающей на его способность дифференцировать испытуемых по измеряемой переменной.
Немного позднее идеи А. Бине были использованы немецким психологом и философом В.Штерном (W. Stern), который предложил специальный коэффициент для оценивания интеллекта — коэффициент IQ. Этот термин используется до сих пор, правда, несколько в ином контексте. В США работы А. Бине по измерениям продолжил Л.Терман (L. Тегтап). Он создал новые тесты (Стэнфорда-Бине), представляющие собой оригинальную модификацию работы его предшественника.
Достижения второго десятилетия XX в. в сфере измерений были связаны с проблемой распределения большого количества призывников по различным родам, войск в США во время Первой мировой войны. Правительство Соединенных Штатов организовало «мозговой центр» из специалистов — составителей тестов, статистиков и экспертов по измерениям — и направило его работу на решение задач, продиктованных военной необходимостью. В этом центре свои усилия по отбору и распределению новобранцев объединили такие известные специалисты, как Э.Торндайк (Е. Thorndike), Р. Годдард (R. Goddard), П.Йеркс (P. Yerkes) и Л.Терман (L. Теппап). Результатом их работы стали знаменитые батареи Альфа и Бета тестов для армии, которые после стали использовать (вплоть до настоящего времени) в качестве примеров при обучении разработчиков тестов в образовании.
Первые стандартизированные измерители в образовании США были созданы для оценки качества почерка, правописания и выполнения арифметических действий в конце 20-х гг. XX в. Тогда же в Америке появилась батарея тестов SAT, разработанных по инициативе Совета колледжей и предназначенных для отбора абитуриентов. Несколько позже, в конце 40-х гг. XX в., были созданы батареи тестов достижений, реализующие идеи многомерных измерений и обеспечивающие сопоставимость результатов по разным школьным предметам.
В 1904 г. англичанин Ч. Спирмен (С.Spearman) опубликовал фундаментальный теоретический труд по исследованию общих интеллектуальных способностей. Используя школьные оценки по различным предметам, Ч.Спирмен применил к данным тестирования аппарат новой для того времени теории корреляции и выявил примеры ковариации оценок школьников. Тем самым он заложил основы научных подходов к обоснованию качества тестов, соединив в своем исследовании теорию физических измерений, корреляционные методы и накопленный его предшественниками-психологами опыт оценивания способностей детей. Прообразом научных положений теории педагогических измерений послужила далекая от образования работа Н.Р. Кэмпбелла «Основы физики» (1920), благодаря которой был разработан теоретический аппарат для анализа качества измерений, а обыденное представление о тесте и его научное определение стали заметно различаться. Для обоснования качества педагогических измерений, их надежности и валидности была создана классическая теория тестов, получившая впоследствии название традиционной, и базирующаяся на концепции параллельных измерений и теории корреляции. На основе этой теории в 30 — 40-е гг. XX в. интенсивно разрабатывались количественные методы для анализа качества тестовых заданий, строились стандартизованные тесты учебных достижений и осваивались методы шкалирования результатов выполнения тестов.
В конце 40-х гг. XX в. увлечение чистой теорией сменилось пониманием важности правильного применения измерений в сфере психологии и образования. Исследователи осознали тот факт, что к тестируемым нужно относиться бережно и осторожно и что любая ошибка в оценках может привести к необратимым последствиям. В этой связи в теории педагогических измерений активизировался поиск эффективных методов повышения надежности результатов тестирования, стали разрабатываться методы факторного, дисперсионного и корреляционного анализа данных, получили широкое развитие методы формирования репрезентативных выборок, необходимых для стандартизации тестов.
Значимым событием конца 40-х гг. XX в. для развития теории и практики измерений в образовании стало создание в 1947 г. в США Службы образовательного тестирования — Educational Testing Service (ETS). Сегодня эта организация имеет представительства практически во всех странах мира. Из числа тестов, созданных ETS, наибольшую известность в связи с расширением программ международного обмена в обучении приобрел TOEFL, выявляющий уровни владения различными видами речевой деятельности для обучения в англоязычных странах.
В истории тестов были этапы подъемов и спадов. В частности период ожесточенной критики педагогических тестов наблюдался в США в конце 60-х гг. XX в. Широкая публичная дискуссия по проблемам использования тестирования совпала по времени с научной критикой, вызванной недостатками классической теории тестов. Высказывались опасения в том, что тестирование служит инструментом подавления инициативы и творчества учащихся, слишком упрощенно трактует такие сложные конструкты, какими являются учебные умения, не объективно оценивает учебные достижения. Приводились и другие аргументы против широкого использования тестов. Ученые-тестологи занимались в основном конструктивной научной критикой традиционных методов разработки тестов, что привело к построению новой теории — Item Response Theory (IRT), которую нередко в наши дни называют современной теорией тестов.
Неоспоримые преимущества IRT, связанные с возможностью прогноза надежности измерений, увеличения эффективности тестирования и получением оценки параметров подготовленности учащихся, не зависящих от трудности заданий теста, стали широко применяться на практике с конца 80-х гг. XX в. В это время были разработаны алгоритмы оценивания параметров испытуемых и заданий на основе математических моделей IRT, создано программное обеспечение и стали широко использоваться ПК. Сочетание аппарата классической теории и IRT при разработке тестов открыло новые возможности повышения качества педагогических измерений и применения тестирования в образовании. Современный период в истории развития тестов характеризуется интенсивным развитием теории IRT, созданием новых моделей и методик ее применения, внедрением в тестирование компьютерных технологий, адаптивного тестирования, различных инноваций в области разработки и применения тестов. В настоящий момент наметился ряд направлений исследований, нацеленных на расширение возможностей педагогических измерений, разработку инновационных измерителей и повышение качества тестов. К их числу относится создание новых моделей педагогического измерения, инновационных форм тестовых заданий для проверки творческих и практико-ориентированных аспектов подготовленности учащихся, методов калибровки тестовых заданий и методик компьютерного моделирования тестов, обеспечивающих планируемую точность измерений. Большое внимание уделяется психолого-педагогическим проблемам тестирования (проблемам тревожности, мотивации), развитию специальных процедур для выявления размерности пространства измерений, созданию специальных методик, позволяющих обоснованно использовать результаты педагогических измерений в управлении качеством образования.