Факторы, влияющие на надежность гомогенного теста
Основываясь на постулатах классической теории тестов, можно показать, что корреляция rт каждого задания./ с истинным показателем Т равна квадратному корню из среднего значения его корреляций с другими заданиями теста [11]:
где rт — среднее значение по всем корреляциям j-го задания с остальными заданиями теста.
Далее следует вспомнить, что, чем выше корреляция между множествами наблюдаемых Х и истинных Г баллов, тем меньше ошибка измерения, тем надежнее тест. Поэтому естественно принять предположение об увеличении надежности по мере роста rJT для каждого задания теста.
Сточки зрения разработчика теста, формула (5.72) имеет крайне важное значение, поскольку из нее следует интересный вывод, необходимый для конструирования надежного гомогенного теста. Если автор сумеет разработать много заданий и выбрать из них те, которые имеют большое значение среднего арифметического корреляций с другими заданиями теста, то согласно формуле (5.72) тест будет в высокой степени надежным и обеспечит низкую погрешность измерения.
Однако это простое, казалось бы, правило конструирования автору довольно трудно выполнить при создании итогового теста. Если при выборе заданий из совокупности руководствоваться исключительно формулой (5.72), то, с одной стороны, повысится однородность (гомогенность) теста и соответственно надежность осуществляемых с его помощью измерений. С другой стороны, отбор заданий с высокой интеркорреляцией неизбежно негативно скажется на качестве содержания итогового теста. В тест попадут близкие по содержанию задания, нацеленные на одни и те же содержательные элементы, что явно противоречит идее итоговой проверки.
Правда, из этого положения есть выход, который предлагают теоретики. В очень длинных тестах (100 заданий или более) малые значения интеркорреляции заданий могут сочетаться с высокой надежностью теста. Поэтому итоговые тесты часто стараются увеличить по длине и довести ее до 100—150 заданий [11].
Таким образом, первым фактором, влияющим на надежность, является внутренняя согласованность теста, обеспечиваемая высокой однородностью содержания заданий при их отборе в тесте. Точность тестовых оценок возрастает по мере повышения однородности (гомогенности) теста, когда содержание всех заданий нацелено на измерение единственной характеристики ученика, например уровня его подготовки по предмету. Поэтому нередко концепцию надежности увязывают с характеристикой внутренней согласованности теста. В целом при создании гомогенного теста к однородности содержания следует стремиться, но в тех пределах, которые не нарушают правильность пропорций содержательных элементов в итоговом тесте.
Анализ возможных значений интеркорреляции между заданиями можно продолжить, чтобы получить представление о втором факторе, влияющем на надежность теста. Так как корреляции между заданиями отличаются, то они образуют некоторое распределение вокруг их среднего значения для каждого задания теста. Исходя из этого предположения, можно оценить стандартную погрешность измерения среднего значения интеркорреляции Se (rj) для каждого задания теста:
где Srjk — стандартное отклонение по распределению значений коэффициента корреляции j-го задания со всеми другими заданиями теста; п — число заданий в тесте.
Формула (5.73) указывает на прямую пропорциональную зависимость от стандартного отклонения корреляций заданий и обратную зависимость от количества возможных корреляций между п заданиями теста. Вычитание единицы в знаменателе дает соответствующие степени свободы.
Анализ формулы (5.73) позволяет получить два важных следствия: первое — по мере возрастания стандартной погрешности увеличивается различие между интеркорреляциями заданий, второе — стандартная погрешность убывает с ростом числа заданий в тесте. Таким образом, формула (5.73) показывает, что надежность повышается с увеличением не только однородности содержания заданий, но и длины теста. Следовательно, длина теста — это второй фактор, влияющий на надежность теста.
Если применить формулу (5.73) для случая, когда Srjk = 0,15 , к тесту, состоящему из 10, 20 и 30 заданий, то получатся следующие стандартные погрешности [11]: 0,02; 0,01; 0,007 соответственно.
Приведенные результаты указывают на высокую точность оценки надежности теста для случая, когда дисперсия по множеству значений коэффициента интеркорреляции заданий невелика, что характерно для гомогенного теста достаточно большой длины (не менее 30 заданий).
Вообще говоря, вывод о необходимости разработки длинных тестов вполне понятен интуитивно, без всякого анализа формулы, так как естественно увязать этот вывод с определением истинного балла тестируемых учеников. В той гипотетической ситуации, когда число заданий в совокупности стремится к бесконечности, наблюдаемый балл приближается к истинному баллу при уменьшении ошибки измерения, следовательно, по мере роста числа заданий увеличивается надежность теста.
Однако этот формальный вывод приходит в явное рассогласование с реальными возможностями учеников, поскольку по мере роста длины теста увеличивается их утомляемость и снижается мотивация к выполнению заданий теста, что в совокупности ведет к росту ошибки измерения. Из-за накопившейся усталости ученики не справляются с теми заданиями, которые в другой ситуации могли бы выполнить вполне успешно. Поэтому при выборе оптимальной длины теста разработчики руководствуются группой факторов, среди которых высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст учеников и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста.
По данным работы [43], учащиеся старших классов за одну минуту могут выполнить одно задание с выбором ответа (при числе ответов не менее четырех), три задания с кратким ответом на дополнение или три задания типа «правильно-неправильно» при условии, что все задания проверяют знания, а не способности учеников. .
В практике советской и российской школы при использовании тестов достижений в одну работу, рассчитанную на урок (45 мин.), обычно включают до 25 заданий с выбором ответа разного уровня трудности или от 3 до 10 заданий со свободным ответом. Вполне понятно, что подобная совокупность заданий из-за маленькой длины не обеспечит достаточную надежность теста, да и вряд ли вообще может быть названа тестом.
При определении оптимальной длины теста можно также воспользоваться данными международных сравнительных исследований (IAEP, TIMSS), в которых принято следующее распределение времени на выполнение заданий различного типа: с выбором ответа из четырех-пяти — в среднем до 1 мин., с кратким дополняемым ответом — в среднем до 2 мин., с полным свободно конструируемым ответом — до 5 мин.
С учетом всего сказанного рекомендуется проводить тестирование выпускников неполной средней школы (9 класс) в течение 2—3 уроков (от 90 мин. до 2 ч), а выпускников средней школы (11 класс) — в течение 2-4 уроков (от 1,5 до 3 ч).
Таким образом, письменная работа на два урока может включать до 50 заданий с выбором ответа, что позволит при прочих условиях обеспечить приемлемую, но не хорошую надежность теста. (Точная формула для определения скорости роста надежности по мере увеличения длины теста будет приведена дальше в разделе по оценке надежности теста.)
В оценке надежности очень важен подбор адекватной выборки испытуемых, выполняющих тест. Поскольку коэффициент надежности, как и любая статистика, связан с объемом выборки, то рекомендуется использовать выборки большого объема для оценки надежности теста. Например, Гилфорд в качестве минимального размера выборки предлагает 200 испытуемых для определения надежности теста [44]. По мнению Ньюнелли, их должно быть не менее 300, а вообще справедливо простое правило — чем больше выборка, тем достовернее оценка надежности теста.
Однако еще более важным параметром выборки, чем ее объем, является ее состав. Большая, но неправильно подобранная, нестратифицированная выборка может дать полностью ошибочные представления об оценке надежности теста. Выборка должна отражать ту категорию лиц, для которых предназначен тест. Например, если тест предназначен для итоговой аттестации выпускников 9 классов, бесполезно оценивать его надежность на выборке одиннадцатиклассников. Сама по себе выборка не должна состоять только из сильных или слабых учеников. Для оценки надежности в выборку включают школьников с различным уровнем подготовки, чтобы различные по подготовке категории школьников были представлены в равных долях.
Таким образом, при оценке надежности выборка испытуемых комплектуется специальным образом для отражения разнообразных параметров генеральной совокупности школьников.
Оценка надежности теста
Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста.
Конечно, практически отдают предпочтение второй группе методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов.
Вне зависимости от метода оценка надежности не всегда, но чаще всего строится на подсчете корреляции между двумя наборами результатов выполнения одного и того же теста или двух его параллельных форм. Логика рассуждений при этом довольно проста: чем выше корреляция, тем выше надежность теста.
Для маленькой выборки корреляцию можно оценить визуально, как, например, в приведенном далее примере (табл. 5.27). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 учеников.
Таблица 5.27. Результаты двукратного выполнения трех тестов
Номер испытуемого | Тест А | ТестВ | Тест С | |||
1-е тестирование | 2-е тестирование | 1-е тестирование | 2-е тестирование | 1-е тестирование | 2-е тестирование | |
• 4 | ||||||
5 | ||||||
Тест А обладает оптимальной надежностью, так как результаты 10 учеников остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент
корреляции, равный единице, поэтому (rн)А =-1.
Тест В полностью ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Результаты двукратного использования теста В указывают на полное отсутствие воспроизводимости баллов испытуемых и, следовательно, на минимальную
надежность теста, поэтому (rн )в = -1.
Тест С обеспечивает в целом существенно изменившуюся картину, хотя результаты отдельных учеников (3-го и 9-го) будут воспроизведены при повторном выполнении теста. Скорее всего, надежность третьего теста невелика, но положительна и ближе к нулю, чем к статистически значимым оценкам надежности теста.
Естественно, что рассмотренные гипотетические ситуации для теста А и В практически не встречаются в практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице и даже для существующих десятилетиями, получивших всеобщее признание очень хороших тестов.
Статистические методы подсчета коэффициента надежности могут быть основаны на различных формулах. Некоторые из них приводятся далее и сопровождаются примерами, иллюстрирующими их использование. В качестве примера выбрана матрица тестовых результатов размером 10 х 10, которая ранее уже встречалась при обсуждении статистических методов обработки результатов выполнения теста (см. табл. 5.3). Для удобства читателей она приводится еще раз (табл. 5.28).
Таблица 5.28. Матрица тестовых результатов
Номер испытуемого/ | Номер задания у | Индивидуальный балл Л", | |||||||||
7. | |||||||||||
10 - | 1' | ||||||||||
Число правильных ответов rj | |||||||||||
pj | 0,9 | 0,8 | OS | 0 1 | |||||||