Постулаты классической теории тестов
Теория надежности строится на базе ряда постулатов, закладывающих основополагающие идеи классической теории тестов [44,48].
Согласно первому постулату
где Xif— наблюдаемый результат i-го испытуемого выборки по тестовой форме f Тi — его истинный балл; Еif— суммарная ошибка измерения при оценке Tt с помощью теста f
Второй постулат связан с понятием «параллельные формы теста». Формы f, g, h... считаются параллельными, если они разработаны на основе одной спецификации, имеют одинаковое количество заданий попарно равной трудности с совпадающими характеристиками, в том числе и с совпадающими коэффициентами интеркорреляции, и порождают на одной и той же выборке идентичные распределения наблюдаемых баллов (распределения с одинаковыми средними, дисперсией и т.д.)- Согласно второму постулату ковариации результатов тестирования по параллельным формам должны быть одинаковы:
где — ковариации между тестовыми баллами по
параллельным формам теста.
Третий постулат строится на гипотетическом предположении о существовании результатов бесконечного числа тестирований одного и того же испытуемого с помощью параллельных форм теста. Согласно третьему постулату среднее значение ошибок измерения истинного балла испытуемого стремится к нулю при числе тестирований, стремящемся к бесконечности.
Четвертый постулат основан на идее тестирования бесконечной популяции испытуемых, осуществляемого с помощью данного набора параллельных форм теста. Согласно этому постулату среднее значение ошибок измерения баллов в популяции будет стремиться к нулю при бесконечном увеличении ее размеров.
И наконец, по пятому постулату истинный балл испытуемого не изменяется при использовании различных параллельных форм теста.
Использование указанных постулатов приводит к фундаментальному соотношению классической теории тестов. Согласно соотношению дисперсия наблюдаемых баллов дисперсия истинных баллов и дисперсия ошибок измерения связаны равенством.
Таким образом, дисперсия наблюдаемых баллов равна сумме дисперсий истинных и ошибочных составляющих.
Для построения классической теории тестов изложенную систему постулатов целесообразно дополнить двумя предположениями. Одно из них связано с допущением о континуальном распределении истинных баллов в генеральной совокупности в противоположность объективно существующему дискретному характеру распределения наблюдаемых баллов тестируемой выборки. Другое
предположение о нормальном законе распределения наблюдаемых баллов, истинных баллов и ошибок измерения.
Важность приведенных постулатов и основных предположений часто остается за гранью внимания разработчиков тестов, поскольку в основном разработчики имеют дело не с выводом формул, а с готовым математическим аппаратом для оценки надежности и валидности тестов. Однако эти предположения необходимы, и о них следует постоянно помнить в процессе разработки теста. В противном случае можно прийти к неоправданным выводам о высоком качестве теста и получить существенно смещенные результаты измерения с большим ошибочным компонентом.
Равенство (5.69) удобно переписать в виде
В последнем выражении следует понимать как среднее
арифметическое дисперсий ошибок для оценок различных испытуемых из генеральной совокупности. Необходимость введения среднего значения вызвана тем, что ошибка при оценке истинного балла будет различной у испытуемых группы.
Естественно предположить, что чем ближе , тем выше
корреляция между множеством наблюдаемых баллов X и множеством истинных баллов Т тем, следовательно, надежнее тест. Поэтому отношение обычно трактуют как концептуальное определение коэффициента надежности теста — rnТогда
а для статистик коэффициент надежности можно записать в виде
Хотя формула (5.71) имеет основополагающий характер, она не операциональна, поскольку по эмпирическим результатам выполнения теста нельзя определить S2E. Несложный анализ формулы (5.71) позволяет сделать выводы о возможных пределах величины rн и факторах, влияющих на ее измерение.
Очевидно, что дробь S2E / S2X всегда неотрицательна, поэтому коэффициент надежности не может принимать значение больше единицы. Максимальное значение rн = 1 получается в том случае, когда S2E =0, — случай, который не встречается в практике любых измерений. Так как величина дроби растет по мере роста числителя и уменьшается с ростом знаменателя, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокую дисперсию тестовых баллов учеников.
Конечно, максимального значения дисперсия достигнет при равномерном (прямоугольном) распределении, когда каждое значение индивидуального балла встречается один раз. Однако этот случай противоречит важному предположению о нормальном характере распределения. Поэтому обычно разработчики нормативно-ориентированных тестов стремятся к максимальным значениям S2X, но без нарушения закона нормального распределения статистик по тесту.