Mетодические критерии качества измерений в социальных науках
Качество результатов измерения принято оценивать
по следующим общепринятым критериям: 1) объективность;
2) надежность; 3) валидность и др.
Тест успеваемости считается объективным тогда, когда удается максимально исключить интерсубъектные воздействия исследователей на его результаты, когда результаты не зависят от личности человека, проводящего измерение, подводящего итоги и интерпретирующего полученные данные. Объективность характеризуется корреляцией между результатами, полученными двумя оценивающими лицами. Необходимо, чтобы коэффициенты корреляции в этом случае были близки к единице (r = 1).
В целях обеспечения объективности проведение, обработка и интерпретация (оценка) результатов работы должны быть строго нормированы. Констатация и оценка или измерение и интерпретация должны быть максимально отделены друг от друга. С этой целью должны быть составлены точные инструкции проведения работы, исправления ошибок и оценки результатов.
Объективность проведения измерений требует, чтобы все учащиеся были подвергнуты одному и тому же испытанию в аналогичных условиях. Например, испытание должно длиться для всех одинаковое количество времени. Необходимо следить за тем, чтобы учащиеся не списывали друг у друга в процессе выполнения работы. Во избежание этого тест успеваемости необходимо проводить с совершенно отделенными друг от друга учащимися в двух или даже в четырех параллельных вариантах.
Большую трудность представляет обеспечение объективности интерпретации результатов исследования. Об объективности интерпретации можно говорить в том случае, когда несколько лиц одинаковым образом интерпретируют одни и те же результаты при обработке данных, устанавливают одни и те же взаимосвязи. Для большей объективности обработки данных рекомендуется в анкетировании, тестировании, наблюдении использовать закрытые вопросы, когда достаточно поставить крестик, цифру, выбрать одно слово из нескольких. Так как при оценке одной и той же работы с открытыми вопросами, свободной формой конструирования ответа разными учителями по-разному, имеет место субъективность обработки данных.
Объективность никогда не становилась самоцелью. Она является только предпосылкой надежности и валидности измерений. Необъективное измерение не может быть надежным и валидным.
Надежность теста – один из критериев качества теста, относящийся к степени точности измерений того или иного конкретного признака. Чем больше надежность теста, тем относительно свободнее он от погрешностей измерения.
В тестовой методике общепринято учитывать три коэффициента надежности: 1) коэффициент стабильности или постоянства, который представляет собой коэффициент корреляции между результатами тестирования при первом и повторном испытании одним тестом одного и того же ученического коллектива; 2) коэффициент эквивалентности, представляющий собой коэффициент корреляции результатов тестирования одного и того же контингента испытуемых вариантами одного и того же теста, либо разными, но эквивалентными по форме и цели тестами; 3) коэффициент внутреннего постоянства, или внутренней однородности, являющийся коэффициентом корреляции результатов частей теста, показанных одними и теми же испытуемыми.
При определении надежности теста успеваемости чаще всего используется коэффициент внутреннего постоянства, обычно посредством методов дисперсионного и факторного анализа. В тесте успеваемости коэффициент надежности (коэффициент корреляции) должен быть r > 0,7.
При определении надежности следует учитывать, что в каждом результате измерения присутствуют «истинная» и «искажающая» части. Предпринимаются попытки оценить соотношение этих частей с помощью различных методов, которые применяются при конструировании тестов. Обычно используется метод повторного тестирования, метод деления пополам и метод параллельного тестирования.
Метод ретеста или повторного теста позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте самокорреляции (коэффициенте релиабильности). Тем самым замеряется внутренняя константность теста, то есть в какой мере все задания теста замеряют одно и то же свойство. Обычно коэффициент релиабильности обозначается rjj. Положительным считается результат самокорреляции теста, при котором, как указывалось выше, rjj > 0,7. Этот метод редко применяется при измерении успеваемости, так как при повторном тестировании приходится считаться с эффектом тренировки, который оказывается тем сильнее, чем легче для запоминания задания и короче промежуток времени между первой и второй обработкой полученных данных.
Метод деления пополам может устранить вышеназванное препятствие. В этом случае подборка однажды выполненных заданий делится пополам. В первый полутест входят задания с нечетным порядковым номером, а во второй полутест – с четным. Подборка заданий может быть разделена надвое и на основании какого-либо другого принципа. Затем устанавливаются результаты каждого испытуемого по обоим полутестам и вычисляется коэффициент корреляции между полутестами, что дает сведения о надежности применяемого метода. Надежность теста успеваемости вычисляется по формуле:
где R – надежность теста успеваемости;
r1,2 – коэффициент корреляции между половинами теста успеваемости.
Метод параллельного теста. При методе параллельного теста для измерения одних и тех же знаний конструируются два различных набора заданий, которые по своему содержанию напоминают близнецов. Оба параллельных набора заданий можно предложить непосредственно друг за другом или при удобном случае. Эффект запоминания возникнуть не может, так как актуальная постановка заданий в каждом наборе несколько иная.
Составление эквивалентных тестов по естественно-мате-матическим циклам достаточно просто, а по гуманитарным – более сложно. Каждый вопрос теста или контрольной работы проверяется методом (хи-квадрат). Учащиеся при этом выполняют задание по первому варианту, потом по второму. После чего вычисляется корреляция между полученными результатами. Если коэффициент корреляции тестов r > 0,7, то тест считается надежным. Для вычисления корреляции применяют формулу:
Помимо общепринятых вышеперечисленных методик при определении надежности тестов иногда используются метод сравнения групп и метод сравнения трудности заданий.
Метод сравнения групп организуется следующим образом. Проводится контрольная работа в «сильной» и «слабой» группах учащихся, после чего подводятся итоги, сравниваются полученные результаты и вычисляется коэффициент корреляции по следующей формуле:
где k – количество вопросов;
n – 27 % от общего количества учащихся N;
(VN + VT) – сумма ошибок в «слабой» и «сильной» группах.
Сравнение степени трудности задач. Степень трудности задач обычно сравнивается методом теста с использованием системы четырех полей:
где Б – количество учащихся, которые решили правильно первую задачу, неправильно вторую задачу;
B – количество учащихся, которые решили правильно вторую задачу, неправильно первую (см. табл. 3).
Число степеней свободы 1, поэтому можно считать разность между степенями трудности первой и второй задач незначительной, и эти задачи можно применять в разных вариантах контрольной работы (по специальной таблице мы узнаем, что ).
Таблица 3