Результаты теста успеваемости

Количество правильных ответов	Количество неправильных ответов
«Сильные» ученики
«Слабые» ученики

Диагностическая ценность задачи представляет собой частное скрещивающихся сумм диагоналей четырех полей, т. е.:

. Результаты теста успеваемости - student2.ru

Критической величиной диагностической ценности задачи считают 1,5. Если диагностическая ценность, полученная путем вычисления, больше критической величины 1,5 тогда задача имеет нужную диагностическую ценность. Практически считают частное скрещивающихся сумм диагоналей 3 хорошей диагностической ценностью. Надо обратить внимание на то, что при одной задаче, данной в предварительной контрольной работе, нецелесообразно делить экспериментальную группу на «сильных» и «слабых», это надо делать на основании оценки учителя.

Для оценки диагностической ценности (D) каждого вопроса правильные и неправильные ответы учащихся на каждый вопрос вносятся в таблицу (см. табл. 5).

Таблица 5

Ответы на каждый вопрос теста успеваемости

Вопрос	Неправильные ответы в «слабой» группе VN	Неправильные ответы в «сильной» группе VT	Остаток «сильных» и «слабых» VN – VT	Сумма ответов «сильных» и «слабых» VN+VT



и т.д.	¼	¼	¼	¼
S	= 80	= 60

Диагностическая ценность каждого D вопроса вычисляется по формуле:

Результаты теста успеваемости - student2.ru

Где K – общее количество вопросов (следовательно, и возможных ответов);

– количество учеников в «сильной» («слабой») группе.

Результаты теста успеваемости - student2.ru

Где N – общее количество учеников, которые написали работу;

VN – ошибки в «слабой» группе;

VT – ошибки в «сильной» группе.

Предположим, что для определения диагностической ценности вопросов контрольной работы была проведена контрольная работа с 50 учениками, причем правильные и неправильные ответы трех первых вопросов распределились так, как приведено в таблице (в обеих группах, т.е. в «слабой» и «сильной», было 14 учеников):

Результаты теста успеваемости - student2.ru

количество вопросов 15.

Результаты теста успеваемости - student2.ru

Диагностическая ценность первого вопроса:

. Результаты теста успеваемости - student2.ru

Диагностическая ценность второго вопроса:

Результаты теста успеваемости - student2.ru

Диагностическая ценность третьего вопроса:

Результаты теста успеваемости - student2.ru

Практически диагностирующими считаются те задачи, диагностическая ценность которых составляет от 16% до 84%. Если задача слишком легкая и большинство учеников могут решить ее, тогда диагностическая ценность ее ниже 16%, если задача слишком трудная и ее не может решить большинство учеников, тогда диагностическая ценность ее больше 84%. Следовательно, первая задача, приведенная в примере, слишком легкая, третья – слишком трудная, вторая задача имеет удовлетворительную диагностическую ценность.

На основании таблицы 5 можно также сделать заключение о диагностической ценности задач. Это показывает число

(VN – VT), приведенное в четвертом столбце таблицы 5. Чем больше это число, тем выше диагностическая ценность вопроса. Пятый столбец показывает степень трудности задач: чем больше это число, тем труднее задача.

Иногда случается, что число, находящееся в четвертом столбце отрицательное, т.е. на некоторые вопросы «сильные» отвечают неправильно, «слабые» – правильно. Обычно такие вопросы неясно сформулированы, поэтому ответы случайны. При выявлении таких вопросов их следует переформулировать иначе.

Диагностическую ценность теста успеваемости или контрольной работы можно легко определить при помощи знакового теста.

На основании предварительного опыта выбирают «сильных» и «слабых» учеников (27%) и проводят с ними предварительную контрольную работу. Для каждой задачи отмечают в «слабой» и «сильной» группах правильный или неправильный ответ каждого ученика буквой П или Н. Затем вычисляют достоверность различия знаков. Если общее количество однородных знаков («+», или «–»), полученных путем вычисления, больше критического числа, приведенного в специальной таблице, тогда задача имеет достоверную диагностическую ценность.

Хорошим способом проверки валидности теста успеваемости или контрольной работы является и коррелирование результатов теста с оценками учителя об учениках или сравнение с результатами, полученными путем проведения теста, сформулированного по-другому. В таком случае надо также проверить достоверность коэффициента корреляции.

Другим методом решения вопроса о дифференцирующей способности задания может быть следующий способ вычисления так называемого «индекса дифференциации». Испытуемых по результатам выполненных заданий делят на три группы – сильную, среднюю и слабую. Если общее число не делится на 3, то сильную и слабую группу делают по количеству одинаковыми. Индекс дифференциации вычисляется по формуле:

Результаты теста успеваемости - student2.ru

Где K’ – количество правильных ответов в сильной группе,

K” – количество правильных ответов в слабой группе,

– число испытуемых в группе.

E имеет пределы от –1 до +1. Допустимым считается значение E = +0,4. Меньшее значение E говорит о том, что такая формулировка задания не позволяет различать испытуемых по уровню подготовки. Отрицательное значение E свидетельствует о том, что слабо подготовленные лучше справились с заданием, чем сильные. Следовательно, задание необходимо либо переделать, либо отказаться от него.

После определения диагностической ценности вопросов нельзя исключать вопросы из контрольной работы механически, потому что низкая диагностическая ценность вопроса не всегда зависит от содержания, она может зависеть и от формулировки. Рекомендуется переформулировать вопросы, имеющие малую диагностическую ценность, и затем вторично дать их ученикам в предварительном опыте. Практически вопросами основного эксперимента могут быть те, которые при предварительном опыте дали приблизительно 50% правильных и 50% неправильных ответов.

Если тест или контрольная работа состоит из отдельных вопросов, которые не обязательно систематизированы по содержанию, тогда вопросы основного эксперимента должны быть поданы в тексте по порядку их трудности – в начале более легкие, в конце более трудные.

Трудность или легкость определяется по процентному отношению правильных ответов к общему числу возможных. Тест или контрольная работа имеет хорошую диагностическую ценность в том случае, когда за предусмотренное время сможет ответить на все вопросы 90% учеников (некоторые считают 75%). Это означает, что если все ученики за предусмотренное время смогут ответить на все вопросы, то тест слишком легкий, если за это время на вопросы сможет ответить ниже 90% учеников, то тест слишком трудный.

Степень сложности заданий можно определить при вычислении процента учащихся, получивших верный результат. Если 80% учеников, обрабатывающих задание, решили его правильно, то в таком случае степень сложности этого задания составляет 80 единиц. Степень сложности задания можно вывести с помощью следующей формулы:

Результаты теста успеваемости - student2.ru

Где K – количество учащихся, получивших верные ответы;

N – количество учащихся, решавших задания.

Степень сложности P в числовом выражении тем больше, чем легче задание.

В том случае, когда требуется провести дифференциацию учащихся с самой низкой успеваемостью, создаются легкие тесты, когда необходимо отобрать сильных, обращаются к сложным тестам. В остальных случаях для достижения хорошего результата распределения результатов тестирования стремятся к распределению степени сложности от P = 20 до P = 80 со средней величиной P = 50.

Техника построения тестов

Отечественный исследователь В. П. Беспалько рассматривает конструирование педагогических тестов на четырех уровнях в соответствии с четырьмя уровнями обученности испытуемых.

На уровне знакомства должны использоваться тесты по узнаванию, т.е. отождествлению объекта и его обозначения. Такими тестами могут стать задания на опознание, различение или классификацию объектов, явлений и понятий. Тесты на опознание достаточно просты, они должны привести в результате к одному из альтернативных ответов: да – нет, относится – не относится, согласен – не согласен. Тесты на различение более сложные, от предыдущих отличаются тем, что их выполнение осуществляется в условиях выбора правильного решения среди имеющихся различных вариантов.

На втором уровне, уровне репродукции, наиболее простыми являются тесты-подстановки, в которых намеренно пропущено слово, фраза, формула или другой какой-либо существенный элемент текста. Здесь возможны также конструктивные тесты, в которых учащимся в отличие от теста-подстановки не содержится никакой помощи даже в виде намеков. Пример: «Что такое галлюцинация?».

В качестве тестов второго уровня могут использоваться и типовые задачи. Это такие задачи, условия которых позволяют «с места» применять известную разрешающую их процедуру (правило, формулу, алгоритм) и получать необходимый ответ на поставленный в задаче вопрос. Именно необходимость поисковой деятельности исключается в типовых задачах, так как условия в них формулируются близкими к тем, которые имели место в учебной обстановке, а для их решения можно воспользоваться готовым алгоритмом или формулой. Например, тест «Является ли слово «белизна» существительным?» может служить примером типовой задачи, так как отнесение различных слов к определенным частям речи требует использования определенного правила (разрешающей процедуры). Эти правила применяются здесь непосредственно. В тех случаях, когда условия задачи не позволяют непосредственно усмотреть то правило, которое может быть использовано для получения необходимого ответа, и требуется соответствующее предварительное преобразование условий задачи или самого правила, мы имеем дело с нетиповой задачей. Примером нетиповой задачи может быть следующая: «Образуйте из слова «белый» другие возможные части речи». Деятельность в данном случае не регулируется однозначно правилами, а требует их преобразованного применения. Это уже тест третьего уровня.

При выполнении тестов второго уровня учащимся демонстрируется только знание способов деятельности применительно к разобранным в процессе обучения ситуациям. Учащийся, воспроизводя сообщенные ему правила действия на типовых примерах, никакой новой информации самостоятельно не получает.

Третьему уровню соответствуют задания, содержащие продуктивную деятельность, в процессе которой необходимо использовать знания-умения. Тестами третьего уровня могут стать нетиповые задачи на применение знаний в реальной практической деятельности. Условия задачи формулируются близкими к тем, которые имели место в реальной жизненной обстановке.

Решение задачи третьего уровня сводится в сведении ее к типовой задаче путем очистки от привходящих обстоятельств, рассеивающих внимание, и нахождения скрытых в ней дополнительных условий.

При решении тестов этого уровня учащийся не просто оперирует имеющейся информацией о способах деятельности, но и получает субъективно новый результат, который раньше не был ему известен. В ходе выполнения тестов третьего уровня учащийся каждый раз решает для себя вопрос, как использовать известный ему способ деятельности в новой ситуации. Он не просто применяет этот способ действия в известной обстановке, как в тестах второго уровня, а каждый раз преобразует его в связи с необычной ситуацией, осуществляет поиск метода решения, а не только результатов.

Тесты четвертого уровня – это проблемы, решение которых есть творческая деятельность, сопровождающаяся получением объективно новой информации. Тестами четвертого уровня выявляется умение учащихся ориентироваться и принимать решения в новых, проблемных ситуациях.

Тест имеет задание и эталон, по которому сравниваются ответы учащихся. При конструировании тестов четвертого уровня трудно предусмотреть эталон, так как предполагается, что результат предстоит получить объективно новый. Если метод получения результата известен, то данный тест становится тестом третьего уровня, то есть с получением лишь субъективно нового результата.

В качестве проблем для создания тестов четвертого уровня рекомендуется выбирать такие, которые могут быть разрешены существующими средствами современной науки, уже хорошо «просматриваются» методически и стоят на повестке дня. В решении таких проблем проявляется научная эрудиция испытуемого, умение выдвигать и проверять обоснованные гипотезы, применять соответствующие методики исследования, прогнозировать возможные трудности.

Проблемные ситуации в тестах четвертого уровня создаются двумя способами.

Во-первых, в учебных целях применяются уже исследованные проблемы, решение которых широко не опубликовано. В этом случае найденное в публикациях решение проблемы может стать эталоном теста четвертого уровня. Этот путь создания тестов пригоден лишь в студенческих учебных условиях, но не пригоден для поступающих в аспирантуру. Именно этим должны отличаться диссертации на соискание ученой степени бакалавра наук от кандидатских диссертаций.

Во-вторых, в качестве задания теста четвертого уровня может быть проблема, еще не получившая своего разрешения. В качестве эталона используется созданная экспертами методика разрешения сформулированной проблемной операции, хотя решения в деталях теста-проблемы еще нет.

Основные понятия по теме

ВАЛИДНОСТЬ [< англ. valid – пригодный] – один из основных критериев качества измерения, валидность понимается как точное соответствие содержания задаваемой контрольным заданием (тестом) пробы смыслу и содержанию выявляемого признака.

ТЕСТ [< англ. test – испытание, исследование] – определенные задания стандартной формы, по результатам выполнения которых можно судить о психофизиологических и личностных характеристиках, а также знаниях, умениях и навыках испытуемого; степень успеха или неудачи в таких заданиях оценивается количественно.

Вопросы и задания для самоконтроля

В чём специфика метода тестирования?

Перечислите типы тестирования.

Раскройте виды тестовых заданий.

Охарактеризуйте критерии качества измерений в общественных науках: объективность, надежность, валидность.

В чём сущность построения тестов различного уровня?