Сравнение степени трудности задач

Первую задачу решили Вторую задачу решили Всего  
Правильно Неправильно    
Правильно 40 (А) 10 (Б)
Неправильно 20 (В) 5 (Д)
Итого  

Валидность [< англ. valid – пригодный] – один из основных критериев качества теста. Валидность (адекватность) теста в настоящее время понимается как точное соответствие содержания задаваемой тестом пробы смыслу и содержанию выявляемого признака.

Валидность теста успеваемости характеризуется корреляцией между результатами теста и каким-либо выбранным критерием валидности. Такими критериями могут быть оценка знаний учащихся учителем, результаты, полученные с помощью других методов оценки (например, опроса или контрольной работы), проанализированные компетентными судьями, опытными методистами или преподавателями. При коэффициенте корреляции 0,7-0,9 считается, что валидность теста высока, при 0,45-0,65 удовлетворительная.

Проблема валидности возникает в процессе применения теста, когда ставится задача установить соответствие между степенью выраженности интересующего свойства личности и методом его измерения. Чем валиднее тест, тем лучше он отражает то качество (свойство), ради измерения которого он создан.

Понятие валидности относится не только к тесту, но и к критерию оценки его качества. Чем выше коэффициент корреляции теста с критерием, тем выше валидность. Развитие факторного анализа позволило создавать тесты, валидные по отношению к идентифицируемому фактору. Только проверенные на валидность тесты могут быть использованы в научных исследованиях.

В то же время необходимо заранее предполагать, что ни один элемент измерительного инструментария не является валидным вообще, он может быть валидным лишь в определенном смысле. Математический тест не дает сведений о развитии интеллекта, об уровне владения лингвистическими навыками и др. Математический тест, предназначенный для второго полугодия 6-го класса, не является валидным для другой стадии обучения. Если тест ориентирован на содержание конкретного учебника, то его валидность для учащихся, работавшим по иным учебникам, является проблематичной. В связи с этим определение валидности теста требует постановки дополнительных вопросов: валидность для чего, для какой цели, по какому критерию?

На валидность измерения могут влиять различные факторы. Возрастные, социальные или временные изменения влияют, помимо заранее спланированных педагогических условий, на сформированность тех или иных качеств личности. Незапланированное и неучитываемое воздействие личности педагога-экспериментатора на учащихся. Ошибки и неточности, связанные с субъективностью оценки поступков, мнений и действий наблюдаемых учащихся. Нередко наблюдается случайный отбор школьников для проведения опытно-экспериментальной работы без учета требований типичности характерных проявлений изучаемых сторон личности, в этом случае нарушается условие репрезентативности выборки из генеральной совокупности. Преобладание в экспериментальном классе учащихся с крайними позитивными или негативными проявлениями изучаемого свойства или качества влияет на весь ход опытноэкспериментальной работы. Большая психологическая настроенность, определенная установка на участие в исследовательской работе, которая существует в экспериментальном классе в отличие от контрольного. Как правило, ученики экспериментального класса более податливы к различным воздействиям и влияниям экспериментатора, чем такие же ученики в независимых условиях. Неравномерные изменения в составе классов во время проведения исследовательской работы, так как появление в классе большого количества новых для этого коллектива учеников будет влиять на конечный результат.

Наряду с тремя важнейшими критериями качества измерения в литературе называются и другие критерии. Линерт (Lienert, 1969) различает, например, следующие: а) нормирование теста, позволяющее включать результаты индивидуального тестирования в систему соотносительных понятий; б) сопоставимость теста, возможная благодаря параллельным формам или благодаря тестам с одинаковой валидностью. В таком случае тест можно сравнить с его «близнецом» или «двойняшкой». К тому же при групповых исследованиях в школьных классах параллельные формы затрудняют списывание; в) экономичность теста, имеющая место в том случае, если для проведения тестирования и обработки данных не требуется больших затрат времени и средств, если тест несложен и может использоваться в группах; г) полезность теста, являющаяся максимальной, если существует большая практическая потребность в исследовании данного поведения и если для этой цели еще не разработано или разработано слишком мало методов.

Советский исследователь А. А. Кыверялг подробно описал такой критерий, как диагностическая ценность теста, используемый при конструировании тестов успеваемости.

Диагностическая ценность теста успеваемости определяется путем проведения предварительного опыта с так называемым «нейтральным классом», результаты которого в дальнейшей исследовательской работе не используются. В процессе обработки результата предварительной контрольной работы все полученные данные располагают в возрастающем порядке и определяют медиану, т.е. величину члена, находящегося в середине ряда. Учеников, которые получили оценку ниже медианы, считают «слабыми», тех, кто получил оценку выше медианы, считают «сильными».

Далее при каждом задании выясняется количество правильных и ошибочных ответов «сильных» и «слабых». Результаты заносятся в схему четырех полей.

Предположим, что на первый вопрос из 15 «сильных» учеников 10 ответили правильно, 5 – ошибочно; из «слабых» – 3 правильно, 12 ошибочно.

Составим схему четырех полей (см. табл. 4).

Таблица 4

Наши рекомендации