Качества хороших тестов
Все тесты различаются между собой, однако существуют некоторые общие качества, характеризующие успешно работающие тесты. К числу наиболее важных качеств следует отнести валидность, надежность, а также стандартизированность и наличие норм, которые облегчают интерпретацию показателей (Alken, 1997; Cronbach, 1990).
Валидность. Валидностъ является, бесспорно, наиболее важной характеристикой теста. Она представляет собой «критерий, показывающий, насколько тест действительно измеряет то, что он должен измерять» (Anastasi, 1982, р. 27). Если тест не выполняет этой функции, он в основном бесполезен. Валидность теста определяется путем сравнения его результатов с другими независимыми показателями. Следовательно, если тест предназначен для определения вероятности успешной деятельности в выбранной сфере, например в медицине, юриспруденции или консультировании, показатели тестирования сопоставляются с оценками успешности деятельности (такими, как ранги и оценки, поставленные инструкторами), полученными после того, как тестируемый индивид закончит свое обучение. Если показатели тестовой методики имеют высокую положительную корреляцию с такими независимыми показателями успешности, считается, что методика обладает высокой валидностью.
Существует три типа валидности: содержательная, конструктная и валидность по критерию (Anastasi, 1988,1992; Kaplan & Saccuzzo, 1982). Содержательная валидностъ, которую иногда называют собственно валидностью, является индикатором степени, в которой тест в действительности измеряет то, для чего он предназначен (Alken, 1997). Более существенно, что содержательная валидность отражает представленность в тесте модели того истинного факторного пространства, которое предполагается оценивать. Как правило, содержательная валидность связывается с тестами достижений, склонностей и способностей.
Конструктная валидностъ, наиболее общий тип валидности, показывает «степень, в которой тест можно считать измеряющим теоретический конструкт или черту», для измерения которой он предназначен, например эмпатию или интеллект (Anastasi, 1982, р. 144). Многое зависит от определения конструкта автором теста, но в целом конструктная валидность применима к опросникам по выявлению черт личности и интересов.
Критериальная валидностъ относится к сравнению тестовых показателей с результатами фактического выполнения человеком определенных действий за такое же время и в тех же условиях. Например, тест, который измеряет моторные навыки человека, может оказаться невалидным относительно способности этого человека печатать. Если критерий доступен во время тестирования, то определяется конкурентная валидность. В случаях, когда критерий недоступен до окончания тестирования, измеряется прогностическая валидность (Aiken, 1997). В консультировании широко применяются две хорошо известные, основанные на критериях методики: Миннесотский многопрофильный личностный опросник-2 (MMPI-2) – тест с конкурентной валидностью (Butcher & Williams, 1992), и пересмотренный Опросник профессиональных интересов Стронга (5VII) – тест с прогностической валидностью (Osborn, Brown, Niles & Miller, 1997).
Надежность. Надежность обычно определяется как мера того, насколько постоянны результаты при повторном тестировании с помощью той же самой или эквивалентной методики (Anastasi, 1988; Cronbach, 1990). Хотя надежность и связана с валидностью, тестовый показатель может быть надежен, но не валиден.
Существует три традиционных способа определения надежности.
· Тест-ретест. Один и тот же тест предлагается снова через период времени.
· Параллельные формы. Применяются две эквивалентные формы одного теста.
· Анализ внутренней консистентности. Сравниваются показатели двух случайно выбранных частей теста.
Тесты сами по себе не являются ни надежными, ни ненадежными. Скорее, «надежность относится к результатам, полученным при помощи инструмента оценивания, а не к самой методике... Таким образом ... уместно говорить о надежности "тестовых показателей" или "измерений", а не "теста" или "методики"» (Gronlund &Linn, 1990, p. 78).
Стандартизация и нормы.Под стандартизацией понимается создание однородных условий, в которых проводится тестирование и регистрируются результаты (Aiken, 1997). Стандартизация делает возможным сравнение результатов тестирований индивида, проводившихся в разное время, а также сравнение показателей различных людей. Нормы, или средние показатели, гарантируют правомерность сравнения результатов отдельных людей между собой и со стандартами для данных групп (Kaplan & Saccuzzo, 1997). Тестовые нормы имеют свои ограничения, возможны случаи их неправильного использования. Например, основная критика в адрес некоторых тестов связана с тем, что их нормы были установлены для представителей преобладающей культурной группы населения; следовательно, для меньшинств они могут оказаться дискриминационными и вредоносными (Talbutt, 1983). Консультанты должны тщательно исследовать процедуры нормирования тестов, и, кроме того, они должны устанавливать свои локальные нормы. Таким способом можно свести к минимуму возможные предубеждения и некорректное использование тестирования.