Характеристики хорошего теста?

Поскольку тесты и другие средства анализа играют важную практическую и научную роль, необходимо, чтобы они точно измеряли то, для чего предназначены, а именно они должны обладать надежностью и валидностью.

Тесты также должны быть стандартизированы; под этим понимается, что условия прохождения теста должны быть одинаковыми для всех тестируемых. Например, инструкции, сопровождающие тест, должны быть одинаковыми для всех тестируемых лиц.

Надежность.Если тест или метод оценки надежен, он должен давать воспроизводимые и согласованные результаты. Если тест дает разные результаты при применении его в разных случаях или при выполнении подсчетов разными людьми, значит, он ненадежен. Простая аналогия — резиновая линейка. Если неизвестно, насколько она растягивается при каждом измерении, то результаты будут ненадежны, независимо от того, насколько аккуратно проводилось каждое измерение.

Как правило, надежность оценивается путем соотнесения двух групп показателей. Например, один и тот же тест можно дать той же группе испытуемых дважды. Если тест надежный, то показатели испытуемых в первом случае должны высоко коррелировать с показателями во втором. Если это так, то говорят, что этот тест обладает повторяемой надежностью или временной стабильностью.

Конечно, в реальной практике мало кто захочет давать один и тот же тест тем же людям дважды. Но есть много ситуаций, когда возникает желание провести аналогичные виды того же теста — например, когда учащиеся выпускного класса средней школы, намерившиеся поступить в колледж, хотят дважды пройти Тест школьной успеваемости (Тест Академических Способностей) (Scholastic Assessment Test, SAT). Чтобы убедиться, что две формы того же теста дают эквивалентные показатели, обе они предлагаются той же группе людей и затем сопоставляются. Если получена высокая корреляция между ними, то говорят, что этот тест обладает надежностью при изменении формы. Некоторые из вопросов, входящих в SAT, на самом деле не связаны с показателями учащегося, но они оцениваются статистически, чтобы их можно было использовать в будущем в аналогичных формах этого же теста.

Другой общей мерой надежности является внутренняя согласованность теста — то, в какой степени разные его вопросы или пункты измеряют одно и то же. Это можно оценить путем вычисления корреляции между показателями, полученными группой индивидов по каждому пункту и всему тесту в целом. Всякий пункт, не коррелирующий с общим показателем, является ненадежным; он не вносит вклад в измеряемый тестом параметр. Отбрасывание ненадежных пунктов «очищает» тест, повышая его внутреннюю согласованность. С увеличением числа надежных элементов в тесте растет и надежность общего показателя теста.

Результаты большинства тестов и анализов обрабатываются объективно, чаще всего компьютером. Но иногда требуется оценить умственную деятельность или социальное поведение субъективно. Знакомый пример этому — экзаменационные испытания. Чтобы оценить надежность таких субъективных суждений, с помощью независимых судей получают две или более групп данных, которые сопоставляются друг с другом. Например, два наблюдателя могут независимо оценивать группу детсадовских детей на агрессию; или двух или более судей могут попросить прочитать прошлые инаугурационные обращения президента и оценить их с точки зрения оптимистичности или количества негативных ссылок на Ирак. Если корреляция между оценками судей высока, то говорят, что данный метод обладает межэкспертным согласием или межоценочной надежностью.

Вообще, хорошо построенный, объективно обработанный тест способности должен обеспечивать надежность не менее 0,90. Для тестов личности и субъективных суждений, применяемых в исследовательских целях, приемлемым иногда может быть коэффициент 0,70, но при этом заключения о конкретном человеке следует делать с большой осторожностью. Как отмечалось выше, надежность общего показателя теста возрастает с ростом числа надежных пунктов теста. Это же рассуждение можно применить к субъективным оценкам и повысить надежность метода, добавив больше судей, оценщиков или наблюдателей. Например, если корреляция оценок двух наблюдателей составляет только 0,50, то исследователь может добавить третьего аналогичного наблюдателя и тем самым повысить межоценочную надежность их суммарных оценок до 0,75; с добавлением четвертого оценщика надежность возрастет до 0,80.

Валидность.Надежность показывает, насколько тест способен измерять что-то, но высокая надежность не гарантирует, что этот тест измеряет именно то, что требуется; она не гарантирует валидности (адекватности) теста. Например, если в последнем экзамене вашего курса психологии встречается слишком много трудных слов или заковыристых вопросов, то он может оказаться тестом ваших вербальных способностей или вашей изощренности, а не усвоения материала курса. Такой экзамен может быть надежным: при повторном прохождении учащиеся получат те же оценки и отдельные компоненты экзамена будут измерять одно и то же, — но это не будет валидным тестом достижений в данном курсе.

Иногда валидность теста можно оценить, сопоставив показатель теста с некоторым внешним критерием. Такая корреляция называется коэффициентом валидности. Например, относительно сильная положительная корреляция между показателями в SAT и успехами первокурсника в колледже показывает, что у этого теста приемлемая валидность. Валидность такого рода называется критериальной, или эмпирической, валидностью. Учитывая чувствительность тестов к расовым и половым различиям, суды все чаще требуют от компаний и правительственных агентств, применяющих тесты для отбора персонала, чтобы эти тесты коррелировали с показателями работы человека, то есть чтобы они обладали критериальной, или эмпирической, валидностью.

Валидность особого рода, относящаяся особенно к тестам, применяемым в исследованиях личности, называется конструктивной валидностью. Если исследователь создает тест для измерения некоторого понятия или концепции, являющихся частью теории, не всегда можно вычислить единый коэффициент, который показывал бы его критериальную валидность, поскольку неизвестен внешний критерий. Например, как исследователю оценить валидность теста на мотивацию к достижению успеха? Здесь может быть несколько возможностей. Можно дать этот тест ответственным исполнителям фирм и посмотреть, коррелирует ли он с их зарплатой. Возможно, этот тест будет коррелировать с оценкой учителями честолюбия своих учеников. Проблема в том, что нет единого критерия, который исследователь готов был бы принять за окончательный «истинный» ответ. Если тест коррелировал с зарплатой ответственных исполнителей, это выглядело бы убедительным, но если нет, исследователь не был бы склонен оценить этот тест как невалидный. В психологии личности это известно как проблема критерия: не существует меры «истины», позволяющей признать тест валидным. Соответственно, исследователь вместо этого пытается установить его конструктивную валидность.

Это осуществляется в самом процессе исследования. Ученый использует свою теорию и для построения теста, и для прогнозирования вытекающих из нее следствий. Затем проводятся исследования с использованием этого теста, чтобы проверить прогноз. В той степени, в которой результаты нескольких конвергирующих исследований подтверждают предсказания теории, и эта теория, и сам тест одновременно приобретает валидность. Чаще оказывается, что смешанные результаты указывают на то, в каком направлении должны быть модифицированы и теория и тест.

В частности, Мак-Клелланд (McClelland, 1987) предложил теорию мотивации к достижениям, которая, по его замыслу, должна была выявлять честолюбивых высокорезультативных индивидуумов в любой сфере деятельности и объяснять их высокую мотивацию. Для проверки этих теоретических предположений был разработан тест, оценивающий уровень мотивации к достижениям. Результаты нескольких исследований показывают, что предсказания, согласно данной теории, подтверждаются для мужчин, занимающихся предпринимательской деятельностью, но не для женщин или индивидуумов, занимающихся другими видами деятельности, например научными исследованиями. Соответственно, теория была модифицирована для использования преимущественно по отношению к достижениям в области предпринимательства, а тест был модифицирован таким образом, чтобы он являлся более валидным и для женщин.