Типы достоверности
Поскольку в большинстве случаев оценка достоверности метода отбора путем многочисленных повторений представляется непрактичной и дорогостоящей, часто требуется Другая стратегия. Например еще до использования в качестве инструмента отбора упражнений «Входящая корреспонденция» компания Greatplay Inc. могла бы попытаться определить их достоверность, испытав эти упражения для одних и тех же групп существующих работников — с двумя раз-очными поводами для обсуждения. Если бы представители компании сделали это, они бы смогли оценить достоверность метода, соотнеся друг с другом два набора показателей. Поскольку достоверное средство измерения должно производить два очень близких по значению показателя для каждого человека, результирующая корреляция используется в качестве индекса стабильности. Чем выше корреляции, тем лучше соответствие между каждым набором показателей претендентов и, следовательно, тем достовернее метод. Стратегия, описанная для оценки достоверности упражнения «Входящая корреспонденция», показывает устойчивость результатов повторного тестирования; ее главная цель — установление стабильности средства измерения по прошествии длительного времени (см. Куретон (Cureton), 1971). В сущности, она включает: получение набора показателей претендента для отдельного метода; ожидание, пока пройдет определенный промежуток времени; и затем проведение того же теста для тех же исполнителей. Главный недостаток этого подхода заключается в том, что претенденты могут извлечь уроки из первого теста и улучшить свои показатели при повторном тестировании, что в итоге может снизить коэффициент достоверности. Можно сделать вывод, что временной интервал между выполнениями задания (применениями инструмента измерения) очень важен. В общем, чем короче период времени, тем вероятнее, что эффект извлечения уроков из первого теста сыграет свою роль. В равной степени, если временной интервал слишком велик, другие факторы (например опыт) могут повлиять на результат, что снова может понизить достоверность средства измерения. Трудно предложить оптимальный интервал времени для повторного тестирования, но обычно оно проводится спустя некоторое время — от одного до трех месяцев.
Если есть два разных варианта одного и того же теста или процедуры отбора, коэффициент достоверности может быть оценен путем корреляции показателей обоих вариантов. Этот тип достоверности называется «достоверность параллельных форм», но он считается непрактичным для большинства целей из-за дорогостоящего, отнимающего много времени процесса, необходимого для разработки двух отдельных форм средства измерения. Поэтому метод параллельных форм обычно используется, когда два варианта теста уже существуют по другой причине. Оба варианта должны быть сбалансированы друг с другом в показателях границ действия, трудности, качества содержания и т.д. В противном случае полученный коэффициент достоверности будет просто отражать менее удовлетворительный вариант, маскируя тем самым надлежащую достоверность лучшего варианта. Это может вести к тому, что обе варианта будут исключены их процедуры отбора, даже если лучший вариант отличается высокой степенью достоверности. Также проблемы могут появляться в процессе применения этих двух средств измерений. Если претенденты не выполняют задания обоих вариантов одинаково (в состоянии повышенного внимания и долгих размышлений над обоими вариантами), достоверность, скорей всего, будет преуменьшена. Аналогично, если у претендентов во время выполнения обоих вариантов разное настроение, оценка достоверности может оказаться завышенной.
Чаще используемый метод, основанный на логике параллельных форм — метод внутренней последовательности. Вместо разработки двух параллельных форм одного теста один тест делится на две части (например нечетные и четные числа). Затем показатели двух частей коррелируют один с другом. Главное преимущество этой формы достоверности заключается в ее удобстве, приводящем к более низкими суммарным затратам. Тем не менее важно осознавать, что у этой формы достоверности могут быть некоторые ограничения. Простое разделение количества статей пополам в любой данной шкале приводит к снижению оценок достоверности, потому что короткие шкалы менее Достоверны, чем длинные. Это недооценка может быть исп-Равлена с помощью формулы Спирмана — Брауна Spearman—Brown) (см. Смит и Робертсон (Smith and Robertson), 1993a). Однако на практике использование компьютерных программ типа SPSS (Statistical Package for the Social Sciences) устраняет потребность в использовании формулы, потому что оценки достоверности могут быть получены из методики, которая задействует все пункты в тесте. Самые распространенные индексы внутренней устойчивости — индекс Альфа Кронбаха (Cronbach's Alpha) (1951), используемый, когда статьи теста подсчитываются в форме шкалы оценок, и индекс Кюдера — Ричардсона (Kuder— Richardson) (1937), используемый, когда подсчет идет на основе ответов да / нет. На самом деле средние значения всех возможных разделенных пополам показателей достоверности подсчитываются и тем и другим методами, хотя конечный результат представляет собой небольшое преувеличение общей достоверности средства измерения (приблизительно 3 процента). Из всех различных методов оценки достоверности теста чаще всего издатели тестов останавливают свой выбор на методе внутренней последовательности, используя индекс Альфа Кронбаха или индекс Кюдера — Ричардсона. Другой важной формой достоверности, проиллюстрированной на примере компанией Greatplay, является достоверность оценщиков, используемая для определения уровня согласия между оценщиками. В основном она используется для интервью или других методов отбора, полагающихся на суждения лиц проводящих отбор. Как правило, оценщики обучены пользоваться точно выраженной системой количественных показателей. Два оценщика подсчитывают небольшую репрезентативную выборку результатов. Любые расхождения обсуждаются до тех пор, пока оба не придут к согласию по поводу того, как подсчитывать отдельные аспекты. Затем оба оценщика независимо друг от друга подсчитывают полную выборку претендентов. Показатели, полученные одним оценщиком, затем сопоставляют с показателями другого. Желательным считается коэффициент достоверности среди оценщиков свыше 0,8; так как показывает 80 процентов совпадений между показателями оценщиков. Меньший коэффициент свидетельствует о проблемах. Очевидно, чем ниже коэффициент достоверности, тем большие проблемы это означает. Скорее всего, несмотря на первоначальное соглашение о способах оценки отдельных аспектов качеств кандидата, разные оценщики строят свои суждения на немного отличающихся критериях. Например один может больше уделять внимания образованию кандидата, а другие — опыту работы. С другой стороны, один оценщик может быть более снисходительным в оценке претендентов, чем другие. Следовательно, очень важно выявить ту характеристику оценки, которая снижает коэффициент достоверности, и решить появившиеся проблемы. В случае использования недостоверных средств измерения могут быть сделаны дорогостоящие ошибки.