Интерпретация коэффициента валидности
Как и оценки надежности, оценки валидности теста получают в форме коэффициентов корреляции. Однако в отличие от интерпретации коэффициента надежности при интерпретации коэффициента корреляции как оценки валидности принимают во внимание гораздо больше и теоретических, и практических соображений. В целях иллюстрации мы ограничимся здесь обсуждением интерпретации доказательств валидности по критерию, поскольку именно с этой ситуацией чаще всего сталкивается большинство индустриально-организационных психологов.
Коэффициент корреляции.
При обсуждении надежности теста было отмечено, что большинство психологов сочтут приемлемой оценку надежности в диапазоне свыше 0,80-0,90, при условии, что она основана на компетентно проведенном исследовании. При интерпретации коэффициентов валидности по критерию нет таких четких ориентиров. За те примерно 90 лет, в течение которых проводится тестирование при приеме на работу, эти коэффициенты редко превышали r = 0,50; этот показатель кажется довольно низким по сравнению с коэффициентами надежности, превышающими 0,80 или даже 0,90. Однако следует помнить, что коэффициент надежности, в сущности, является мерой корреляции между двумя оценками одной и той же характеристики. В отличие от этого, коэффициент валидности по критерию является оценкой корреляции между двумя различными показателями — результатами теста и какой-либо другой оценкой поведения.
Поведение в целом определяется сложным комплексом множества причин, и какой бы то ни было тест может, по-видимому, оценить лишь немногие из релевантных для Данного поведения прогностических факторов. Например, для прогнозирования абсентеизма часто используют оценки удовлетворенности работой, но все работающие люди знают, что решение не пойти на работу в один из дней может и не иметь никакого отношения к удовлетворенности работой или к ее отсутствию. Если воспользоваться терминологией главы 2, то удовлетворенность работой может быть одним из детерминантов абсентеизма, но ее влиянием объясняется лишь небольшая часть дисперсии этой критериальной переменной.
Процентная доля дисперсии критерия, которая объясняется с помощью результатов данного теста, называется коэффициентом детерминированности. Математически этот показатель вычисляется путем возведения в квадрат коэффициента корреляции между тестом и критерием. Если между тестом и оценкой выполнения работы (критерием) существует корреляция с r = 0,50, то коэффициент детерминированности будет равен 0,25 (25 %). Другими словами, около 75 % (1,00 - 0,25) различий в выполнении работы не учитывается, поскольку существует много других факторов, которые не измеряются данным тестом, но влияют на то, как люди выполняют свою работу.
Детеминанты.
Диапазон значений коэффициента детерминированности ограничен, и в настоящее время верхним пределом является значение примерно 25 %. Поэтому может показаться, что не имеет смысла направлять значительные ресурсы на конструирование, доказательство валидности и использование тестов в организациях с целью прогнозирования. Однако здесь идет речь о статистическом прогнозе, то есть о прогнозе, который определяется величиной дисперсии критерия (такого как выполнение работы), объясняющейся влиянием предсказывающей переменной (результат теста).
На практике индустриально-организационные психологи часто считают, что тест с коэффициентом валидности по критерию 0,30 (9 % дисперсии) полезен и во многих ситуациях его использование повышает эффективность принятия решений. Концепция полезности релевантна измерениям любого типа, проводимым для принятия любых кадровых решений, но лучше всего это видно на примере показателя успешности приема на работу в организацию.
Термин показатель успешности приема на работу обозначает долю или процент принятых на работу сотрудников, которые успешно справляются со своими задачами. Этот процентный показатель может снижаться за счет ошибок при отборе, относящихся к двум типам. Если приняты на работу люди, которые работают плохо, то это ошибка ложного положительного отбора. Противоположная ситуация, когда принято решение не нанимать людей, которые в дальнейшем работали бы хорошо, — это ошибка ложного отрицательного отбора. Связь между этими ошибками и правильными решениями о приеме на работу показана на рис. 3.5.
Черта отсекаемая по прогнозу (predictor cutoff score)
Рис. 3.5.Ошибки в процессе отбора График предоставлен доктором философии Джоном Ф. Бишшнгом (John F. Binning), кафедра психологии Государственного университета штата Иллинойс, г. Нормал.
На графике, представленном на рис. 3.5, показана связь между результатами отборочного теста, использованного при приеме на работу (предсказывающая переменная), и общей оценкой выполнения работы (критерием). В целях иллюстрации предполагается, что все новые сотрудники, принятые на работу в эту компанию в данный период времени, проходили тестирование. Однако результаты теста не использовались для отбора, а были зафиксированы и сохранены, чтобы воспользоваться ими впоследствии, когда появятся оценки выполнения работы этими сотрудниками. (Это, конечно, та же самая процедура, что и составление прогноза валидности по критерию.)
Имеются еще два предположения о ситуации, которую отображает график, представленный на рис. 3.5. Во-первых, предполагается, что если бы тест использовался для отбора сотрудников, то кандидаты, получившие менее 50 баллов, не были бы приняты на работу. Пятьдесят баллов — это черта отсекания по прогнозу. Во-вторых, предполагается, что сотрудники, получившие оценку выполнения работы выше среднего балла (3) шкалы, считаются в организации успешными, а остальные таковыми не считаются. Оценка 3 — это черта отсекания по критерию.
С учетом этой информации о графике на рис. 3.5 становится яснее смысл ошибок ложного положительного и ложного отрицательного отбора и правильных решений о приеме на работу. Каждая точка точечного графика отображает положение одного сотрудника с точки зрения результата теста и оценки выполнения работы. Точки, попавшие в квадрант IV, относятся к сотрудникам, которые получили баллы выше черты отсекания по прогнозу и должны были стать хорошими работниками, но им выставлены низкие оценки выполнения работы; отсюда и название «ложный положительный отбор».
Сотрудники, положение которых отображается точками из квадранта I, попали в противоположную ситуацию. Если бы при приеме на работу учитывались результаты теста, то их бы не наняли, но их показатели выше черты отсекания по критерию; отсюда название «ложный отрицательный отбор». Наконец, точки из квадрантов II и III отображают положение сотрудников, у которых оценки выполнения работы соответствуют прогнозу и относительно которых были приняты правильные решения (истинный положительный или отрицательный отбор).
При принятии решений об отборе люди в организациях сосредоточиваются на случае, представленном на рис. 3.5 в квадранте II — это ситуация, когда успешных сотрудников удается выявить заранее. То, насколько использование отборочного теста позволяет увеличить количество случаев, попадающих в квадрант II по сравнению с квадрантом IV, зависит от трех факторов:
1. Показатель успешности приема на работу без использования теста (иногда его называют базовым уровнем).
2. Коэффициент валидности теста по критерию.
3. Соотношение числа кандидатов на каждое рабочее место и количества вакансий (отборочное соотношение).
Число кандидатов, из которых надо выбрать одного человека для заполнения одного рабочего места, называется отборочным соотношением (selection ratio). Если это соотношение равно 1:1 (всего один кандидат на каждое место), то не надо принимать решения и нет оснований использовать тест. С другой стороны, если кандидатов больше, чем рабочих мест, то надо принимать решения. Полезность конкретного теста определяется тем, поможет ли он тому, кто принимает решения, лучше справиться со своей задачей.
Опубликованы таблицы, с помощью которых можно сразу же ответить на вопрос о полезности теста, если известны текущий показатель успешности приема на работу, коэффициент валидности по критерию отборочного теста и отборочное соотношение. На рис. 3.6 приведена выдержка из таблиц Тейлора - Расселла (Taylor & Russel, 1939). На этом рисунке отражена следующая ситуация:
1. Показатель успешности приема на работу без использования нового теста равен 50 % (успешно работает половина принятых на работу сотрудников).
2. С помощью исследования валидности установлено, что критериальная валидность нового теста r = 0,41 (с помощью теста можно выявить около 17 % различий в выполнении данной работы).
3. Отборочное соотношение равно 50 % (в среднем на каждое вакантное место претендуют два кандидата).
Как показывает жирная черная линия на рис. 3.6, компания, которая должна нанять только половину людей, претендующих на рабочие места (отборочное соотношение 50 %), может увеличить свой показатель успешности от 50 % до более чем 65 %, используя отборочный тест с коэффициентом критериальной валидности r = 0,41. Такое повышение показателя успешности может привести к существенной экономии средств, которая обсуждалась в статье Шмидта и Хантера (Schmidt & Hunter, 1981) (отрывок из нее приведен в начале этой главы в рубрике «Психология в действии»).
Предсказывающее значение r для различных отборочных соотношений при условии, что 50 % сотрудников из группы сочтены работающими успешно
Рис. 3.6.Выдержка из таблиц Тейлора-Расселла
Из статьи Н. С. Taylor and J. Т. Russell, «The Relationship of Validity Coefficients to the Practical Effectiveness of Tests in Selection: Discussion and Tables». Journal of Applied Psychology, 1939, 23, 565-578.
Таблицы Тейлора-Расселла уже более 50 лет помогают индустриально-организационным психологам и другим специалистам оценивать полезность тестов. Чтобы подчеркнуть историческую ценность этих таблиц, здесь приведен один из первых графиков; в настоящее время обычно используются затабулированные данные. В таблицах, разработанных Гизелли и Брауном (Ghiselli & Brown, 1955), непосредственно показано процентное увеличение эффективности работы при различных значениях коэффициента валидности. Таблицы Нейлора и Шайна (Naylor & Shine, 1965) особенно полезны в тех случаях, когда невозможно провести четкое различие между успехом и неудачей в работе, из-за чего нельзя пользоваться таблицами Тейлора—Расселла.
Общая валидность теста
Резюмируя сказанное выше, повторим, что доказательства валидности выводов, которые можно сделать из результатов теста, традиционно делятся на три категории. Это не означает, что существуют различные типы валидности; различные подходы к сбору доказательств валидности любого данного теста должны приводить к одинаковым выводам. Идеальным способом конструирования теста является последовательное использование на разных этапах разработки теста нескольких различных процедур.
Таким образом, валидиость «встроена» в тест с самого начала, а не появляется на последних этапах разработки теста... Процесс доказательства валидности начинается с определения черт или конструктов, которые выводятся из психологической теории, предыдущих исследований или систематичных наблюдений и анализа областей реального жизненного поведения... Затем подготавливают пункты теста, соответствующие определениям конструктов. За этим этапом следует эмпирический анализ пунктов и отбор наиболее валидных пунктов из первоначальной их совокупности... На последнем этапе проводится доказательство валидности... по отношению к внешнему критерию, взятому из реальной жизни» (Anastasi, 1989).