Внимание — проблема. Объективность теста
В литературе по индустриально-организационной психологии встречается множество определений, а также несколько сложных статистических моделей объективности теста (например, Anastasi, 1989;Millsap&Everson, 1993; Sackett&Wilk, 1994). Однако суть вопроса можно сформулировать довольно просто. Согласно теории необъективности теста, «даже при условии равенства коэффициентов валидности для групп меньшинств и для группы большинства тест скорее всего является необъективным, если средний результат для групп меньшинств ниже» (Schmidt & Hunter, 1981).
Шмидт и Хантер, более того, отмечают, что теория необъективности теста базируется на предположении о том, что каузальные факторы, которыми обусловлены низкие результаты тестирования групп меньшинств, не связаны с выполнением работы. Хотя некоторые исследователи обнаружили, что различия в выполнении работы меньше, чем различия в результатах тестов (например, Ford, Kraiger & Schechtman, 1986), предположение о том, что результаты тестирования не связаны с выполнением работы, противоречит основной массе фактов.
Выполнение работы зависит от многих факторов. Однако в целом различия в способностях и навыках, выявляемые с помощью тестов, связаны с различиями в выполнении работы так же, как они связаны с различиями в школьной успеваемости (Neisser et al., 1990); они существуют на самом деле, а не появляются за счет «необъективных» тестов. Это означает, что тесты, выявляющие такие различия, выполняют задачу, для которой они были предназначены — оценивают различия между работниками. Производящиеся «во имя справедливости» попытки разработать и использовать такие тесты, благодаря которым эти различия исчезнут, приведут к тому, что тестирование станет бесцельным и бесполезным.
Многие из тех, кто борется с проблемами, осложняющими использование тестов в организациях, считают, что идеи об объективности и необъективности тестов породили серьезную путаницу в некоторых важных вопросах. Многие люди в нашей стране не имеют образовательного и культурного опыта, который обычно связывают с более высокими результатами тестирования (или не сумели им воспользоваться). Это факт, который невозможно изменить никакими сложными исследованиями валидности тестов или юридическими спорами, и любые направленные на это усилия приводят только к бесполезным затратам ценных ресурсов.
Тесты сами по себе не являются ни объективными, ни необъективными. Они просто более или менее хорошо измеряют те характеристики, для измерения которых они предназначены; другими словами, они более или менее надежны и валидны. В результате некоторые из них с большей вероятностью, чем другие, могут быть использованы необъективно. Работа над совершенствованием тестов и методов их использования не должна быть, да и не будет прекращена. Но гарантия равенства возможностей еще не означает гарантии равенства результатов; те, кто критикует отборочные тесты за то, что результаты некоторых групп менее предсказуемы, чем результаты других групп, просто походят к серьезной социальной проблеме не с того конца.
Выводы
Измерение — это приписывание оценок результатам наблюдений в соответствии с определенной системой, такой как, например, тест. Основными критериями оценки адекватности теста как измерительного инструмента являются надежность (постоянство результатов измерений) и валидность (обоснованность выводов, полученных из результатов теста).
Процесс оценки надежности и валидности может быть длительным и дорогостоящим; исследователи могут столкнуться с различными ситуационными трудностями и ограничениями. Современные аналитические методы позволяют переносить доказательства валидности некоторых видов тестов, установленные для одной работы, на другие виды работ; благодаря такой возможности рассмотренные выше стандартные тесты, используемые при приеме на работу, становятся значительно более привлекательными для организаций с ограниченными ресурсами.
Вопросы для повторения и обсуждения
1. Дайте описание трех измерительных инструментов, не упомянутых в этой главе, и приведите по одному примеру возможных источников измерительной погрешности для каждого инструмента.
2. Если бы вас попросили измерить рост всех студентов вашей группы и дать оценку надежности ваших измерений, как бы вы это сделали?
3. Допустим, что вы с коллегами разработали новый тест. Первые исследования надежности не дали многообещающих результатов, поэтому вы решили не тратить времени зря и перейти сразу к проверке валидности теста. Обсудите эту ситуацию.
4. Сформулируйте несколько фраз, демонстрирующих ваше понимание сущности различий между конструктными, критериальными и содержательными доказательствами валидности.
5. Что означает термин «генерализация валидности» и почему генерализация валидности считается важным достижением индустриально-организационной психологии?
Основные термины
Валидность (validity)
Генерализация валидности (validity generalization)
Измерение/ошибка измерения (measurement/measurement error)
Конструктная валидность (construct validity)
Критериальная валидность (criterion validity)
Критерий (criterion)
Надежность (reliability)
Тестируемая область (domain)
Отбор (selection)
Отборочный тест (screening test)
Содержательная валидность (content validity)
Тест (test)
Литература
American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (1985). Standards for educational and psychological testing. Washington, DC: American Psychological Association.
Anastasi, A. (1988). Psychological testing (6th cd.). New York: Macmillan.
Anastasi, A. (1989). Ability testing in the 1980's and beyond: Some major trends. Public Personnel Management, -/5,471-485.
Arvey, R. D., Landon, T. E., Nutting, S. M., & Maxwell, S. E. (1992). Development of physical ability tests for police officers: A construct validation approach. Journal of Applied Psychology, 77,996-1009.
Astrand, P., & Rodahl, K. (1986). Textbook of work psychology. New York: McGraw-Hill.
Baehr, M. E., & Orban,J. A. (1989). The role of intellectual abilities and personality characteristics in determining success in higher-level positions. Journal of Vocational Behavior, 35, 270-287.
Bagozzi, R. P., & Phillips, L. W. (1991). Assessing construct validity in organizational research. Administrative Science Quarterly, 36, 421-458.
Barrett, G. V. (1992). Clarifying construct validity: Definitions, processes, and models. Human Performance, 5,13-58.
Barrick, M. R., & Mount, M. K. (1991). The Big Five personality dimensions and job performance. Personnel Psychology, 44,1-26.
Bernardin, H. J., & Cooke, D. K. (1993). Validity of an honesty test in predicting theft among convenience store employees. Academy of Management Journal, 36,1097-1108.
Binning, J. F., Barrett, G. V. (1989). Validity of personnel decisions: A conceptual analysis of the inferential and evidential bases.Journal of Applied Psychology, 74, 478-494.
Blakley, B. R., Quinones, M. A., Crawford, M. S., & Jago, I. A. (1994). The validity of isometric strength tests. Personnel Psychology, 47, 247-274.
Block, J. (1995). A contrarian view of the five-factor approach to personality description. Psychological Bulletin, 117,187-215.
Brown, S. H. (1981). Validity generalization and situational moderation in the life insurance industry. Journal of Applied Psychology, 66, 664-670.
Camara, W. J., & Schneider, D. L. (1994). Integrity tests: Facts and unresolved issues. American Psychologist, 49, 112-119.
Carrier, M. R., Dalessio, А. Т., & Brown, S. H. (1990). Correspondence between estimates of content and criterion-related validity values. Personnel Psychology, 43, 85-100.
Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. Cambridge, England: University of Cambridge Press.
Cascio, W. F., & Phillips, N. F. (1979). Performance testing: A rose among thorns? Personnel Psychology, 32, 751-766.
Cortina.J. M. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 75,98-104.
Costa, P. Т., & McCrae, R. R. (1992). NEO/PI/FFI professional manual. Odessa, FL: Psychological Assessment Resources.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 12, 1- 16.
Digman, J. M. (1990). Personality structure: Emergence of the five-factor model. Annual Review of Psychology, 47,417-440.
Distefano, M. K., Pryer, M. W., & Crotty, G. B. (1988). Comparative validities of two cognitive ability tests in predicting work performance and training success of psychiatric aides. Educational and Psychological Measurement, 48, 773-777.
Dobson, P. (1988). The correction of correlation coefficients for restriction of range when restriction results from the truncation of a normally distributed variable. British Journal of Mathematical and Statistical Psychology, 41, 227-234.
Dreher.J. F., & Mai-Dalton, R. R. (1983). A note on the internal consistency of the Manifest Needs Questionnaire. Journal of Applied Psychology, 68, 194-196.
Equal Employment Opportunity Commission (1978). Adoption by four agencies of the «Uniform Guidelines of Employee Selection Procedures». Federal Register, 43, 38290-38315.
Ford, J. K., Kraiger, K., & Schechtman, S. L. (1986). Study of race effects in objective in dices and subjective evaluations of performance: A meta-analysis of performance criteria. Psychological Bulletin, 99,330-337.
Ghiselli, E. E., & Brown, C. W. (1955). Personnel and industrial psychology (2nd ed.). New York: McGra Hill.
Glaser, K., Hojat, M., Veloski, J. J., & Blacklow, R. S. (1992). Science, verbal or quantitative skills: Which is the most important predictor of physician competence? Educational and Psychological Measurement, 52, 395-406.
Goldberg, L. R., Grenier, J. R., Guion, R. M., Sechrest, L. В., & Wing, H. (1991). Questionnaires used in the prediction of trustworthiness in pre-employment selection decisions: An АРА task force report. Washington DC: American Psychological Association.
Guion, R. M. (1980). On trinitarian doctrines of validity. Professional Psychology, 11, 385-398.
Guion, R. M., & Cottier, R. F. (1965). Validity of personality measures in personnel selection. Personnel Psychology, 18, 135-164.
Haney,W. (1981). Validity, vaudeville, and values: A short history of social concerns over standardized testing. American Psychologist, 36, 1021-1034.
Hedge, J. W., & Teachout, M. S. (1992). An interview approach to work sample criterion measurement. Journal of Applied Psychology, 77, 453-461.
Henry, R. A., & Hulin, C. L. (1987). Stability of skilled performance across time: Some generalizations and limitations on utilities. Journal of Applied Psychology, 72, 457-462.
Hogan, R., Hogan, J., & Roberts, B. W. (1996). Personality measurements and employment decisions: Questions and answers. American Psychologist, 51, 469-477.
Hughes, M. A., Ratliff, R. A., Purswell.J. L, & Had wigerj. (1989). A content validation methodology for job-related physical performancetests. Public Personnel Management, 18,487-504.
Hulin, C. L, Henry, R. A & Noon, S. L. (1990). Adding a dimension: Time as a factor in the generalizability of predictive relationships. Psychological Bulletin, 107, 328-340.
James, L. R., DeMaree, R. G., Mulaik, S. A., & Ladd, R. T. (1992). Validity generalization in the context of situational models. Journal of Applied Psychology, 77, 3-14.
Judiesch, M. K., Schmidt, F. L., & Mount, M. K. (1992). Estimates of the dollar value of employee output in utility analysis: An empirical test of two theories. Journal of Applied Psychology, 77, 234-250.
Kantor, J. E., & Carretta, T. R. (1988). Aircrew selection systems. Aviation, Space, and Environmental Medicine, 59, 32-38.
King, L. A., & King, D. W. (1990). Role conflict and role ambiguity: A critical assessment of construct validity. Psychological Bulletin, 107, 48-64.
Kraiger, K. (1989). Personal communication.
Lance, C. E., Stennett, R. В., & Mayfield, D. L. (1992). A reexamination of selected meta-analysis results: Has the generalizability of research findings been overstated? Presented at the Seventh Annual Meeting of the Society for Industrial and Organizational Psychology: Montreal.
Landy, F. J., Shankster, L. J., & Kohler, S. S. (1994). Personnel selection and placement. Annual Review of Psychology, 45, 261-296.
Millsap, R. E., & Everson, H. T. (1993). Methodology review: Statistical approaches for assessing measurement bias. Applied Psychological Measurement, 176, 297-334.
Mount, M. K., Barrick, M. R., & Strauss, J. P. (1994). Validity of observer ratings of the Big Five personality factors. Journal of Applied Psychology, 79, 272-280.
Naylor, J. C., & Shine, L. C. (1965). A table for determining the increase in mean criterion score obtained by using a selection device. Journal of Industrial Psychology, 3, 33-42.
Neisser, U., Boodoo, G., Bouchard, T. J. Jr., Boykin, A. W., Brody, N., Ceci, S. J., Halpern, D. F., Loehlin, J. C., Perloff, R., Sternberg, R. J., & Urbina, S. (1990). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101.
Nunnally, J. C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.
Olea, M. M., & Rce, M. J. (1994). Predicting pilot and navigator criteria: Not much more than g. Journal of Applied Psychology, 79, 845-851.
Ones, D. S., Viswesvaran, C., & Schmidt, F. L. (1993). Comprehensive meta-analysis of integrity test validities: Findings and implications for personnel selection and theories of job performance. Journal of Applied Psychology Monograph, 78, 679-703.
Pearlman, K., Schmidt, F. L., & Hunter, J. E. (1980). Validity generalization results for tests used to predict job proficiency and training success in clerical occupations. Journal of Applied Psychology, 65,373-406.
Peters, M., Servos, P., & Day, R. (1990). Marked sex differences on a fine motor skill task disappear when finger size is used as a covariate. Journal of Applied Psychology, 75, 87-90.
Raju, N. S., Burke, M. J., & Maurer, T. J. (1995). A note on direct range restriction corrections in utility analysis. Personnel Psychology, 48, 143-149.
Raju, N. S., Burke, M. J., & Normand, J. (1990). A new approach for utility analysis. Journal of Applied Psychology, 75, 3-12.
Rec, M. J., Earls, J. A., & Teachout, M. S. (1994). Predicting job performance: Not much more than g. Journal of Applied Psychology, 79, 518-524.
Richardson M. W., & Kuder, J. F. (1939). The calculation of test reliability coefficients based on the method of rational equivalence. Journal of Educational Psychology,30, 681-687.
Rosse, J. G., Miller, J. L., & Stecher, M. D. (1994). A field study of applicants reactions to personality and cognitive ability testing. Journal of Applied Psychology, 79, 987-992.
Roth, P. L. (1994). Group approaches to the Schmidt-Hunter global estimation procedure. Organizational Behavior and Human Decision Processes, 59, 428-451.
Russell, C. J., Colella, A., & Bobko, P. (1993). Expanding the context of utility: The strategic impact on personnel selection. Personnel Psychology, 46, 781-801.
Saal, F. E., & Knight, P. A. (1988). Industrial/organizational psychology: Science and practice. Pacific Grove, CA: Brooks/Cole.
Sackett, P. R., & Wilk, S. L. (1994). Within-group normingand other forms of score adjustment in preemployment testing. American Psychologist, 49, 929-954.
Schmidt F. L., & Hunter, J. E. (1981). Employment testing: Old theories and new research findings. American Psychologist, 36, 1128-1137.
Schmidt F. L., & Hunter, J. E. (1982). The money test. Across the Board, 19, 35-37.
Schmit, M. J., & Ryan, A. M. (1993). The Big Five in personnel selection: Factor structure in applicant and nonapplicant populations. Journal of Applied Psychology, 78, 966-974.
Schmit, M. J., Ryan, A. M., Sticrwalt, S. L., & Powell, A. B. (1995). Framc-of-reference effects on personality scale scores and criterion-related validity. Journal of Applied Psychology, 80, 607-620.
Scmitt, N., Ostroff, C. (1986). Operationalizing the «behavioral consistency» approach: Selection test development based on a content-oriented strategy. Personnel Psychology, 39, 91-108.
Smith, M., & George, D. (1994). Selection methods. In C. L. Cooper & I. T. Robertson (Eds.), Key reviews in managerial psychology: Concepts and research for practice. Chichester, England: Wiley.
Society for Industrial and Organizational Psychology (1987). Principles for the validation and use of personnel selection procedures (3rd ed.). College Park, MD: Author.
Spearman, C. (1904). «General Intelligence» objectively determined and measured. American jounal of Psychology, 15, 210-293.
Sternberg, R. J., & Wagner, R. K. (1993). The g-ocentric view of intelligence and job performance is wrong. Current Directions in Psychological Science, 2, 1-5.
Sternberg, R. J., & Wagner, R. K., Williams, W. M., & Horvath, J. A. (1995). Testing common sense. American Psychologist, 50,912-927.
Taylor, H. C., & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23,565- 578.
Van de Vijver, F. J. R., & Harsveld, M. (1994). The incomplete equivalence of the paper-and pencil and computerized versions of the General Aptitude Test Battery. Journal of Applied Psychology, 79,852-859.
Часть II. ЧЕЛОВЕК