Систематическая ошибка теста
Как следует из предшествующего изложения, психологические тесты могут иметь солидную концептуальную основу и быть грамотно сконструированными, но идеальных тестов все же не бывает. Надежность тестовых баллов может снижаться под влиянием ошибки измерения, а валидность их интерпретации может быть подорвана установкой на ответ, систематически искажающей индивидуально-психологические различия респондентов. В данной главе будет рассматриваться еще одна угроза валидности интерпретации тестовых баллов – систематическая ошибка теста, искажающая различия (или их отсутствие) между группами респондентов. По результатам психологического тестирования зачастую принимаются важные решения, которые влияют на жизнь людей – принимать или не принимать ученика в колледж, в какой класс будет зачислен ребенок, примут ли данного соискателя на работу? Если такого рода решения основаны на результатах теста, дающего систематическую ошибку в пользу или против определенных групп людей, такие ошибки будут иметь крайне важные личные и общественные последствия.
Допустим, исследователя интересует, существуют ли половые различия в уровне математических способностей. Он предлагает репрезентативной выборке мужчин и женщин пройти относительно надежный математический тест, а по результатам обнаруживает, что мужчины в среднем получили более высокие баллы, чем женщины. У исследователя сразу возникнет желание истолковать полученный результат с точки зрения исходного психологического конструкта: у мужчин математические способности развиты лучше, чем у женщин. Тем не менее, есть вероятность того, что результаты тестирования респондентов не являются отражением только лишь их математических способностей. Возможно, что в результатах тестирования присутствует систематическая ошибка. Она может проявляться, например, если в результатах теста переоцениваются истинные математические способности мужчин и недооцениваются математические способности женщин. В этом случае разница между тестовыми баллами мужчин и женщин может быть следствием систематической ошибки теста, а не показателем истинных различий в их математических способностях.
В данной главе будут рассматриваться две формы систематической ошибки теста, а также методы, используемые для их обнаружения. Говоря упрощенно, речь идет о систематических ошибках в значении теста и систематических ошибках в использовании теста. Конструктная систематическая ошибка возникает тогда, когда для двух исследуемых групп значение теста различно, т.е. конструкт, лежащий в основе теста, в данных двух случаях отражается неравнозначно. Конструктная ошибка связана с отношением наблюдаемых тестовых баллов к истинным баллам, выражающим уровень выраженности признака. Если это отношение различно для различных тестируемых групп, можно сделать вывод о том, что тест обладает систематической ошибкой. Наличие конструктной систематической ошибки может привести к такой ситуации, в которой две группы респондентов имеют одинаковый истинный уровень выраженности признака, но различные тестовые баллы.
Второй вид систематической ошибки теста – прогностическая ошибка. Она имеет место тогда, когда использование теста предполагает для двух разных групп респондентов разные последствия. В основе прогностической систематической ошибки лежит соотношение показателей двух различных тестов. Считается, что один из этих тестов (прогностический) дает результаты, которые могут быть использованы для того, чтобы спрогнозировать результаты другого теста (критериального). Например, специалисты приемной комиссии в колледже для прогноза средней успеваемости абитуриента в первый год обучения (GPA) могут использовать результаты этого абитуриента по тесту академических способностей SAT. В данном случае результаты SAT являются прогностической переменной, а средний балл успеваемости GPA – критериальной. В этом контексте систематическая ошибка теста выражает то, насколько взаимосвязь между истинным уровнем выраженности признака, измеряемого прогностическим тестом, и наблюдаемыми баллами критериального теста различна для двух групп. Если для одной из групп тест SAT прогнозирует средний балл успеваемости в колледже точнее, чем для другой группы, то SAT (при его использовании в качестве предиктора успеваемости в колледже) обладает прогностической систематической ошибкой.
Данные два типа систематической ошибки теста (конструктная и прогностическая) независимы друг от друга. Например, тест может обладать прогностической систематической ошибкой, но не обладать конструктной. Тест академических способностей SAT может точно отражать истинные различия между группами респондентов (т.е. не обладать конструктной систематической ошибкой), но при этом академические способности для двух разных групп могут быть взаимосвязаны со средним баллом успеваемости в колледже по-разному (т.е. тест может обладать прогностической систематической ошибкой).
В данной главе будут обсуждаться несколько способов операционального определения и обнаружения систематической ошибки теста. Для обнаружения систематической ошибки тестовых баллов можно использовать по меньшей мере два класса процедур: (а) внутренние методы обнаружения конструктной ошибки, (б) внешние методы обнаружения прогностической ошибки. Такая формулировка звучит достаточно операционально, однако необходимо помнить, что систематическая ошибка теста в обеих своих формах является теоретическим концептом, отчасти потому, что она зависит от теоретических представлений об истинных тестовых баллах. Единственного точного способа обнаружения систематической ошибки теста не существует, как не существует и единственного способа вычисления таких психометрических показателей, как надежность и валидность. Тем не менее, существуют различные общепринятые методы, использующиеся для оценки степени проявления в тесте систематической ошибки.
Красной нитью в определении и обнаружении систематической ошибки теста проходит мысль о том, что разница в тестовых баллах для двух групп не обязательно означает систематическую ошибку. Допустим, при использовании методики диагностики оптимизма было обнаружено, что показатели женщин по шкале оптимизма выше, чем у мужчин. Этот результат сам по себе не является свидетельством наличия систематической ошибки теста (Jensen, 1980, 1998; Thorndike, 1971). Тестовые баллы, полученные респондентами, могут вполне точно отражать их истинный уровень оптимизма. В этом случае тест не обладает систематической ошибкой, а различие средних показателей в двух группах отражает истинное различие в уровне оптимизма между мужчинами и женщинами. Допустим, в некотором исследовании у репрезентативной выборки мужчин и женщин измеряется вес тела. Вероятно, будет обнаружено, что средний вес женщин меньше, чем у мужчин. Этот результат вовсе не будет означать, что шкала, использованная для измерения веса, обладает систематической ошибкой.