Анализ дифференциального функционирования пунктов
Вероятно, наилучшим методом оценки конструктной систематической ошибки теста является процедура, известная как «анализ дифференциального функционирования пунктов». Анализ дифференциального функционирования пунктов – часть психометрического подхода IRT (подробное описание которого будет приведено в Главе 13). Важный аспект теории IRT – предположение о том, что уровень выраженности признака у респондента можно оценить исходя непосредственно из данных теста. Уровень выраженности признака – это, в сущности, истинный балл респондента по той психологической характеристике, на измерение которой направлен тест. Предположим, исследователь может оценить уровень выраженности измеряемого признака у всех респондентов в двух группах, а также имеются ответы респондентов на какой-либо из пунктов теста. В этом случае исследователь может проанализировать, насколько соответствуют истинный уровень выраженности признака и ответ респондента на данный пункт, и насколько это соответствие сходно в двух исследуемых группах. Если такого сходства не наблюдается, пункт может быть подвержен систематической ошибке, связанной с групповой принадлежностью респондента.
IRT основана на идее о том, что существует математическая функция, связывающая уровень выраженности признака у респондента и вероятность правильного ответа на тот или иной пункт. Например, может обнаружиться, что для человека с уровнем выраженности признака, на одно стандартное отклонение превышающим средний, вероятность правильного ответа на определенный пункт теста составляет 0.80, в то время как для человека с уровнем выраженности признака на одно стандартное отклонение ниже среднего вероятность правильного ответа составляет 0.20. Так, если исследователь тестирует группу респондентов и в результате обладает информацией об истинных уровнях выраженности измеряемого признака у каждого из них, можно использовать специализированное статистическое программное обеспечение, чтобы построить характеристическую кривую пунктов (ICC). Эта кривая выражает взаимосвязь уровня выраженности измеряемого признака и вероятности правильного ответа для каждого из пунктов теста по отдельности. Более того, если имеются две группы респондентов, можно построить характеристические кривые отдельно для каждой из групп. Для того чтобы оценить наличие конструктной систематической ошибки, нужно сравнить кривые, полученные в двух разных группах. Если рассматриваемый пункт не подвержен систематической ошибке, кривые будут обладать высоким уровнем схожести. Другими словами, вероятность того, что два человека (из разных групп) дадут правильный ответ на вопрос, должна быть одинакова для любых двух респондентов, обладающих одинаковым уровнем выраженности признака. С другой стороны, если пункт подвержен систематической ошибке, характеристические кривые для этих двух групп будут различаться. Другими словами, вероятность того, что два человека (напр., мужчина и женщина) дадут правильный ответ на вопрос, может различаться, даже если уровень выраженности измеряемого признака у них одинаков. Такая ситуация будет ясно указывать на наличие конструктной систематической ошибки.
Предположим, например, что необходимо оценить наличие систематической ошибки в одном из пунктов теста технических способностей. Допустим, исследователя интересует систематическая ошибка относительно биологического пола респондентов. Используя методы и подходы, которые будут детально описываться в Главе 13, можно вычислить для каждого из респондентов суммарный балл технических способностей (который будет отражать уровень выраженности измеряемого признака), а также вероятность правильного ответа на тот или иной пункт. Эту информацию можно использовать для того, чтобы построить характеристическую кривую пункта (ICC) (см. Рисунок 11.1). Далее нужно распределить испытуемых на две группы (т.е. на группу мужчин и группу женщин) и построить характеристическую кривую отдельно для каждой из групп. Если эти кривые приблизительно совпадают, можно прийти к выводу, что пункт не подвержен систематической ошибке. Предположим, однако, что были получены результаты, изображенные на Рисунках 11.2 и 11.3. Подобные результаты позволяют предположить наличие систематической ошибки. Рисунок 11.2 иллюстрирует пример монотонной систематической ошибки. Здесь женщинам, обладающим тем же уровнем технических способностей, что и мужчины, труднее ответить на вопрос. Рисунок 11.3 иллюстрирует пример немонотонной систематической ошибки, при которой характеристические кривые различаются как по расположению, так и по форме. В данном случае, вероятно, анализируемый пункт измеряет у мужчин и у женщин несколько разные признаки. Построение характеристических кривых для оценки конструктной систематической ошибки является всего лишь методом визуализации, в репертуар IRT входят и более точные количественные процедуры (напр., Smith & Reise, 1998).
Рисунок 11.1. Характеристическая кривая пункта в общей выборке
Рисунок 11.2. Характеристические кривые пункта в выборке мужчин и женщин: иллюстрация монотонной систематической ошибки
Рисунок 11.3. Характеристические кривые пункта в выборке мужчин и женщин: иллюстрация немонотонной систематической ошибки
Несмотря на то, что анализ дифференциального функционирования пунктов является достаточно сильным методом для определения конструктной систематической ошибки, в нем имеется недостаток. Во многих своих аспектах анализы IRT достаточно сложны – какую модель использовать, как определить, действительно ли уровень выраженности признака в двух группах различен, либо же это проявление погрешности измерения. Кроме того, сложности заключаются в необходимости достаточно большого объема выборки, достаточной гетерогенности респондентов и пунктов (для того, чтобы обладать репрезентативностью по отношению к полному спектру признаков, на измерение которых направлен тест), а также в необходимости специализированного статистического программного обеспечения. Эти сложности обусловливают то, что теория IRT только лишь начинает использоваться как метод определения конструктной систематической ошибки теста.
Ранжирование
Существует еще один быстрый и простой с точки зрения вычислений способ оценки конструктной систематической ошибки теста при том условии, что задания теста можно упорядочить по уровню сложности. Рассматривая в качестве примера тест на выявление технических способностей, состоящий из 100 пунктов, можно отметить, что на некоторые из вопросов теста ответить легче, и, соответственно, пункты теста можно упорядочить по уровню сложности. Ранжирование можно произвести для разных групп по отдельности (напр., для мужчин и для женщин). Если порядок пунктов в двух группах различается, можно предположить наличие конструктной систематической ошибки. Данное предположение делается на основании того, что в таком случае каждый из пунктов дает в разных группах оценку разных показателей. Ранги можно использовать для вычисления коэффициента ранговой корреляции Спирмена («ро», который интерпретируется так же, как rxy), что в свою очередь позволит оценить степень согласованности результатов ранжирования в двух группах. Если данный коэффициент является низким (напр., < 0.90), можно предположить наличие конструктной ошибки. Если же обнаруживается наличие конструктной ошибки, возможно, у исследователя появится желание с помощью дополнительных статистических процедур определить точную причину низкого коэффициента корреляции (см. Jensen, 1980).
Следует заметить, что ранговый коэффициент корреляции может быть высоким, даже если количество правильных ответов на пункт в разных группах различно. Взяв в качестве примера тест на выявление технических способностей, можно заметить, что женщины с меньшей долей вероятности могут дать правильные ответы на определенные вопросы теста, чем мужчины, однако ранжирование вопросов по уровню сложности может быть одинаковым в обеих группах. Как и в случае с индексом дискриминативности, групповые различия в количестве правильных ответов сами по себе не являются показателем наличия систематической ошибки теста.