Информативность пунктов и теста

Будучи психометрическим подходом, IRT предоставляет информацию о пунктах и тесте в целом. При этом для получения информации о тесте в целом в IRT-анализе объединяются характеристики отдельных пунктов. Таким образом, характеристики пунктов – такие, как сложность и дискриминативность – могут использоваться для оценки отдельных пунктов и улучшения общего качества теста.

Характеристические кривые пунктов

Рисунок 13.1.Характеристические кривые пунктов

Разработчики тестов, применяющие в своей работе IRT, для наглядного представления и оценки параметров пунктов теста часто используют т.н. характеристические кривые пунктов (Item characteristic curves, ICC). На характеристической кривой (примеры которой приведены на Рисунке 13.1) отображаются вероятности, с которыми респонденты некоторого спектра выраженности признака будут давать правильные ответы на данный пункт. Кривые, изображенные на Рисунке 13.1, основаны на гипотетических данных по пятипунктовому математическому тесту, обсуждавшихся выше. На оси X откладывается широкий спектр уровней выраженности признака, на оси Y – вероятность правильного ответа от 0 до 1.0. Для каждого пункта строится своя кривая, и можно использовать ее для нахождения вероятности того, что респондент с заданной выраженностью признака ответит на пункт правильно. Взгляните на характеристическую кривую для пункта 1 – какова вероятность того, что человек со средним уровнем математических способностей ответит на этот пункт правильно? Находим на кривой пункта 1 точку, лежащую прямо над отметкой «0» на оси X (как вы помните, выраженность признака выражается в z-оценках, поэтому 0 обозначает среднюю выраженность признака) и видим, что эта точка лежит в промежутке между 0.80 и 0.90 на оси Y. При рассмотрении остальных кривых становится очевидно, что человек со средним уровнем математических способностей имеет шанс около 0.65 для правильного ответа на второй пункт, 0.5 для правильного ответа на третий пункт, 0.17 – для пятого пункта. Таким образом, характеристические кривые содержат информацию о вероятностях, с которыми респонденты с любым уровнем выраженности признака правильно ответят на любой из пяти пунктов. Заметьте, что последовательность расположения кривых слева направо по оси X отражает уровень сложности соответствующих пунктов. Пункт 1, чья кривая лежит левее всех остальных, наименее сложен, пункт 5, чья кривая крайняя справа, наиболее сложен.

Характеристические кривые пунктов строятся на основе математических моделей, описанных выше (в нашем случае это уравнение для модели Раша). Чтобы построить характеристическую кривую пункта, можно последовательно применять соответствующую математическую модель для вычисления вероятностей правильного ответа на большом спектре уровней выраженности признака. Подставляя в уравнение значения сложности пункта и какого-либо уровня выраженности признака (например, -3.0), получаем вероятность правильного ответа на данный пункт респондента с данной выраженностью признака. Далее мы можем подставить в уравнение другой уровень выраженности признака (например, -2.9) и оценить вероятность правильного ответа для этого уровня. После повторения этой процедуры для множества различных значений выраженности признака можем просто построить график полученных вероятностей. Линия, соединяющая эти вероятности, и будет представлять собой характеристическую кривую пункта. Данная процедура проводится отдельно для каждого из пунктов теста. Для построения графика на Рисунке 13.1 было использовано приложение Microsoft Excel, при этом для пяти пунктов были вычислены 305 вероятностей (по 61 на каждый пункт) и построены их плавные линейчатые графики.

Информативность теста

С точки зрения классической теории тестов, важной психометрической характеристикой теста является надежность. Как вы помните, в классической теории тестов существует несколько коэффициентов, оценивающих надежность. Например, в качестве такой оценки надежности можно вычислить коэффициент «альфа». Здесь важно заметить, что при этом вычисляется лишь один коэффициент надежности, относящийся ко всему тесту в целом и означающий степень корреляции наблюдаемых тестовых баллов с истинным значением признака. Идея о том, что существует единая надежность для всего теста – важный аспект, по которому классическая теория тестов отличается от IRT.

С точки зрения IRT, у теста нет единой «надежности». Напротив, для одних людей тест может обладать более сильными психометрическими качествами, чем для других. Другими словами, на одних уровнях выраженности признака тест может быть более информативным, чем на других уровнях выраженности признака. Представьте четырех человек с различной выраженностью какого-либо признака – Элизабет, Мэри, Крис и Лану. Можно изобразить их «истинные» уровни выраженности признака относительно друг друга на континууме:

РИСУНОК

С точки зрения выраженности у них измеряемого психологического признака, Элизабет и Мэри находятся ниже среднего и при этом относительно мало отличаются друг от друга. Крис и Лана находятся на относительно высоком уровне выраженности признака и при этом тоже мало отличаются друг от друга.

Целью теста зачастую является дифференцировать (т.е. отличить) людей с относительно сильной выраженностью признака и людей с относительно слабой выраженностью признака. Тест является информативным в том случае, когда он способен точно определить различия между респондентами при разных уровнях выраженности признака. Возвращаясь к нашим четырем респондентам: очевидно, что даже средний с точки зрения психометрического качества тест должен быть способен уловить большое различие между двумя респондентами со слабой выраженностью признака (с одной стороны) и парой респондентов с сильной выраженностью признака (с другой стороны). Тем не менее, если исследователь хочет выявить более мелкие и более тонкие различия между Элизабет и Мэри или между Крисом и Ланой, ему понадобится тест с куда более высоким психометрическим качеством. IRT допускает возможность того, что тест может быть более пригоден для диагностики различий между Крисом и Ланой, нежели для диагностики различий между Элизабет и Мэри. Другими словами, при высоких уровнях выраженности признака тест может быть более информативен, чем при низких.

Как может тест предоставлять информацию, различающуюся в зависимости от уровня выраженности признака? Как получается так, что тест отличает людей с относительно сильно выраженным признаком, но не отличает людей с относительно слабым уровнем выраженности этого признака? Представьте себе двухпунктовый тест на математические способности:

1. Каков квадратный корень из 10 000?

2. Найдите x в следующем уравнении: 56 = 4x2 + 3y – 14.

Оба пункта требуют довольно высокого уровня математических способностей (по крайней мере, по сравнению с некоторыми другими примерами, которые можно было бы себе представить). Если у Элизабет и Мэри низкие математические способности (например, обе они умеют производить сложение и вычитание, хотя Мэри в этом немного лучше, чем Элизабет), они не дадут правильного ответа ни на один из пунктов. В связи с этим и Элиабет, и Мэри получат за выполнение теста один и тот же балл, и данный двухпунктовый тест не будет способен различить их математические способности. С другой стороны, Крис и Лана обладают хорошими математическими способностями, и каждый из них может правильно ответить по крайней мере на один из пунктов. Так как Лана несколько более способна, чем Крис, есть вероятность, что она правильно ответит даже на оба пункта, хотя Крис, скорее всего, ответит лишь на один. Таким образом, Крис и Лана могут получить за выполнение теста разные баллы. Как видим, в нашем гипотетическом примере тест способен отличить Криса от Ланы, а также пару «Крис и Лана» от пары «Элизабет и Мэри», однако тест не может дифференцировать математические способности Элизабет и Мэри. В целом, если пункты теста имеют характеристики (например, сложность), которые при одних уровнях выраженности признака представлены сильнее, чем при других, психометрическое качество теста может различаться в зависимости от выраженности признака. Рассмотренный математический тест включает в себя лишь два пункта с высоким уровнем сложности; как следствие, этот тест недостаточно информативен для диагностики различий между людьми со слабой выраженностью признака.

IRT может быть использована для точной оценки психометрического качества теста в широком спектре уровней выраженности признака. Такую оценку можно представить как двухэтапный процесс. Сначала по всему спектру уровней выраженности признака оценивается психометрическое качество каждого отдельного пункта – его информативность. Для вычисления этого показателя используются вероятности правильного ответа на данный пункт для определенного уровня выраженности данного признака (см. характеристические кривые пунктов). Информативность пункта для модели Раша вычисляется по формуле (Embertson & Reise, 2000):

информативность пунктов и теста - student2.ru ,

где I(θ) – информативность пункта при уровне выраженности признака (θ), а Pi(θ) – вероятность того, что респондент с данным уровнем выраженности признака ответит на данный пункт правильно. Например, в Таблице 13.2 значение сложности для пункта 1 составляет -1.61. Для респондента с уровнем выраженности признака на три стандартных отклонения ниже среднего вероятность правильного ответа на пункт 1 составляет 0.20 (см. уравнение вероятности правильного ответа на пункт для модели Раша). Следовательно, для уровня выраженности признака, на три стандартных отклонения ниже среднего (θ = -3), значение информативности пункта 1 составляет 0.16:

информативность пунктов и теста - student2.ru

информативность пунктов и теста - student2.ru

Таблица 13.3. Пример IRT-анализа: вероятности правильного ответа, информативность пунктов и информативность теста для различных уровней выраженности признака

Выражен-ность признака P(X=1 | θ) Вероятность правильного ответа Информативность Тест
Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 5 Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 5
-3 0.20 0.09 0.05 0.02 0.01 0.16 0.08 0.05 0.02 0.01 0.32
-2 0.40 0.21 0.12 0.06 0.03 0.24 0.17 0.10 0.06 0.03 0.60
-1 0.65 0.42 0.27 0.16 0.07 0.23 0.24 0.20 0.13 0.06 0.86
0.83 0.67 0.50 0.33 0.17 0.14 0.22 0.25 0.22 0.14 0.97
0.93 0.84 0.73 0.58 0.35 0.06 0.13 0.20 0.24 0.23 0.86
0.97 0.94 0.88 0.79 0.60 0.03 0.06 0.10 0.17 0.24 0.60
0.99 0.98 0.95 0.91 0.80 0.01 0.02 0.05 0.08 0.16 0.32

На уровне выраженности признака, на три стандартных отклонения превышающем средний (θ = 3), значение информативности пункта 1 составляет 0.01.

Чем выше значение информативности, тем выше психометрическое качество. Следовательно, при слабой выраженности признака пункт 1 обладает более высоким психометрическим качеством, чем при сильной выраженности признака. Другими словами, этот пункт лучше дифференцирует респондентов с низким уровнем выраженности признака, чем респондентов с высоким уровнем выраженности признака (вероятно, потому, что большинство таких респондентов отвечает на пункт правильно). В Таблице 13.3 содержатся вероятности правильного ответа и коэффициенты информативности для каждого пункта на семи различных уровнях выраженности признака. Вычислив значения информативности для гораздо большего количества уровней выраженности признака, мы можем представить результаты графически, в виде т.н. кривых информативности пунктов.

На Рисунке 13.2 представлены кривые информативности каждого из пунктов гипотетического примера (пятипунктового теста на математические способности). Заметьте, что высота кривой отражает количество информации, обеспечиваемой пунктом. Высшая точка на кривой относится к такому уровню выраженности признака, при котором пункт является наиболее информативным. Фактически пункт наиболее информативен при таком уровне выраженности признака, который совпадает с уровнем его сложности. Например, пункт 1 (наименее сложный) наиболее информативен при выраженности признака -1.61, и это же значение является уровнем сложности данного пункта. С другой стороны, пункт 1 мало информативен при выраженности признака выше среднего. Заметьте также, что точка наибольшей информативности отличается от пункта к пункту. Пункт 1 наиболее информативен при относительно низких уровнях выраженности признака, пункт 3 – при средних уровнях, пункт 5 – при относительно высоких.

Конечно, при использовании психологического теста нас больше интересует качество этого теста в целом, а не качество отдельных его пунктов. Можно обобщить коэффициенты информативности пунктов и получить показатели информативности всего теста. Для этого значения информативности пунктов при каком-либо конкретном уровне выраженности признака складываются друг с другом, и получается коэффициент информативности теста при данном уровне выраженности признака. В таблице 13.3 приведены коэффициенты информативности гипотетического пятипунктового математического теста для семи различных уровней выраженности признака. Например, показатель информативности теста при средней выраженности признака (θ = 0) равняется простой сумме коэффициентов информативности пунктов при θ = 0.

0.97 = 0.14 + 0.22 + 0.25 + 0.22 + 0.14.

Аналогичным образом, вычислив коэффициенты информативности теста на множестве различных уровней выраженности признака, можно изобразить результаты графически, в виде кривой информативности теста (Рисунок 13.2).

Кривая информативности теста полезна для демонстрации качества той информации, которую тест дает при различных уровнях выраженности у респондента измеряемого признака. Заметьте, что рассмотренный гипотетический тест наиболее информативен при средней выраженности признака и наименее информативен в крайних случаях. Другими словами, наилучшим образом данный тест дифференцирует респондентов, у которых степень выраженности измеряемого признака не выходит за пределы одного или двух стандартных отклонений в какую-либо сторону от среднего. И наоборот, тест относительно плохо работает для тех респондентов, выраженность признака у которых более чем на два стандартных отклонения ниже средней, а также для тех респондентов, у которых выраженность признака более чем на два стандартных отклонения превышает среднюю.

Рисунок 13.2. Кривые информативности пунктов и теста

Задумайтесь вновь о различиях между IRT и классической теорией тестов с точки зрения их подходов к пониманию надежности. С позиций классической теории, тест обладает единой надежностью, которую можно оценить, например, при помощи коэффициента «альфа». С позиций IRT, психометрическое качество теста может быть различным при различной выраженности у респондента измеряемого признака. При всей его важности, это различие двух психометрических подходов иногда недооценивается.

ОБЛАСТИ ПРИМЕНЕНИЯ IRT

Пунктовая теория тестов (IRT) – это теоретический подход, предлагающий свои вычислительные модели, которые применяются сегодня для проведения измерений во множестве областей психологии. Вероятно, коэффициенты сложности и дискриминативности пунктов интуитивно наиболее очевидны в сфере измерения способностей. В самом деле, на протяжении нескольких лет Служба тестирования в образовании (Educational Testing Service) использовала IRT как психометрическую основу для теста академических способностей SAT. Кроме того, несколько штатов США используют IRT в качестве основы для диагностики достижений в системе государственных школ. Помимо измерения способностей, IRT применялся и для диагностики отношений (напр., Strong, Breen, & Lejuez, 2004) и личностных черт (Chernyshenko, Stark, Chan, Drasgow, & Williams, 2001; Fraley, Waller, & Brennan, 2000).

Наши рекомендации