Другие подходы к измерению надежности
До широкого применения компьютеров вычислять коэффициент альфа вручную было долго, поэтому использовалась аппроксимация [10]. Вместо сложения всех заданий теста для получения общей оценки вычислялись две оценки: одна основывалась на всех нечетных заданиях теста, а другая - на всех четных. Полученные две оценки затем коррелировали между собой. Далее применяя формулу Спирмена-Брауна (поскольку набор четных или нечетных заданий - только половина объема полного теста) рассчитывали надежность, полученную методом расщепления. В настоящее время, по-видимому, нет весомых оснований для ее использования.
Ретестовая надежность- временная стабильность, имеет совершенно другой смысл. Как следует из названия, она проверяет, в какой степени оценки (!) черты остаются более или менее постоянными в течение времени. Большинство тестов разработано для измерения именно стабильных черт таких, как экстраверсия, способности к вычислениям или нейротизм, а в определении черты подчеркивается, что это относительно устойчивая диспозиция. Последнее предполагает, что индивидуумы должны иметь похожие оценки, когда они тестируются в двух ситуациях (например, с интервалом в несколько недель) при условии, что:
- с ними не случилось ничего значительного в интервале между двумя тестированиями (например, не было эмоционального кризиса, изменений, обусловленных развитием, или значительного образовательного опыта, который мог бы повлиять на черту);
- тест хорошо измеряет черту.
Если при первом тестировании тест показывает, что ребенок гениален, а через месяц его интеллект оказывается на среднем уровне, то либо концепция интеллекта характеризует в большей степени состояние, а не черту, либо тест несостоятелен.
Проблема, однако, заключается в том, что ретестовая надежность основывается на общей оценке, она ничего не говорит о том, как люди выполняют отдельные задания. В то время как коэффициент альфа показывает, измеряет ли набор заданий некоторую конкретную скрытую черту, прекрасную ретестовую надежность может иметь набор заданий, которые не имеют ничего общего между собой (!).
Например, если вы попросили кого-то суммировать номер своего дома, размер обуви и год рождения в двух разных ситуациях, полученная статистическая характеристика будет обнаруживать впечатляющую ретестовую надежность, хотя эти три пункта не имеют между собой ничего общего.
В связи с обсуждением понятия "ретестовая надежность" целесообразно остановиться на возможности дифференцирования таких психологических понятий как "состояние" и "черта личности" на основе статистической оценки.
Имея показатели ретестовой надежности и внутренней согласованности теста, представляется возможным математически проверить, является ли тестируемое психическое образование устойчивой личностной характеристикой или текущим состоянием. Говард Е. в своей работе [23] приводит формулу для вычисления индекса μ, по величине которого можно судить, что диагностируется данным тестом (черта личности или состояние субъекта в момент тестирования; например, тревожность как стабильная черта личности и как ситуативная характеристика).
Остер Т.Р. [24], приводит количественные данные для индекса μ, по которым можно отличить устойчивые характеристики личности от ситуативных. Если μ находится в пределах от 0,4 до 0,7, то данный тест определяет ситуативную характеристику индивида; при μ, равном 0,1-0,2, тест определяет стабильную личностную характеристику. Индекс μ вычисляется по формуле:
;
где: к - показатель ретестовой надежности теста; α - коэффициент внутренней однородности теста.
Надежность параллельных форм. Ради полноты картины следует упомянуть надежность параллельных форм. Конструкторы тестов иногда создают из набора заданий несколько тестов. Чтобы создать две параллельные формы теста, задания предъявляются большой выборке испытуемых и подбираются пары заданий со сходным содержанием и уровнем трудности.
Например, обе формы теста могут включать задание решить анаграмму из семи букв, и в обоих случаях ответом будут слова, одинаково часто встречающиеся в языке, и только около 25% выборки будут способны решить каждую из них. Одно задание будет, затем включено в форму "А" теста, а другое - в форму "Б". Эти два теста продаются отдельно, и (теоретически) несущественно, какой из них будет использоваться в определенных целях, поскольку обычно прилагаются специальные усилия, гарантирующие, что эти две версии дают одинаковое распределение оценок (и благодаря этому позволяют использовать одни и те же таблицы норм для обеих форм теста). Если оба теста измеряют одну и ту же черту, следует ожидать высокой положительной корреляции между оценками индивидуумов по двум формам теста. Эта корреляция известна как надежность параллельных форм. Однако, поскольку из-за трудностей создания, параллельные формы имеют относительно немногие тесты, она используется редко [10].
Надежность отдельных пунктов.Очевидно, что надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретестовую (диахронную) надежность всего теста, надо отобрать из исходного набора пунктов (проверенных в пилотажных психометрических экспериментах) такие пункты, на которые испытуемые дают устойчивые ответы.
Для дихотомических пунктов с ответами типа "верно" или "неверно", устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:
Второе тестирование | |||
Да | Нет | ||
Первое тестирование | Да | А | В |
Нет | С | Д |
Здесь в клетке А суммируются частота ответов "Да", данных испытуемым при первом и втором тестировании; в клетке В суммируются частота ответов "Да", данных испытуемым при первом и "Нет" при втором тестировании; клетке С суммируются частота ответов "Нет", данных испытуемым при первом и "Да" при втором тестировании; клетке Д суммируются частота ответов "Нет", данных испытуемым при первом и втором тестировании [1, 11, 15].
В качестве меры корреляции вычисляется известный [11] фи-коэффициент:
φ = ,
При этом, значимость фи-коэффициента определяется с помощью критерия хи-квадрат по формуле: . (а)
Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается (см. приложение 2).
Удобство в использовании фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта по силе (трудности): фи-коэффициент оказывается тем меньше, чем сильнее частота ответов "Да" отличается от частоты ответов "Нет".
В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется величиной "+1", если пункт получает значимый отрицательный фи-коэффициент, то величиной "-1". Если пункт получает незначимый фи-коэффициент, то его целесообразно исключить из батареи.
При «ручных» вычислениях фи-коэффициента удобно вначале с помощью формулы (а) определить граничное значение значимого (по модулю) фи-коэффициента.
При постоянном (многократном) подсчете суммарных баллов - ключ для каждого пункта теста можно определять в виде более чувствительного, тетрахорического коэффициента корреляции(который также применяется для дихотомических пунктов) [4]:
, где A, B, C, D - клетки четырехпольной таблицы.
В этом случае в первом столбце таблички суммируются ответы испытуемых, из "высокой" группы (т.е. из группы испытуемых, набравших максимальное количество баллов), во втором столбце - из "низкой" (из группы испытуемых, набравших минимальное количество баллов).
При нормальном распределении частот суммарных баллов "высокая" и "низкая" группы отсекаются справа и слева 27% -ними средними квантилями.
Группы испытуемых | ||
Высокая | Низкая | |
Да | А | В |
Нет | С | D |
Для того, чтобы повысить одномоментную(синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными.
Как отмечалось выше, согласованность всех пунктов можно вычислить, используя формулу Кронбаха (для расчета α), или же, в случае наличия дихотомических групп, определить с помощью точечного бисериального коэффициента корреляции, который учитывает амплитуду отклонения индивидуальных суммарных баллов от среднего балла [4]:
, где
- средний балл по «высокой» группе;
- средний балл по «низкой» группе;
σ- стандартное отклонение для суммарных баллов всех индивидов из выборки;
- количество испытуемых в «высокой» группе;
- количество испытуемых в «низкой» группе;
N - общее количество испытуемых в выборке.
А. Анастази относит критерий внутренней согласованности теста к валидности, однако, по мнению Столина, если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Однако следует учесть, что слишком высокая согласованность снижает внешнюю валидность теста по критерию, (мы рассмотрим эту зависимость более подробно при анализе различных видов "валидности" теста).
Теория генерализованности - другой подход к теории надежности. Эта теория, разработанная Кронбахом, требует от исследователей соблюдать высокую точность по отношению к тем заключениям, которые могут быть сделаны на основе набора тестовых оценок. Она пытается идентифицировать все возможные источники ошибок, которые могут возникнуть при оценивании, в значительной степени так же, как это было показано выше для отдельных заданий теста. Она стремится оценить каждый из возможных источников ошибок независимо и внести поправку в оценку каждого индивидуума с учетом влияний этих посторонних факторов [10].
Представим себе, что дети выполнили тест на правописание в двух ситуациях; данные, полученные в двух тестированиях, могут быть проанализированы многими способами. Например, можно оценить временную стабильность теста на правописание, определить, насколько стабильно дети выполняют буквенный анализ слова, или составить диаграмму, оценивающую рост успехов класса в правописании. Проблема заключается в том, что определение (и измерение) всех этих переменных - очень запутанная и громоздкая процедура. Поскольку важность переменных будет, вероятно, меняться при переходе от одной выборки к другой (пенсионеры могут прилагать меньше усилий для выполнения тестов способностей, чем студенты, например), это до сих пор не имеет большого практического применения.