Другие подходы к измерению надежности.

До широкого применения компьютеров вычислять коэффициент альфа вруч­ную было долго, поэтому использовалась аппроксимация [10]. Вместо сложения всех заданий теста для получения общей оценки вычислялись две оценки: одна основывалась на всех нечетных за­даниях теста, а другая - на всех четных. Полученные две оценки затем коррелировали между собой. Далее применяя формулу Спирмена-Брауна (поскольку набор четных или нечетных зада­ний - только половина объема полного теста) рассчитывали надеж­ность, полученную методом расщепления. В настоящее время, по-видимому, нет весомых оснований для ее использования.

Ретестовая надежность- временная ста­бильность, имеет совершенно другой смысл. Как следует из назва­ния, она проверяет, в какой степени оценки (!) черты остаются бо­лее или менее постоянными в течение времени. Большинство тес­тов разработано для измерения именно стабильных черт таких, как экстраверсия, способности к вычислениям или нейротизм, а в определении черты подчеркивается, что это относительно устойчивая диспози­ция. Последнее предполагает, что индивидуумы должны иметь по­хожие оценки, когда они тестируются в двух ситуациях (напри­мер, с интервалом в несколько недель) при условии, что:

- с ними не случилось ничего значительного в интервале меж­ду двумя тестированиями (например, не было эмоциональ­ного кризиса, изменений, обусловленных развитием, или значительного образовательного опыта, который мог бы по­влиять на черту);

- тест хорошо измеряет черту.

Если при первом тестировании тест показывает, что ребенок гениален, а через месяц его интеллект оказывается на среднем уровне, то либо концепция интеллекта характеризует в большей степени состояние, а не черту, либо тест несостоятелен.

Проблема, однако, заключается в том, что ретестовая на­дежность основывается на общей оценке, она ничего не говорит о том, как люди выполняют отдельные задания. В то время как коэф­фициент альфа показывает, измеряет ли набор заданий некото­рую конкретную скрытую черту, прекрасную ретестовую надеж­ность может иметь набор заданий, которые не имеют ничего общего между собой (!).

Например, если вы попросили кого-то суммировать номер своего дома, размер обуви и год рождения в двух разных ситуациях, полученная статистическая характеристика будет об­наруживать впечатляющую ретестовую надежность, хотя эти три пункта не имеют между собой ничего общего.

В связи с обсуждением понятия "ретестовая надежность" целесообразно остановиться на возможности дифференцирования таких психологических понятий как "состояние" и "черта личности" на основе статистической оценки.

Имея показатели ретестовой надежности и внутренней согласованности теста, представляется возможным математически проверить, является ли тестируемое психическое образование устойчивой личностной характеристикой или текущим состоянием. Говард Е. в своей работе [23] приводит формулу для вычисления индекса μ, по величине которого можно судить, что диагностируется данным тестом (черта личности или состояние субъекта в момент тестирования; например, тревожность как стабильная черта личности и как ситуативная характеристика).

Остер Т.Р. [24], приводит количественные данные для индекса μ, по которым можно отличить устойчивые характеристики личности от ситуативных. Если μ находится в пределах от 0,4 до 0,7, то данный тест определяет ситуативную характеристику индивида; при μ, равном 0,1-0,2, тест определяет стабильную личностную характеристику. Индекс μ вычисляется по формуле:

Другие подходы к измерению надежности. - student2.ru Другие подходы к измерению надежности. - student2.ru ;

где: к - показатель ретестовой надежности теста; α - коэффициент внутренней однородности теста.

Надежность параллельных форм. Ради полноты картины следует упомянуть надежность параллельных форм. Конструкторы тестов иногда создают из набора заданий несколько тестов. Чтобы создать две параллельные фор­мы теста, задания предъявляются большой выборке испытуемых и подбираются пары заданий со сходным содержанием и уровнем трудности.

Например, обе формы теста могут включать задание решить анаграмму из семи букв, и в обоих случаях ответом будут слова, одинаково часто встречающиеся в языке, и только около 25% выборки будут способны решить каждую из них. Одно задание будет, затем включено в форму "А" теста, а другое - в форму "Б". Эти два теста продаются отдельно, и (теоретически) несущественно, какой из них будет использоваться в определенных целях, поскольку обычно прилагаются специальные усилия, гарантирующие, что эти две версии дают одинаковое распределение оценок (и бла­годаря этому позволяют использовать одни и те же таблицы норм для обеих форм теста). Если оба теста измеряют одну и ту же черту, следует ожидать высокой положительной корреляции между оцен­ками индивидуумов по двум формам теста. Эта корреляция извес­тна как надежность параллельных форм. Однако, поскольку из-за трудностей создания, парал­лельные формы имеют относительно немногие тесты, она исполь­зуется редко [10].

Надежность отдельных пунктов.Очевидно, что надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретестовую (диахронную) надежность всего теста, надо отобрать из исходного набора пунктов (проверенных в пилотажных психометрических экспериментах) такие пункты, на которые испытуемые дают устойчивые ответы.

Для дихотомических пунктов с ответами типа "верно" или "неверно", устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:

  Второе тестирование
Да Нет
Первое тестирование Да А В
Нет С Д

Здесь в клетке А суммируются частота ответов "Да", данных испытуемым при первом и втором тестировании; в клетке В суммируются частота ответов "Да", данных испытуемым при первом и "Нет" при втором тестировании; клетке С суммируются частота ответов "Нет", данных испытуемым при первом и "Да" при втором тестировании; клетке Д суммируются частота ответов "Нет", данных испытуемым при первом и втором тестировании [1, 11, 15].

В качестве меры корреляции вычисляется известный [11] фи-коэффициент:

φ = Другие подходы к измерению надежности. - student2.ru,

При этом, значимость фи-коэффициента определяется с помощью критерия хи-квадрат по формуле: Другие подходы к измерению надежности. - student2.ru . (а)

Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается (см. приложение 2).

Удобство в использовании фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта по силе (трудности): фи-коэффициент оказывается тем меньше, чем сильнее частота ответов "Да" отличается от частоты ответов "Нет".

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется величиной "+1", если пункт получает значимый отрицательный фи-коэффициент, то величиной "-1". Если пункт получает незначимый фи-коэффициент, то его целесообразно исключить из батареи.

При «ручных» вычислениях фи-коэффициента удобно вначале с помощью формулы (а) определить граничное значение значимого (по модулю) фи-коэффициента.

При постоянном (многократном) подсчете суммарных баллов - ключ для каждого пункта теста можно определять в виде более чувствительного, тетрахорического коэффициента корреляции(который также применяется для дихотомических пунктов) [4]:

Другие подходы к измерению надежности. - student2.ru , где A, B, C, D - клетки четырехпольной таблицы.

В этом случае в первом столбце таблички суммируются ответы испытуемых, из "высокой" группы (т.е. из группы испытуемых, набравших максимальное количество баллов), во втором столбце - из "низкой" (из группы испытуемых, набравших минимальное количество баллов).

При нормальном распределении частот суммарных баллов "высокая" и "низкая" группы отсекаются справа и слева 27% -ними средними квантилями.

  Группы испытуемых
Высокая Низкая
Да А В
Нет С D

Для того, чтобы повысить одномоментную(синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными.

Как отмечалось выше, согласованность всех пунктов можно вычислить, используя формулу Кронбаха (для расчета α), или же, в случае наличия дихотомических групп, определить с помощью точечного бисериального коэффициента корреляции, который учитывает амплитуду отклонения индивидуальных суммарных баллов от среднего балла [4]:

Другие подходы к измерению надежности. - student2.ru , где

Другие подходы к измерению надежности. - student2.ru - средний балл по «высокой» группе;

Другие подходы к измерению надежности. - student2.ru - средний балл по «низкой» группе;

σ- стандартное отклонение для суммарных баллов всех индивидов из выборки;

Другие подходы к измерению надежности. - student2.ru - количество испытуемых в «высокой» группе;

Другие подходы к измерению надежности. - student2.ru - количество испытуемых в «низкой» группе;

N - общее количество испытуемых в выборке.

А. Анастази относит критерий внутренней согласованности теста к валидности, однако, по мнению Столина, если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Однако следует учесть, что слишком высокая согласованность снижает внешнюю валидность теста по критерию, (мы рассмотрим эту зависимость более подробно при анализе различных видов "валидности" теста).

Теория генерализованности - другой подход к теории надежности. Эта теория, разработанная Кронбахом, требу­ет от исследователей соблюдать высокую точность по отношению к тем заключениям, которые могут быть сделаны на основе набора тестовых оценок. Она пытается идентифицировать все возможные источники ошибок, которые могут возникнуть при оценивании, в значительной степени так же, как это было показано выше для отдель­ных заданий теста. Она стремится оценить каждый из возможных источников ошибок независимо и внести поправку в оценку каждого индивидуума с учетом влияний этих посторонних факторов [10].

Пред­ставим себе, что дети выполнили тест на правописание в двух си­туациях; данные, полученные в двух тестированиях, могут быть проанализированы многими способами. Например, можно оценить временную стабильность теста на правописание, определить, на­сколько стабильно дети выполняют буквенный анализ слова, или составить диаграмму, оценивающую рост успехов класса в право­писании. Проблема заключается в том, что определение (и изме­рение) всех этих переменных - очень запутанная и громоздкая процедура. Поскольку важность переменных будет, вероятно, меняться при переходе от одной выборки к другой (пенсионеры могут прилагать меньше усилий для выполнения тестов способно­стей, чем студенты, например), это до сих пор не имеет большого практического применения.

Наши рекомендации