Надежность теста. Теория надежности

Надежность одно из основных понятий психодиагностики и, вместе с тем, одно из самых сложных. К.М. Гуревич отмечает «Надежность - крайне сложное и многоплановое понятие, одна из основных функций которого - оценить постоянство показателей тестовых испытаний. В принципе можно сказать, что надежность должна обосновывать ошибку измерения - она должна показывать, какая часть изменчивости показателей ошибочна» [17, стр. 27].

На практике понятие "надежности" имеет два значения: одно связано с воспроизводимостью результатов тестирования, другое – с внутренней согласованностью теста [8].

На понятии "надежность" основывается вычисление "ошибки измерения", с помощью которой определяются вероятные пределы колебания измеряемой величины, возникающей под воздействием случайных факторов.

Можно сказать, что в широком смысле слова надежность теста показывает, в какой мере индивидуальные различия в тестовых результатах являются «истинными», а в какой мере они могут быть отнесены к случайным ошибкам. Надежность это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

- разнообразие внешних материальных условий тестирования (время суток, освещенность, температура, наличие посторонних звуков и т.п.);

- динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (настроение, утомление, другие особенности состояния испытуемого);

- информационно-социальные факторы (контакт с психологом, наличие других людей, сама ситуация тестирования и пр.).

Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размеру и направлению отклонения измеренного тестового балла (т.е. такого, который можно было бы получить в идеальных условиях).

Поэтому, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат суммы двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это нашло свое выражение в классической формуле, описывающей надежность теста в виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов [1, 13, 15, 16]:

α = 1 - Надежность теста. Теория надежности - student2.ru

где: α- надежность теста; Надежность теста. Теория надежности - student2.ru -дисперсия ошибки;

Надежность теста. Теория надежности - student2.ru -дисперсия теста.

Итак, эта формула читается так: надежность теста равняется единице минус отношение дисперсии ошибки к дисперсии эмпирически зарегистрированных баллов.

Из этой формулы получаем, что стандартная ошибка измерения равна: Надежность теста. Теория надежности - student2.ru . Можно сказать, что величина ошибки измерения - обратный индикатор точности измерения: чем выше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал), внутри которого оказывается статистически возможной расположение истинного балла данного испытуемого [15].

В общем случае можно сказать, что ошибку измерения в психометрике определяют с помощью корреляционных методов, которые дают возможность оценить надежность (или, что одно и тоже точность) через устойчивость и согласованность результатов, полученных как на уровне целого теста, так и на уровне отдельных его пунктов.

Рассмотрим вначале надежность теста, связанную с воспроизводимостью результатов тестирования – так называемую, "ретестовую" или "диахронную" надежность. Затем, проанализируем понятие "надежности", связанное с внутренней согласованностью теста. В завершении этого параграфа проанализируем критический взгляд на такие понятия, как "ретестовая надежность ", "синхронная надежность" и достаточно подробно остановимся на "теории надежности", позволяющей психологу, разрабатывающему или использующему тест, понять всю важность данного параметра теста.

1. Ретестовая (диахронная) надежность (надежность теста, как целого). Самый естественный способ определить надежность результатов теста - использовать тот же тест второй раз.

В этом случае коэффициент надежности просто равен корреляции между двумя результатами, полученными на одних и тех же испытуемых в каждом из двух случае проведения теста. Приводя в руководстве к тесту его ретестовую надежность, всегда следует указывать, в каком интервале времени она измерена. Как правило, выбирают этот интервал исходя из следующих соображений.

На дисперсию ошибки тестовых результатов обычно влияют случайные колебания с периодом от нескольких часов до нескольких месяцев. Поэтому, определяя тип тестовой надежности, стараются придерживаться небольших временных интервалов.

(Например, при тестировании маленьких детей этот период должен быть еще короче, чем у взрослых испытуемых, поскольку в раннем детстве возрастные изменения происходят в течение месяца и даже быстрее.).

В целом для любого типа испытуемых интервал между двумя последовательными применениями теста обычно не должен быть меньше двух недель и превышать 6 месяцев [1].

Следует учесть, что данное понятие надежности в основном характеризует выполнение теста самого по себе, а не тестируемую область поведения (т.е. характеризует стабильность теста, как измерительного инструмента).

В качестве коэффициента корреляции для этого типа надежности обычно подсчитывают известный коэффициент корреляции произведения моментов Пирсона [1, 15]:

Надежность теста. Теория надежности - student2.ru ,где

r -коэффициент корреляции между результатами двух тестовых испытаний;

Надежность теста. Теория надежности - student2.ru -эмпирическая дисперсия первого испытания;

Надежность теста. Теория надежности - student2.ru - эмпирическая дисперсия второго испытания;

∑ -сумма произведения отклонений от средних значений каждого испытуемого в первом и втором испытаниях;

N- число испытуемых.

Оценка значимости этого коэффициента производится следующим образом:

- вычисляется квадратическая ошибка коэффициента корреляции по формуле

Надежность теста. Теория надежности - student2.ru ;

при малом числе наблюдений n берется "числом степеней свободы", обычно как n-2, и ошибка коэффициента корреляции вычисляется так

Надежность теста. Теория надежности - student2.ru ;

Ошибка коэффициента корреляции приближается к нулю, когда коэффициент корреляции приближается к единицы. Таким образом, при r =1 независимо от знака, mr =0.

Значение коэффициента корреляции оценивается с помощью критерия достоверности, который представляет отношение этого коэффициента к своей средней квадратической ошибке, т.е.

Надежность теста. Теория надежности - student2.ru ;

Далее полученный критерий достоверности (t) сравнивается с табличным (см. приложение 2).

Напомним из статистики, что если необходимо оценить достоверность различий, наблюдаемых между двумя коэффициентами корреляции, формула для расчета критерия достоверности принимает вид

Надежность теста. Теория надежности - student2.ru .

Знание надежности теста позволяет уточнить "истинное" значение тестового балла индивида, применяя формулу: Надежность теста. Теория надежности - student2.ru , где

Надежность теста. Теория надежности - student2.ru -истинный балл;

Надежность теста. Теория надежности - student2.ru -эмпирический балл i-го испытуемого;

Надежность теста. Теория надежности - student2.ru -среднее для теста;

r - эмпирическая надежность теста;

Например, что испытуемый получил балл IQ по шкале Стенфорд-Бине равный 120 нормализованным очкам, Надежность теста. Теория надежности - student2.ru= 100, r = 0,9.Тогда истинный балл будет равен: Надежность теста. Теория надежности - student2.ru =0,9 х 120 + 0,1 х 100 = 118

Все выше сказанное касалось тестовс интервальными шкалами, для шкал порядка в качестве меры ретестовой надежности используется ранговый коэффициент корреляции Спирмена:

Надежность теста. Теория надежности - student2.ru ,где Надежность теста. Теория надежности - student2.ru - разность рангов i-го испытуемого в первом и втором ранговом ряду (1, 4).

Оценка значимости коэффициента корреляции Спирмена производится аналогичным образом через расчет квадратической ошибки по формуле

Надежность теста. Теория надежности - student2.ru ;

Теперь проанализируем понятие "надежности", связанное с внутренней согласованностью теста, и которое находит свое выражение в таких понятиях, как "одномоментная" или "синхронная" надежность.

Одномоментная (синхронная) надежность (согласованность).Этот тип надежности независим от устойчивости (поскольку не имеет временного интервала) и имеет особую содержательную и операциональную природу. Ее надо понимать именно как согласованность частей теста. В психотехнике этот вид надежности часто называют коэффициентом внутренней согласованности теста.

Для того, чтобы ее измерить следует скоррелировать между собой параллельные формы теста. Особо отметим, что проводится только однократное применение теста (а уже потом его искусственно разбивают на две параллельные формы). Чаще всего параллельные формы теста получают расщеплением составного теста на "четную" и "нечетную" половины: к первой относятся все четные пункты заданий теста, ко второй - соответственно, все нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов подсчитываются допустимые коэффициенты корреляции [1, 15]. Если параллельные формы тесты не нормализованы, то предпочтение отдается ранговой корреляции. При подобном расщеплении получается коэффициент корреляции, относящийся к половинам теста. Для того, чтобы найти надежность(согласованность) целого теста, пользуются формулой Спирмена-Брауна:

Надежность теста. Теория надежности - student2.ru , где

Надежность теста. Теория надежности - student2.ru - эмпирически рассчитанная корреляция для половин;

Надежность теста. Теория надежности - student2.ru - надежность целого теста.

Следует отметить, что делить тест на две части можно разными способами, и каждый раз получаются несколько разные коэффициенты; поэтому в психометрике предложен способ оценки синхронной надежности, который соответствует разбиению теста на такое количество частей, сколько в нем отдельных пунктов. В этом случае, синхронную надежность теста можно оценить с помощью формулы Кронбаха:

Надежность теста. Теория надежности - student2.ru,где

α-коэффициент Кронбаха;

k-количество пунктов (заданий) теста;

Надежность теста. Теория надежности - student2.ru - дисперсия по i-му пункту теста;

Надежность теста. Теория надежности - student2.ru -дисперсия суммарных баллов по всему тесту.

В 1957 году Дж. Китс предложил следующий критерий для оценки статистической значимости коэффициента α(1):

Надежность теста. Теория надежности - student2.ru , где

Надежность теста. Теория надежности - student2.ru - эмпирическое значение статистики χ2 с п-1 степенью свободы;

k - количество пунктов;

n - количество испытуемых;

α - надежность.

Вычисленная статистика Надежность теста. Теория надежности - student2.ruдалее сравнивается с табличной (см. приложение 2).

Как видно, формула Кронбаха позволяет оценить взаимную согласованность пунктов теста, используя только подсчет дисперсий (вся важность этой формулы для психометрики станет понятна после анализа теории надежности).

Коэффициент αпозволяет также оценить и среднюю корреляцию между i-тым и j-тым произвольными пунктами теста, так как он связан с этой средней корреляцией следующей формулой:

α = Надежность теста. Теория надежности - student2.ru , (***)

где Надежность теста. Теория надежности - student2.ru - средняя корреляция между пунктами теста.

Из всего вышесказанного вытекает возможность повысить синхронную надежность теста, увеличивая численность пунктов теста (в k раз). Из формулы видно, что при больших k малое значение r - может сочетаться с высокой надежностью (например: пусть r = 0,1,аk= 100,тогда согласно формуле (***) имеем: α = 0,91).

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.

Все приведенные формулы относятся к оценке надежности одномерного теста, направленного на измерение одной характеристики.

Перейдем теперь к обсуждению "теории надежности" тестов [10], опираясь на понятия изложенные выше.

Теория надежности тестов.

Известно [1, 2, 8, 10, 15, 16], что оценки полученные индивидуумами по психо­логическим тестам используются как численные выражения абстрактных психологических понятий. По этой причине важно иметь уверенность в том, что эти оценки по любому психологическому тесту, во-первых, имеют неболь­шую случайную ошибку измерения (что говорит о высокой статис­тической надежности) и, во-вторых, действительно измеряют то, что они ставят целью измерить (т.е. имеют высокую валидность, которая подробнее будет рассмотрена позже).

По определению К. Купера [10], анализ понятий систематической и случайной ошибок измерения приводит к важному аспекту психометрики, известному как теория надеж­ности.

Следует напомнить, что главнейшей характеристикой психологических тестов является то, что каждая шкала теста должна оценивать одну (и только одну!) психологическую характеристику.

Большинство тестов (составленных по типу опросников) обраба­тываются суммированием по ключу ответов на каждое задание и интерпретировать значение набранного балла можно только в том случае, если все задания в шкале измеряют одну и ту же базовую психологическую характеристику. Если все утверждения измеряют одну психологическую характеристику, то чем выше оценки испытуемых, полученные по данному тесту, тем более развита у них эта характеристика.

Однако если задания теста измеряют две и более совершенно разные характеристики, такая интер­претация невозможна. Поэтому очень важно убедиться в том, что все утверждения в определенной шкале оценивают одну (и только одну!) психологическую характеристику. Существуют два основных способа убедиться в этом.

Теория надежности эта теория, в которой изначально предполагается, что все задания теста предназначены для того, чтобы измерять одну и ту же характеристику; кроме того, теория надежности позволяет проверить, так ли это в действительности.

Для того чтобы лучше понять суть систематической и случайной ошибок, рассмотрим аналогию психологических и физических измерений.

Физические измерения. Измерение предметов в повседневной жизни может проводиться с различной точностью, при этом всегда существует некото­рая "ошибка измерения", связанная с определением физических параметров предмета, которая составляет небольшой процент от измеряемого параметра. Как правило, величина этой ошибки зависит от точности используемого измерительного инструмента. В частности, в случае измерения длины (например, стола) могут использоваться - рулетка, сантиметр или линейка, которые имеют свою, заданную ошибку измерения.

Ошибка, связанная с проведением каждого измерения, может рассматриваться как случайная в том смысле, что она будет изменяться случайным образом от одного измерения к другому.

К примеру, если бы измеряли некоторый стол одним и тем же инструментом 100 раз, его длина иногда могла оказаться рав­ной, 155 см, в другой раз несколько меньше – 154. Однако если бы мы усреднили эти 100 измерений, они должны были бы дать более точную оценку его подлинной длины, чем та, которая получилась бы в результа­те одного измерения, поскольку случайные ошибки измерения име­ют тенденцию нивелировать влияния друг друга при усреднении.

Таким образом, ошибки измерения могут быть сведены к минимуму; при этом измерительные инструменты должны быть сконструи­рованы так, чтобы получаемые с их помощью оценки гарантиро­ванно находились под влиянием только одной физической пере­менной - именно той, которую хотят измерить. Например, пока­затели длины, получаемые по шкале измерительной рулетки, не должны зависеть от времени дня, когда осуществляется измерение, от температуры помещения, где происходить измерение, света или фактуры измеряемого объекта или еще чего-либо, за исключением его длины. Это прямой эквивалент принци­па, который заложен при использовании любого теста: измерительные инструменты должны изме­рять только одну (психологическую) характеристику объекта.

На практике обеспечить это далеко не так просто. Допустим, что указанные выше измерительные инструменты, полнос­тью свободны от ошибок измерения - «случайных ошибок», упо­минавшихся выше. Дает ли это основание полагать, что длина стола может быть измерена с полной точностью? К сожа­лению, нет, поскольку ни один из этих инструментов не измеряет только длину. Сантиметр (особенно если он на тканевой основе), будет слегка вытягиваться или сжиматься в зависимости от изменения температуры и влажности, и поэтому в холодный влажный день или в сухой и жаркий он будет давать несколько различающиеся показатели. Точность других измерителей может (хотя и в очень малой степени) также зависеть от иных параметров окружающей среды.

Таким образом, даже если мы примем, что все эти инструмен­ты измеряют длину (и только ее одну), размеры, определяемые каждым из них, будут в действительности подвержены влиянию нескольких различных переменных. Назовем их источниками "систематической ошибки". В отличие от обсуждавшихся выше слу­чайных ошибок, источники систематических ошибок не обнару­живают тенденцию к устранению, когда проводятся повторные измерения при одних и тех же физических условиях. Если мы 100 раз измеряем длину стола с помощью сантиметра в жаркий влажный день, то показатели будут всегда слегка пре­увеличены, поскольку измерительная лента будет коробиться.

Если перечисленные три способа измерения длины стола (т.е. рулетка, сантиметр или линейка) находятся под влиянием различных физических перемен­ных окружающей среды, то каким образом следует определять "подлинную" длину, руководствуясь этими тремя, слегка различающимися показате­лями? Решение, которое напрашивается само собой, состоит в том, чтобы усреднить эти три показателя, надеясь на интуитив­ную очевидность того, что среднее трех измерений окажется бли­же к "подлинному" значению, нежели каждое из измерений, взя­тое поодиночке.

Теперь можно подвести итог сказанному, сформулировав несколько основопо­лагающих принципов [10]:

• "Хорошие" измерительные инструменты - это такие, на которые мало влияет случайная ошибка.

• "Хорошие" измерительные инструменты не подвержены вли­яниям источников систематической ошибки.

Проведение многократных измерений при разных физичес­ких условиях и усреднение результатов уменьшают вкладслу­чайных ошибок.

Усреднение измерений, полученных с помощью разных ин­струментов, будет вести к уменьшению вклада системати­ческой ошибки.

Измерения в психологии.В психологии ответ, который испытуемый дает на задание тес­та, представляет собой аналог измерения длины одним из мето­дов, описанных выше, - с одной лишь существенной разницей, имеющей практическое значение, особенно в случае личностных измерений.

Допустим, что в личностном опроснике задан вопрос: "Получаете ли вы удовольствие от шумных вечеринок?", на который можно ответить, отмечая по пятибалльной шкале ранги от – "совершенно согласен" до "совершенно не согла­сен". Попытаемся назвать ряд очевидных факторов, кото­рые могут повлиять на то, какие ответы будут даваться. Среди таких факторов можно отметить следующие:

- уровень экстраверсии (личностная черта);

- число вечеринок, на которых недавно побывал испытуемый (фактор усталости);

- возраст испытуемого;

- его религиозные убеждения;

- контекст, в котором задавался вопрос (диагностическая ситуация);

- способ, который испытуемый использует при работе с пя­тибалльной шкалой: некоторые индивидуумы используют оценки 1 и 5 довольно свободно, в то время как другие ни­когда не обращаются к полюсам шкалы;

- склонность соглашаться: установлено, что люди склонны соглашаться с утверждениями;

- настроение испытуемого;

- случайная ошибка: если задать ему тот же самый вопрос двумя минутами позже, можете получить несколько отличающийся ответ.

Этот список, вероятно, может содержать и другие важные перемен­ные, поскольку множество посторонних факторов определяет, каким обра­зом индивидуум будет отвечать на вопрос в личностном тесте.

Такое же заключение относится и к оценкам поведения испытуемого или к оценкам его способностей. Следовательно, любой фраг­мент собранных данных при оценке индивидуальных различий, подвержен влиянию большого числа разнообразных факторов.

В экспериментах, можно определить меру влияния каждого из этих факторов на индивидуальный от­вет, полученный на каждый вопрос теста. Например, если вопрос предназначен для измерения такой черты, как экстраверсия, "хорошим" будет вопрос, при котором эффекты всех других переменных окажутся малы, аналогично тому, как на "хороший" показатель длины влия­ет расстояние, а не температура, давление воздуха или что-либо еще. В предыдущем примере, касавшемся измерения длины стола, реальная длина стола оказывала решающее влияние на показате­ли, получаемые с помощью сантиметра.

К сожалению, в психологии это не так. Практически невозможно найти вопрос лично­стного теста, для которого диагностируемая черта объясняла бы более чем 20—30% вариативности индивидуальных ответов на воп­росы. Большая часть вариативности обязана своим происхождени­ем другим факторам.

Проблема действительно сложная. Кажется, что невозможно придумать вопросы, которые измеряли бы черту в чистом виде, поскольку ответы индивидуумов на каждый вопрос теста подвержены влияниям множества черт, состояний, аттитюдов, настроений и везения. Можно ли надеяться, что личность или способности могут быть оценены с какой-либо степенью точ­ности?

Тем не менее, существует подход к решению этой проблемы. На­пример, можно привести некоторые другие вопросы, измеряю­щие экстраверсию, каждый из которых зависит от действия раз­личного набора посторонних факторов. Известно [10], что Айзенк считает экстравертов социабельными, оптимистичными, разговорчивыми, импульсивными и т.д., - значит, можно сфор­мулировать вопросы, которые измеряли бы и эти переменные тоже. Вопрос типа "Ведете ли вы себя тихо во время общественных ме­роприятий?" был бы подвержен влиянию определенного числа посторонних факторов, но лишь некоторые из них оказались бы теми же, что и для первого вопроса.

Таким образом, если опрос­ники конструировались из некоторого количества вопросов, на каждый из которых действует различный набор посторонних фак­торов, влияние последних будет иметь тенденцию к снижению, в то время как влияние черты будет накапливаться. Следовательно, чтобы разработать более точное измерение личностной черты, не­обходимо:

- написать несколько вопросов, каждый из которых отражает разные аспекты черты и, следовательно, оказывается под воздействием различных наборов посторонних факторов;

- оценить ответы на эти вопросы;

- сложить эти оценки вместе.

Средний балл, полученный по опроснику, не­избежно будет лучшей оценкой черты индивидуума, чем ответ на один-единственный вопрос, поскольку посторонние факторы ус­траняют действие друг друга. Это тот же принцип, о котором го­ворилось в примере с измерением длины стола. Когда мы используем этот принцип, 80%, 90% (и более) вариативности в общей оценке теста будет обусловливаться личностной чертой, что намного лучше, чем 20 или 30%, которые можно было бы получить с по­мощью одного отдельно взятого, даже самого хорошего, вопроса. Этот простой принцип составляет основу теории надежности, которую мы рассмотрим ниже.

Прежде чем перейти к ней, необходимо ввести еще один термин – "специфическая вариативность".

Вернемся к примеру с вопросом об экстраверсии. Вполне возможно, что некто, не являющийся экстравертом и не получающий удоволь­ствия шумных компаний, и чей ответ не подвержен сильному влиянию любого другого постороннего фактора, может тем не менее про­сто извлекать удовольствие из "шумных" вечеринок.

Другими сло­вами, может получиться так, что некоторые индивидуумы отве­тят на этот вопрос полным согласием, даже, несмотря на то, что такой вариант ответа невозможно предугадать исходя из знания их установок, личностных черт и прочих обстоятельств из числа "побочных факторов". Этот факт и учитывается с помощью понятия, называемого "специфической вари­ативностью".

Выше было показано, что отдельно взятый вопрос теста - плохое средство измерения черты и что значительно луч­шую оценку ее выраженности можно получить, если мы сложим оценки, полученные по некоторому количеству вопросов, изме­ряющих различные аспекты черты.

Представим себе, что для изме­рения определенной черты разработано около к вопросов, и они предъявляются приблизительно n испытуемым. Пока мы только допус­каем, что все вопросы измеряют одну и ту же черту (проблемы о том, как проверить это допущение и устранить вопросы, которые плохо ее измеряют, будут рассмотрены позже). Специализированные ком­пьютерные программы (такие, как операция оценки "надежнос­ти" в SPSS, "STADIA") могут быть использованы, чтобы вычислить по этим данным статистическую характеристику, которую различные ав­торы называют как: "надежность" теста, "альфа", "коэффициент альфа", "KR-20", "альфа Кронбаха" или "внутренняя согласован­ность". Деталей того, как вычисляется эта статистика, мы касаться не будем, но их можно найти в большинстве учебников по статистике.

Как можно ожидать исходя из выше изложенного, на коэффициент альфа влияют два фактора:

- средняя величина корреляции между вопросами теста. По­скольку ранее мы допустили, что различ­ные задания теста подвержены действию разных посторон­них факторов, единственная причина, по которой ответы индивидуумов на любую пару заданий должны коррелиро­вать между собой, состоит в том, что оба вопроса измеряют одну и ту же скрытую черту. Поэтому, если все вопросы тес­та измеряют одну и ту же черту, корреляции между ними будут высокими и положительными;

- количество вопросов в шкале. Еще раз подчеркнем, что общая цель построения шкалы из нескольких вопросов со­стоит в том, чтобы попытаться устранить действие посто­ронних факторов.

Легко понять: чем больше вопро­сов в шкале, тем более вероятно, что все эти посторонние факторы будут устранены. В этом случае может оказаться по­лезной формула Спирмена - Брауна (рассмотренная выше). Она позволяет предсказать, как будет увеличиваться или уменьшаться на­дежность шкалы, если число вопросов в шкале меняется.

Итак, надежность теста - это статис­тическая характеристика, которая может быть вычислена на осно­ве любого набора данных (при условии, что выборка составляет не менее 200 испытуемых). Напомним также, что максимально возможное значение надежности составляет 1,0 (минимальное значение, при определенных обстоятельствах, может быть меньше 0).

Для больших тестов квадратный корень из коэффи­циента альфа представляет очень близкую аппроксимацию к корре­ляции между оценками индивидуумов по определенному тесту и подлинной оценкой их черты. Например, коэффициент альфа равный 0,7, предполагает корреляцию равную 0,84 ( Надежность теста. Теория надежности - student2.ru =0,84), между оценками, полученными по тесту, и под­линными оценками испытуемых, в то время как величина коэф­фициента альфа, равная 0,9, подразумевает, что корреляция дос­тигает такого высокого значения, как 0,95.

Поскольку основная цель использования психологических тестов - попытаться дос­тичь максимально возможного приближения к подлинной оценке черты личности, из этого следует, что тесты должны иметь высо­кое значение коэффициента альфа.

Широко распространенное эмпирическое правило указывает на то, что тест не должен использоваться, если он имеет коэффи­циент альфа ниже 0,7, а применять его при принятии важных ре­шений по поводу конкретного индивидуума (например, для оценки необходимости коррекционного обучения) можно только в том случае, если величина коэффициента альфа больше 0,9.

Теперь рассмотрим вопрос о содержании заданий теста. Проблема заключа­ется в том, что довольно легко повысить среднюю корреляцию между заданиями теста, задавая несколько раз, по существу, один и тот же вопрос, слегка перефразируя его в каждом случае. Благо­даря этому все посторонние факторы, которые влияют на первый вопрос, будут влиять и на второй. Поскольку оба вопроса имеют отношение к одному и тому же поведению, они будут также раз­делять большую часть своей специфической вариативности. Поэто­му можно ожидать, что корреляция между двумя такими утверждениями будет близка к 1,0. Примерами двух таких утверждений могут быть:

"Мне нравятся шумные компании" и "Мне нравятся шумные вечеринки". Поскольку эти два задания, по сути, задают один и тот же вопрос, трудно представить себе, что многие люди могли бы полностью согласиться с одним и столь же решительно не согласиться с другим. Ответы на эти два вопроса обязаны иметь высокую положительную корреляцию. При условии, что корреля­ции между заданиями теста обычно невелики (в лучшем случае порядка 0,2-0,4), корреляция 0,9, полученная в результате сопос­тавления двух фактически идентичных утверждений, существенно увеличит среднюю корреляцию по тесту. В результате этого произойдет значительное увели­чение коэффициента альфа.

Однако должно быть ясно, что в этом случае нарушаются два главных условия составления теста: каждый вопрос должен быть подвержен влиянию различного набора посторонних факторов, и каждый должен иметь свою собственную "уникальную" вариативность, кото­рая не разделяется другими вопросами. Поэтому, крайне важно убедиться, что задания в каждой шкале хорошо подобраны. В некоторых случаях сделать это несложно.

Например, в случае разработки словарного теста просто необходимо подбирать задания из словаря (исключая те слова, которые встречаются ниже определенного порога частотности, или слова арха­ичные, специальные, т.е. профессиональные, термины). Когда это сделано, единственное, что будет влиять на корреляцию между ответами на пару заданий, - степень, с которой каждое из них измеряет скрытую черту (грамотность).

Не существует магичес­кой формулы для автоматической реализации этого принципа при конструировании тестов. Только от разработчика теста, зависит гарантия того, что единственной причиной, объясняющей корре­ляцию ответов на любую пару заданий, является та скрытая черта личности или способностей, которую они оба должны измерять. К сожалению, некоторые подходы к конструированию тестов, часто ведут к появле­нию большого количества искусственно завышенных корреляций, что дает, в свою очередь, завышенную оценку коэффициента аль­фа.

Важно также обеспечить, чтобы выборка испытуемых, чьи те­стовые оценки используются для вычисления коэффициента аль­фа, была репрезентативна группе, в которой будет применяться данный тест. Бессмысленно, например, установив величину коэффициента аль­фа в размере 0,9 на выборке студентов университета, затем считать, что этот тест будет годиться для использования на общей популяции, посколь­ку студенты университета - это не случайная выборка. Еще раз подчеркнем, что не существует количественного способа определить, будет ли тест, имеющий высокое значение коэффициента альфа на одной выборке, так же работать на другой, - это дело здравого смысла. Са­мое безопасное - вычислять коэффициент альфа во всех случаях использования теста, хотя в качестве предварительного условия обязательным будет тестирование большей выборки испытуемых (рекомендуется выборка - минимум 200 человек). При использовании должным образом коэффициент альфа может быть очень полезен.

Выше мы использовали понятие "подлинная оценка", но не оп­ределили его значение. Рассмотрим его несколько подробнее.

Любой тест можно рассматривать как комплекс заданий, выбранных из большого набора вопросов, которые потенциально могли быть заданы. Например, тест на правописание - это выборка большого количества слов из словаря. Тест, измеряющий тревогу, - это набор всех (многих!) вопросов, которые можно было бы перечислить с це­лью измерения множества аспектов тревоги. Тест математических способностей - это выборка из почти бесконечного числа мате­матических заданий, которые только можно было бы написать.

Итак, подлинное значение черты индивидуума - это оценка, которую он получил бы, если бы ему предъявили каж­дое возможное задание из полного набора.

Поясним это на примере. Если было бы необходимо оценить чью-либо способность правильно писать каждое слово из словаря, то можно было бы узнать точно, каковы способности этого человека к право­писанию, поскольку отсутствовала бы ошибка измерения, обус­ловленная случайным выбором заданий. Однако в реальном тесте используется лишь небольшая выборка заданий из всего возможного набора.

Если задания теста формируют репрезентативную выборку по отношению к полному набору зада­ний, то квадратный корень из коэффициента альфа довольно точно оценивает корреляцию между оценкой, полученной испытуемы­ми при выполнении теста, и их подлинной оценкой (т.е. оценкой, которую они могли бы получить, если бы им были предъявлены все задания из полного набора).

Чем выше величина коэффициента альфа, тем меньше будет ошибка при измерении черты; зная надежность теста и стандар­тные отклонения тестовых оценок, можно найти статистическую характеристику, которая называется "стандартная ошибка измере­ния", которая показывает насколько ошибка измерения может быть связана с каждым измерением (формула для вычисления стандартной ошибки приведена ниже Надежность теста. Теория надежности - student2.ru ; где σ –стандартное отклонение тестовых оценок; α – коэффициент надежности теста).

Та­ким образом, знание надежности теста позволяет делать некото­рые заключения, касающиеся величины ошибки, ко­торая, вероятно, имеется в любом измерении, при условии, ко­нечно, что задания данного теста можно считать репрезентативными по отношению к полному набору заданий.

Наши рекомендации