Значение и важность надежности по внутренней согласованности

Исследователи стремятся разрабатывать тесты, являющиеся в высокой степени внутренне согласованными, поскольку если некоторая переменная измеряется частью теста, а тест не согласован, то в других частях теста эта же переменная измеряться не будет. Поэтому чтобы тест был валидным (т.е. измерял именно то, для измерения чего он предназначен), он должен быть согласованным: Высокая надежность методики является предпосылкой валидности (Guilford, 1956; Nunnally, 1978).

Единственным, кто подвергает это положение сомнению, является Кэттелл (Cattell и Kline, 1977). Он аргументирует свою точку зрения тем, что высокая внутренняя согласованность в действительности является противоположностью валидности на том основании, что каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Это действительно имеет место, поскольку если две переменные весьма значимо коррелируют, то одна из них не будет предоставлять никакой новой информации. Таким образом, максимум валидности, по рассуждениям Кэттелла, может быть получен тогда, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности. Теоретически точка зрения Кэттелла правильна. Однако, ни одному разработчику тестов до сих пор не удалось сформулировать такие задания, которые, коррелируя с критерием, не коррелировали бы между собой. Barrett и Kline (1982) исследовали личностный тест самого Кэттелла (16 PF), в котором была сделана такая попытка, но оказалось, что она не была полностью удачна.

Ретестовая надежность

Когда тест не может дать тот же самый результат для некоторого испытуемого (при условии, что измеряемое свойство не изменилось) различных условиях, — значит, измерительный инструмент плохо проработан.

Способ измерения ретестовой надежности очень прост. Вычисляется корреляция показателей для выборки испытуемых, протестированных в двух случаях.

Этот способ называют методом повторного тестирования. Определение надежности этим методом основывается на том, что тест дважды предъявляется одной и той же группе обследуемых, через определенное время. Длительность временного интервала определяется содержанием и характером задач теста. Однако в целом этот интервал не должен превышать 6 месяцев (поскольку сами по себе личностные особенности могут измениться), минимальный интервал – 2 недели, наиболее часто используют интервал 1 месяц.

Показатели надежности теста оценивают с помощью коэффициента корреляции. Значение R лежит в пределах от 0 до 1. Наименьшим удовлетворительным значением для ретестовой надежности является 0,6 / 0,7 .

Алгоритм проверки: берем группу испытуемых (200 – 300 чел.) ® тест ®проверка данных ® через интервал времени (2 мес.) снова на этой же группе проводится этот тест ® получаются данные. Если коэффициент корреляции высокий Þтест надежный; если низкий Þ ненадежный.

Хотя ретестовая надежность проста в вычислении, следует быть очень осторожным, чтобы не повысить ее искусственно проведением слишком близких во времени испытаний, а выборки должны быть достаточно репрезентативными применительно к той категории лиц, для обследования которых предназначен тест.

Еще одним видом надежности является надежность параллельных форм. В этом случае конструируются эквивалентные или параллельные наборы заданий. Таким образом, испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Алгоритм проверке: одной и той же группе дается форма А теста, затем после перерыва форма В теста. Далее вычисляется коэффициент корреляции. Если коэффициент высокийÞ тест надеж, если низкий Þ не надежен. При такой форме проверке снижается влияние фактора памяти, тестирование может проводить в этот же день, но при этом фактор усталости может играть свою роль.

Валидность

Кратко рассмотрим природу валидности, второй из основных характеристик эффективных тестов.

Тест называется валидным, если он измеряет то, для измерения чего он предназначен. Однако такое определение не дает удовлетворительного разъяснения значения валидности. Т.е. как мы узнаем, что тест измеряет то, для чего он предназначен? В действительности, существует много различных способов доказательства валидности тестов, и каждый из них соответствует разным аспектам этого значения. Выделяют несколько видов валидности:

Прагматическая (практическая) валидность подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают большое значение особенно там, где встает вопрос отбора. Разработка и использование диагностических методик имеет смысл только тогда, когда есть обоснованное предложение, что измеряемое качество проявляется в определенных жизненных ситуациях и видах деятельности. Эмпирический критерий при определении валидности теста стали называть внешним критерием (то есть показатель проявления изучаемого свойства в повседневной жизни). Американские исследователи Тиффин и Маккормик выделяют четыре типа таких внешних критериев:

1. Критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.).

2. Субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или кому-либо, его мнения, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет).

3. Физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряются частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.).

4. Критерии случайности (применяются когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем требованиям (основным): он должен быть релевантным, свободным от помех (контаминации), надежным.

Под релевантностью надо понимать смысловое соответствие между диагностическим инструментом и независимым жизненно важным критерием. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным.

Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависят от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, “загрязнить” применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях или пытаются корректировать влияние помех. Например, производительность следует брать не по абсолютным показателям, а в отношении средней производительности рабочих, работающих в аналогичных условиях

Наши рекомендации