Разработка, адаптация и использование

Надежность тестов

Надежность — это характеристика психодиагностической методики, отражающая точность психодиагностических измерений, а также устойчивость (стабильность) результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психологического исследования.

Наибольшая стабильность результатов наблюдается при применении графических и графологических тестов, показатели которых меняются крайне медленно. Медленно изменяется почерк, практически неизменными остаются качество линий рисунков и их композиция.

Наибольшая динамичность показателей наблюдается у интеллектуальных тестов, которые напрямую зависят от способности человека накапливать и перерабатывать информацию.

На устойчивость (стабильность) показателей теста влияют следующие факторы:

  • состояние и настроение обследуемых;
  • мотивация испытуемых к тестированию;
  • эргономические факторы (освещенность, температура в помещении, вибрация, шумы и пр.);
  • характеристика деятельности (монотонность-динамичность, помехи и др.);
  • степень обучаемости (или натренированности) испытуемых и др.

Надежность результатов тестирования зависит также от а) изменчивости инструмента психологического измерения и б) факторов стабильности самой процедуры измерения. Таким образом, надежность есть степень согласованности результатов тестирования, получаемых при первом и последующих измерениях.

На практике наиболее широко применяются шесть типов надежности: надежность ретестовая (тест-ретест надежность); надежность параллельных форм; надежность частей теста (надежность как гомогенность тестов); надежность по Кудеру — Ричардсону; надежность интерпретатора («оценщика») и стандартная ошибка измерений.

Определение коэффициента надежности в первых двух случаях вычисляется по формулам расчетов коэффициентов корреляции (в зависимости от шкалы, в которой измерены данные) между первым и последующим измерениями или между параллельными формами теста.

Расчет коэффициента надежности при исследовании гомогенности теста осуществляется путем разбиения теста на равные субтесты и расчета корреляции между этими частями. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена — Брауна:

Rxx = 2R / 1 + R,

где R — корреляция «половин» теста.

Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть два ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:

Rxx = (K / K — 1) (1 — å (pi q i)/d x2),

где pi — доля 1-го варианта ответа на i-й вопрос; q i — доля 2-го варианта на i-й вопрос.

Надежность частей теста может также рассчитываться по формуле Кудера — Ричардсона:

Rxx = (K / K — 1)(1 — å (d x i2)/d x2);

где К — количество равных частей теста; d x i2 — дисперсия i-й части теста; d x2 — дисперсия целого теста.

При работе с клиническими опросниками, тестами креативности и проективными технологиями надежность методик определяется путем сравнения интерпретаций результатов двумя или более экспертами-психологами. Высокие коэффициенты корреляции между ними показывают надежность тестовой оценки.

Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квадрат. Интерпретируется он следующим образом. Например, коэффициент корреляции между параллельными формами теста равен 0.75. Коэффициент надежности расчитывается так: 0.752 = 0.56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельного теста), а 44% — от ошибок или случайных переменных.

Разберем гипотетический пример определения надежности двух форм теста в ходе исследования креативности 100 школьников. В результате коэффициент надежности взаимозаменяемых форм с интервалом ретестирования две недели составил 0.7. Была вычислена надежность-гомогенность тестов при помощи формулы Спирмена — Брауна, которая составила 0.8. Надежность интерпретации («оценщика») с привлечением второго специалиста-психолога была равна 0.92. Анализ источников дисперсии ошибок показан в таблице.

Анализ источников дисперсии ошибок в исследуемом тесте
По надежности взаимозаменяемых форм (с временным интервалом две недели) 1 — 0.7 = 0.3 (ошибка ретеста + ошибка гомогенности)
По надежности эквивалентных половин теста (формула Спирмена — Брауна) 1 — 0.8 = 0.2 (ошибка гомогенности)
Разность 0.3 — 0.2 = 0.1(ошибка ретеста)
По надежности интерпретации («оценщика») 1 — 0.92 = 0.08 (различия между интерпретациями)
Суммарная оценка дисперсии ошибок 0.2 + 0.1 + 0.08 = 0.38
Истинная дисперсия 1 — 0.38 = 0.62

Результаты исследования надежности теста креативности можно представить схематично в процентном распределении дисперсии показателей теста.

«Истинная» дисперсия: 62% Дисперсия ошибок: 38%
Временная устойчивость; согласованность форм; независимость от различий между интерпретациями («оценщиками»). Ошибка гомогенности: 20% Ошибка ретеста: 10% Различия между интерпретациями: 8%

Надежность теста можно выразить посредством расчета стандартной ошибки измерений — SEM (стандартная ошибка показателя). Она расчитывается по формуле [33].

Разработка, адаптация и использование - student2.ru

SEM = δx √ 1 — Rxx,

где δx — стандартное отклонение показателей теста;

Rxx — значение коэффициента надежности.

Физический смысл SEM заключается в определении дисперсии показателей конкретного теста вокруг “истинного показателя”, которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нормального распределения психологических данных попадает в интервал Mx + δx , то примерно два шанса против одного (68 : 32), что ошибка измерений будет “колебаться” в пределах + 1 SEM. При увеличении плотности распределения данных, например — Mx + 3 SEM, увеличивается и вероятность предсказания (99.7 : 0.3) при соответствующем росте интервала ошибки в обе стороны.

Пример: расчитаем стандартную ошибку измерений при помощи тестов CFIT и Равена. Интеркорреляция между показателями тестов составляет 0.81. Стандартное отклонение — 15. Результирующий показатель исследуемой методики CFIT равен, допустим, 110 IQ-баллов.

Разработка, адаптация и использование - student2.ru

SEM = 15 √ 1 — 0.81 = 6.5

Это означает, что при определении “истинного” IQ и соотношении шансов удачного предсказания истины 2:1 (или 68 : 32) ошибка будет колебаться в интервале + 1.5 IQ-баллов. И «истинный» показатель теста находится в пределах от 103.5 до 116.5.

При увеличении вероятности прогноза до соотношения 99.7 : 0.3 (3 + δx) ошибка возрастает до + 19.5, а “истинный” показатель займет место между 90.5 и 129.5.

Таким образом, надежность, валидность и прогностичность эмпирических данных дают возможность измерять психологические переменные на соответствующем уровне достоверности, который диктуется практикой социальных исследований.

Разработка, адаптация и использование

психодиагностических методик (тестов)

В практике психодиагностической работы перед психологом возникают две основные задачи: разработка, адаптация методик и формирование тестовой батареи.

Алгоритм работы в обоих случаях приблизительно одинаков. Различие заключается в том, что при разработке теста весомое место занимает концептуальная валидизация методики, которая практически отсутствует в процессе формирования тестовой батареи, потому что для измерения какого-либо свойства подбираются теоретически валидные тесты.

В качестве примера разработки методики для иллюстрации процесса валидизации нового теста взят алгоритм отработки технологии "Семантический анализ деятельности" (САД) и теста "Семантического дифференциала "Божественно­го Откровения" (СДО), а формирование и валидизация тестовой батареи показаны на примере профессиологической задачи отбора персонала.

http://refdb.ru/look/2089765-pall.html

Наши рекомендации