Тема 6. Стандартизация теста, тестовые нормы
Подстандартизацией понимают процесс унификации, регламентации, приведения к единым нормативам процедуры психодиагностики и тестовых показателей.
1. Стандартизация процедуры эксперимента – унификация инструкций, бланков, стимульного материала, способов регистрации результатов, условий проведения обследования. Единственной переменной в диагностической ситуации должен быть испытуемый.
2. Стандартизация тестовых показателей, или стандартизация как выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний у разных испытуемых, предполагает разработку тестовых норм.
Психодиагностическая норма. Цель нормализации тестовых показателей – возможность определения индивида в ряду признаков; соотношение показателей различных тестов; возможность математической обработки данных.
Схема стандартизации. Обработка результатов → итоговый балл («сырая» оценка выполнения теста) → перевод в стандартные оценки, в «некоторую относительную меру» (А.Анастази, С.Урбина, 2001). В результате, полученные стандартные оценки выражают один из двух основных аспектов: 1) достигнутый уровень развития или 2) относительное положение индивида в определенной группе.
Виды диагностических норм
1. Статистические нормы
Разработка статистических норм осуществляется путем проведения методики на достаточно большой репрезентативной выборке (выборке стандартизации) того типа, для которой данная методика предназначена. Индивидуальные показатели сравниваются со среднестатистическими показателями по тесту, полученными на выборке стандартизации.
В основе разработки статистических норм лежит гипотеза о нормальном распределении измеряемого признака (аналогично антопометрическим характеристикам, таким, как рост, вес и пр.). В связи с этим, распределение тестовых показателей также должно стремиться к нормальному.
При нормальном распределении все изучаемые величины находятся в пределах х ср. ± 5σ. Результаты в пределах х ср.±σ показывают границы наиболее характерной, представительной части распределения, т.е. являются границами нормы (68%). Остальное – ниже (выше) нормы, или значительно ниже (выше) нормы.
Процентильные нормы. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого.
Стандартные показатели. Перевод «сырых» оценок к другому масштабу. Выражают отличия индивидуального результата от среднего в единицах отклонения соответствующего распределения.
а) линейное преобразование (распределение «сырых» баллов нормальное, перевод осуществляется для удобства);
б) нелинейное преобразование (распределение «сырых» баллов не соответствует нормальному, осуществляется предварительная нормализация показателей).
К стандартным шкалам в психодиагностике относят: шкалу IQ, шкалу стенов, стэнайнов, Т-шкалу.
По мнению А.А.Бодалева, В.В.Столина, выбор статистической модели распределения – законный произвол психометриста, пока сам тест выступает в качестве единственного эталона измеряемого свойства. Необходимо тщательно следить за соответствием сферы применения диагностических норм той выборке испытуемых, на которой они были получены.
2. Критериальные нормы
В качестве эталона выступает внешний по отношению к тесту, целевой критерий. Особое значение критериальный подход имеет в таких областях практики, где высокие результаты могут дать узкоспециализированные методики, например, в обучении.
В качестве примера внешнего критерия можно рассмотреть понятие социально-психологического норматива, введенного К.М.Гуревичем. Под социально-психологическим нормативом понимают объем требований общества к психическому развитию каждого из его членов. Так, социально-психологический норматив по отношению к умственному развитию школьников содержится в требованиях образовательных программ.
Тема 7. Надежность теста
Существует несколько определений надежности:
1. Воспроизводимость результатов исследования.
2. Точность результатов измерения.
3. Устойчивость результатов, полученных с помощью определенной методики, во времени и по отношению к побочным переменным.
Общий разброс (дисперсия) результатов измерения можно представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Коэффициент надежности показывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет действительных отличий в изучаемых свойствах, позволяет судить о том, насколько внушают доверие результаты, полученные по тесту. Основной математико-статистический прием, с помощью которого устанавливается надежность методики, – коэффициент корреляции. Чем ближе значение коэффициента корреляции к 1, тем надежнее тест.
Ошибка измерения – величина, обратная надежности. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла испытуемого.
На точность измерения влияют следующие факторы: 1) нестабильность измеряемого свойства; 2) несовершенство методики (нечеткость инструкции, формулировки заданий и т.п.); 3) меняющаяся ситуация обследования (время, освещенность, пр. условия); 4) поведение экспериментатора; 5) изменения функционального состояния испытуемого; 6) субъективность в способах оценки и интерпретации результатов.
Единообразие процедуры обследования, ее строгая регламентация – основное условие повышения надежности.
Разновидностей надежности можно выделить столько же, сколько факторов, влияющих на результаты измерения. Практическое применение находят шесть видов надежности.
Виды и способы определения надежности
Виды надежности, для расчета которых необходимо два измерения
1. Ретестовая надежность (надежность-устойчивость) предполагает повторное предъявление теста тем же испытуемым через определенный промежуток времени, а затем установление корреляции между двумя рядами данных. Предполагается, что в перерыве между тестированиями измеряемое свойство осталось неизменным, следовательно, полученные изменения индивидуальных результатов будут связаны с недостатком теста. При определении ретестовой надежности существует проблема временного интервала (максимум – 6 месяцев). В случае небольшого интервала на результаты диагностики будут влиять экспериментальные эффекты тестирования, обучения. При увеличении временного интервала растет вероятность изменения в измеряемом свойстве.
2. Надежность взаимозаменяемых форм предусматривает создание параллельных форм методики и предъявление их одним и тем же испытуемым, после чего также рассчитывается коэффициент корреляции. Основной проблемой использования данного способа определения надежности является сложность создания абсолютно эквивалентных форм.
3. Надежность отдельных пунктов теста рассчитывается в дополнение к ретестовой надежности. Определяется устойчивость ответов по отдельным пунктам теста, то есть выявляются такие пункты теста, на которые испытуемые реагируют одинаково.
Виды надежности, для расчета которых достаточно одного измерения
4. Надежность частей теста (надежность-согласованность; надежность-гомогенность) определяется путем деления методики на две части (чаще, на четные и нечетные пункты), после чего рассчитывается корреляция между показателями по отдельным частям. Для расчета коэффициента надежности используется формула Спирмена – Брауна.
5. Надежность по Кьюдеру-Ричардсону (синхронная надежность, гомогенная надежность, внутренняя согласованность) основана на анализе согласованности ответов испытуемых по каждому пункту теста при однократном тестировании. Вычисляется для всех возможных разбиений теста на две части.
В случае если тестовые показатели для каждого пункта представлены балльной оценкой, используется формула Кронбаха (коэффициент α), если дихотомической – формула Кьюдера-Ричардсона
6. Надежность оценщика рассчитывается для тех тестов, в которых в качестве источника ошибок выступает личность диагноста (тесты креативности, проективные методики).
Тема 8. Валидность теста
Проблема валидности методик является одной из наиболее сложных в психодиагностике. «Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» (А.Анастази, С.Урбина, 2001). Валидность – репрезантативность теста относительно измеряемой области поведения.
Соотношение надежности и валидности называют основным соотношением психометрики. Надежность необходимо рассматривать как необходимое, но недостаточное условие достижения валидности. Повышение надежности не означает автоматического повышения валидности. Вместе с тем, для ненадежного теста определить валидность проблематично. В количественном выражении коэффициент надежности всегда выше, чем коэффициент валидности (КН ≥КВ).
Проверка валидности называется валидизацией. Выделяют два способа получения валидности: прагматическая и собственно психологическая валидизация.
I. Прагматическая валидизация.
Прагматическая валидизация (или эмпирическая валидность) относится не столько к методике, сколько к цели ее использования. Суть предмета измерения оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики. Выделяют несколько видов эмпирической валидности.
1. Критериальная валидность.
Критерий – показатель проявления изучаемого свойства в повседневной жизни.
Требования к внешним критериям: 1) релевантность – смысловое соответствие диагностического инструмента независимому жизненно важному критерию; 2) свобода от помех (контаминация); отбор испытуемых из одной среды для исключения влияния побочных переменных, «загрязняющих» критерий; 3) надежность – отражение постоянство и устойчивость исследуемого свойства.
4 типа критериев: 1) Критерии исполнения (количество выполняемой работы, время, затраченное на обучение, темп роста квалификации и пр.)
2) Субъективные критерии (по данным интервью, анкет; отношение человека к чему-либо).
3) Физиологические критерии (частота пульса, давление и пр.)
4) Критерии случайности.
В зависимости от временных отношений между критерием и тестом выделяют следующие виды критериальной валидности: 1. Текущая валидность. Данные по тесту и критерию относятся к одному временному интервалу. 2. Прогностическая валидность. Данные по тесту и критерию относятся к различным временным интервалам. В случае, если критерий находится в прошлом, речь идет о ретроспективной валидизации, если в будущем – проспективной.
2. Конвергентная валидность – связь с родственными методиками. Дискриминативная валидность – отсутствие связи с методиками, имеющими другое основание (отсутствие корреляции с тестом, измеряющим концептуально независимое свойство).
3. Конкурентная валидность. Корреляция с аналогичным тестом, валидность которого уже установлена.
II. Теоретическая (собственно психологическая) валидизация.
1. Концептуальная валидность (И.Н.Носс, 2003). Теоретическое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством.
2. Содержательная валидность. Данный вид валидности подходит только для таких тестов, предмет которых предельно ясен (например, для тестов достижений). Задания теста подбираются в соответствии с аспектами изучаемой области; особое внимание уделяется работе с экспертами.
3. Конструктная валидность. Определяется через соответствие результатов теста некоторому психологическому конструкту. Под конструктами в психодиагностике понимают широкие категории, выводимые логическим путем из общих признаков, свойств или черт, которые обнаруживают себя в непосредственно наблюдаемых поведенческих актах. Согласно А.Анастази, конструктная валидность включает в себя все существующие виды валидности.