Психометрические критерии научности психодиагностических методик
Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности.
Валидность(от англ. valid. – «действительный, пригодный») – способность методики измерять те характеристики, которые нужно измерить (А. Анастази).
1.Валидность – это такая характеристика методики, которая включает сведения об области исследуемых явлений. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т, е. относительно предмета измерения.
Виды валидности:
I. Содержательная валидность – степень соответствия содержания методики к измеряемой области. Оценка теста производится за счет экспертов, устанавливающих соответствие заданий теста содержанию предмета измерения.
II. Конструктная валидность. Психологическую валидизацию порой, оказывается, провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия. Наиболее благополучная ситуация имеется тогда, когда для измерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между баллами двух тестов указывает на то, обладает ли новый тест конструктной валидностью по отношению к старому. Если новый тест обнаруживает высокое соответствие результатов со старым и одновременно оказывается более компактным и экономичным в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого. Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.
С другой стороны, понятие конструктной валидности указывает на высокую
зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве.
III. Прогностическая валидность – степень точности и обоснованности суждений о диагностическом качестве спустя определенное время. Для оценки прогностической валидности необходимо использовать объективные показатели (результаты обучения, деятельности, оценки экспертов).
VI. Валидность эмпирическая – совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области критериальнойвалидности и двум ее видам: валидности текущей и валидности прогностической.
2. Репрезентативность - свойство выборки (выборочной совокупности)
представлять характеристики генеральной совокупности. Такая выборка называется репрезентативной (представительной). Свойство Р. означает, что с некоторой наперед заданной или определенной статистической погрешностью можно считать, что представленное в выборке распределение изучаемых признаков соответствует их реальному распределению.
3. Надежность как устойчивость к побочным факторам и как точность измерения. В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.
Надежность-устойчивость - это устойчивость результатов во времени. Измеряется с помощью перетестирования
Надежность-согласованность - это соответствие результатов внутри одного теста. Измеряется с помощью расщепления теста пополам. Синонимы: однородность, гомогенность, консистентность.
Методы оценки надежности:
ü Ретестовый метод – повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.
ü Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.
ü Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).
Оценка точности тестирования в массовых и индивидуальных исследованиях.
Ø Ошибка первого рода (вероятность отклонения истинной гипотезы) и ошибка второго рода (вероятность принятия ложной гипотезы) при массовых исследованиях. Ошибка Iрода – Н0отклоняется как недостоверная, однако она верна; исследователь об этом не знает. Ошибка IIрода – Н0принимается как верная; но она не верна.
4. До включения в тест задача должна быть оценена с точки зрения объективности, надёжности, валидности, трудности и дискриминативности.
- Объективной задача может быть признана тогда, когда она несколькими (не менее трёх) независимыми экспертами-психологами оценивается как соответствующая признаку, который подлежит измерению.
- Надёжной задача является, если при её повторном предъявлении она вызывает у испытуемого эквивалентную первому предъявлению реакцию.
- Валидной задача считается тогда, когда в соответствии с критерием она чаще всего правильно решается теми испытуемыми, у которых измеряемый признак более выражен, чем у других испытуемых. (Например, в интеллектуальном тесте валидными будут те задачи, которые правильно решают испытуемые с более высоким интеллектом, чем с более низким).
- Трудность задачи рассчитывается из соотношения процента правильных ответов на данную задачу с учётом объёма репрезентативной выборки испытуемых. Оптимальными для теста являются задачи, индекс трудности которых равен 50 %.
- Коэффициент дискриминативности, или согласованности, отдельной задачи с тестом позволяет оценить, насколько точно задача дифференцирует испытуемых по измеряемому признаку.
Объективные критерии валидизации:
ü Объективные социально-демографические и биографические данные (стаж, образование, профессия, приема или увольнения с работы, количество браков и разводов и т.д.);
ü Показатели успешности обучения, которые зачастую являются критериальной мерой тестов способностей, достижений в отдельных дисциплинах, тестов интеллекта;
ü Производственные показатели эффективности выполнения определенных видов профессиональной деятельности, имеющие наибольшее значение при валидизации методик, используемых в профотборе и профориентации;
ü Результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т.д.) при испытании тестов общих и специальных способностей, креативности, тестов личности;
ü Врачебный диагноз или иные выводы специалиста;
ü Контрольные испытания знаний и умений.
5. Достоверность - устойчивость результатов тестирования по отношению к фальсификации - сознательным или бессознательным мотивационным искажениям результатов со стороны испытуемого.
К стандартизированным (формализованным) методам относятся тесты, анкеты, опросники, проективные техники и психофизиологические процедуры обследования. Под стандартизированностью методик имеется в виду то, что они всегда и везде должны применяться одинаковым образом, начиная от ситуации и инструкции, получаемой испытуемым, кончая способами вычисления и интерпретации получаемых показателей.
Эту группу методов отличает:
- регламентация процедуры обследования (единообразие инструкций и способов их предъявления, бланков, предметов или аппаратуры, используемых при обследовании, условий проведения испытания), способов обработки и интерпретации результатов;- стандартизация (наличие строго определенных критериев оценки: норм, нормативов);- надежность и валидность методик.
К нестандартизированным (малоформализованным) методамотносятся беседа, наблюдение, анализ продуктов деятельности, биографический метод, интроспекция, эмпатическое слушание. Данные методы позволяют фиксировать некоторые внешние поведенческие реакции испытуемых в разных условиях, а также такие особенности внутреннего мира, которые трудно выявить другими способами, например, переживания, чувства, некоторые личностные особенности. Использование малоформализованных методов требует высокой квалификации диагноста, поскольку зачастую нет стандартов проведения обследования и интерпретации результатов.
Положительными сторонами данных методов выступают: гибкость и вариативность психодиагностической процедуры; возможность глубокого проникновения в уникальную жизненную ситуацию; высокая эффективность при изучении изменчивых явлений; стремление к всестороннему описанию личности.
В качестве недостатков отмечаются: субъективизм диагностических суждений; сильная зависимость получаемых результатов от квалификации психолога; значительные временные затраты на их проведение; непригодность для проведения групповой диагностики (кроме наблюдения).
6. Тестовые нормы: это такие критические точки на шкале тестовых баллов, которые отделяют области значений с заданным психодиагностическим выводом.
Виды норм:
· Абсолютные(или нормативы): точки на шкале сырых баллов. Регистрируют достижение заданного уровня в тестах достижений (профессиональных или педагогических).
·Статистические: основываются на выборке стандартизации. Области применения: универсальные тесты способностей и черт личности с широкой областью валидности, соревновательные тесты достижений. TOEFL, ЕГЭ.
·Критериальные: позволяют прогнозировать критериальное поведение c заданной вероятностью.
Виды статистических норм:
·Квартили, децили, промилли - разновидности процентильных норм для порядковых шкал
·Параметрические нормы - для интервальных шкал - задаются параметрами среднего и стандартного отклонения
Процентильные тестовые нормы: это точки на шкале тестовых баллов, которые отделяют от выборки стандартизации заданный процент испытуемых.
Процентиль- процент испытуемых, показавших балл ниже или равный данному.
Стандартизация – преобразование нормальной шкалы оценок в новую шкалу, основанную не на количественных значениях изучаемого показателя, а на его относительном месте в распределении результатов в выборке испытуемых.