Тестовые нормы и проверка их репрезентативности.

Тестовые нормы – количественные и (или) качественные критерии оценки результатов теста, позволяющие определить уровень достижений или степень выраженности психологических свойств, которые являются объектами процедуры измерения.

В качестве таких критериев могут выступать статистические показатели выборки стандартизации, различные признаки-симптомы, свидетельствующие об определенном уровне выраженности диагностируемых качеств.

Виды тестовых норм:

1. Абсолютные – количественные критерии.

2. Критериальные – содержательные (качественные) критерии.

Репрезентативность – свойство выборочной совокупности представлять характеристики генеральной совокупности (количественно и качественно отражать ее).

Репрезентативность означает, что распределение признака в выборочной совокупности соответствует его реальному распределению – генеральной совокупности.

Операции по анализу распределения тестовых баллов, построению тестовых норм и проверке их репрезентативности.

1. Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест.

Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызываемый внешними событиями).

2. Произвести группировку «сырых» баллов с учетом выбранного интервала квантования (интервала равнозначности).

Интервал определяется величиной: размах, деленный на количество интервалов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для заданных интервалов) в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего и стандартного отклонений, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n<200 с помощью более мощных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений).

6. Если совпадения не будет – нормальность отвергается, тогда произвести проверку устойчивости распределения расщеплением выборки на 2 случайные половины. При совпадении нормализованных баллов для половины и для целой выборки, можно считать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т.п.) с помощью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной выборок. При значимых различиях разбить выборки на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности «сырого балла»). При наличии разнородных подвыборок для каждой подвыборки должна быть своя таблица.

9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне значимости < 0,01) с учетом стандартной ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма решения того или иного теста.

11. В случае негативных результатов – отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) – осуществить обследование более широкой выборки или отказаться от плана использования данного теста.

Билет 17.

Надежность теста и ее виды.

Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Методологическая дисциплина (по отношению к ПД):

Обосновывает требования к…

- измерительным психодиагностическим методам;

- процедурам разработки теста;

- применению процедуры статистического анализа;

- адаптации методик к новым условиям их применения;

- интерпретации тестовых данных (пр: проблема критерия и т.п.).

Знание психометрики необходимо для критичности…:

- в понимании ограниченности методик;

- в понимании допущений, которые были сделаны при разработке;

- в понимании валидности и надежности и т.д.

Основные психометрические характеристики:

- надежность;

- валидность.

НАДЕЖНОСТЬ (устойчивость) – это такая характеристика методики, которая позволяет оценить постоянство тестовых показателей (т.е. устойчивость результатов теста к действию посторонних, случайных факторов).

На надежность методики влияет (посторонние факторы):

- нестабильность диагностируемого свойства;

- несовершенство диагностических методик:

– небрежно составленная инструкция;

– разнородные по своему характеру задания;

– нечетко определенная область измерения;

– нечетко прописанная процедура обследования.

- меняющаяся ситуация обследования:

– разное время дня;

– разная освещенность помещения;

– посторонние шумы;

– погода и т.д.

- манера поведения психолога:

– разная стимуляция клиента на выполнение задания и т.д.

- состояние клиента (колебание в этих состояниях):

– настроение;

– усталость и т.д.

- элемент субъективизма в способах оценки/ интерпретации результатов (особенно при открытых ответах и т.п.).

Для того, чтобы надежность методики была высокой, методика должна быть стандартизирована (все д.б. прописано: процедура проведения, область исследования и т.д.).

В качестве цифрового показателя надежности выступает коэффициент корреляции.

Виды надежности:

РЕТЕСТОВАЯ НАДЕЖНОСТЬ – вид надежности, который определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики.

(Чем выше коэффициент корреляции, тем выше надежность, т.е. мы получаем примерно то же самое распределение).

Определение временного интервала:

С увеличением временного интервала – показатели корреляции имеют тенденцию к снижению (т.к. имеет место влияние посторонних факторов).

Пр: могут произойти естественные временные изменения.

Обычно выбираются непродолжительные временные интервалы: от 2 недель до 2–4 месяцев (это зависит от возраста обследуемых. Чем старше, тем больше можно делать интервал, и наоборот).

Слишком маленький интервал:

→ проблема запоминания;

→ проблема интереса.

НАДЕЖНОСТЬ ПАРАЛЛЕЛЬНЫХ ФОРМ – проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста).

Требования к созданию параллельных форм теста:

1. Количество заданий д.б. одинаково.

2. Типы заданий в обеих формах д.б. унифицированы (приведены в соответствие) в плане психологического содержания, уровня и пределов трудности, охвата тех или иных операций.

3. Задания в тесте д.б. распределены по трудности одинаковым образом.

4. обе формы должны иметь примерно одинаковое среднее значение и среднее отклонение.

5. Процедура применения отдельных форм, техника оценивания результатов д.б. унифицированы.

Показатель надежности – коэффициент корреляции.

НО!! Существует опасность обучаемости решению тестов. Обследуемый может запомнить алгоритм решения определенных типов задач.

НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА (одномоментная надежность/ надежность-согласованность) – характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Надежность проверяют на результатах…:

1) Результаты теста расщепляются на части (чаще всего путем деления на четные и нечетны пункты).

2) По каждой половине рассчитываются суммарные баллы.

3) Между двумя рядами баллов по испытуемым рассчитываются допустимые коэффициенты корреляции.

Разделение теста на части → уменьшение величины этого теста → уменьшение/ снижение достоверности результатов.

+ надо предусмотреть: при разделении – задания по своему характеру д.б. однородными.

Преимущества данного вида надежности:

1) Отсутствие влияния факторов, порождаемых повторным тестированием: эффект упражнения, снижение мотивации и т.д.

2) Менее трудоемок (пр: не надо разрабатывать параллельную форму теста, проводить повторное обследование и т.д.).

!! Наиболее высокий показатель надежности обеспечивает надежность параллельных форм !!

Но она ограничивается техническими возможностями.

Билет 18.

Валидность теста и ее виды.


Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Методологическая дисциплина (по отношению к ПД):

Обосновывает требования к…

- измерительным психодиагностическим методам;

- процедурам разработки теста;

- применению процедуры статистического анализа;

- адаптации методик к новым условиям их применения;

- интерпретации тестовых данных (пр: проблема критерия и т.п.).

Знание психометрики необходимо для критичности…:

- в понимании ограниченности методик;

- в понимании допущений, которые были сделаны при разработке;

- в понимании валидности и надежности

и т.д.

Основные психометрические характеристики:

- надежность;

- валидность.

ВАЛИДНОСТЬ – это характеристика, которая включает в себя сведения об области измеряемых свойств и репрезентативности диагностической процедуры по отношению к ним.

Валидность – это такая характеристика, которая показывает то, что измеряет данная методика и насколько хорошо она это делает.

Виды валидности:

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ – характеризует степень соответствия заданий теста измеряемой области психических свойств.

Закладывается уже на стадии разработки теста.

Устанавливается экспертами.

Этапы валидизации теста:

1. Определяется круг измеряемых свойств и (или) видов деятельности. Происходит расчленение свойства/ деятельности на элементы.

2. Разрабатывается модель тестовой деятельности или модель свойства, содержание которой подбирается путем выделения наиболее важных элементов реальной деятельности.

3. Проводится анализ степени соответствия разработанной модели реальной деятельности/ свойству (степень соответствия результатов 1 и 2 этапов).

КРИТЕРИАЛЬНАЯ/ эмпирическая ВАЛИДНОСТЬ – включает в себя текущую и прогностическую валидность.

- отражает степень соответствия прогноза и диагноза определенному кругу критериев измеряемого свойства.

Текущая валидность – степень соответствия диагноза.

Прогностическая валидность – степень соответствия прогноза.

В качестве критерия может выступать уровень достижений в какой-либо другой деятельности (производственная, научная, учебные успехи; степень развития какой-либо способности; степень выраженности какого-либо свойства личности; социально-демографические и географические данные и т.п.).

Подсчитывается корреляция двух рядов значений: баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Пр: Разработка методики Экстра-Интраверсии.

Экстраверсия (1)/Интраверсия (2) → определение, свойства (1 и 2) → экспертная оценка участником эксперимента этих параметров + оценка экстра-интраверсии с помощью разрабатываемой методики → корреляция (чем выше, тем валидность больше).

КОНСТРУКТНАЯ ВАЛИДНОСТЬ – отражает степень представленности измеряемого психологического конструкта в результатах теста.

Для того, чтобы доказать валидность представленности измеряемого свойства, необходимо найти уже проверенную конструкцию, направленную на измерение того же самого.

Если такой конструкции нет, то привлекаются эксперты. При этом они работают не с тестом (как это было в случае с содержательной валидностью), а с испытуемыми из выборки стандартизации (наблюдают).

Если и это не удается, тогда прибегают к оценкам особого типа – субъективным, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним.

Виды конструктной валидности:

- конвергентная валидность (схождение) – для доказательства надо выбрать какое-то психологическое свойство, которое связано (прямо или обратно) с измеряемым свойством.

- дискриминативная валидность – доказывается отсутствием связи между измеряемым свойством и каким-либо другим свойством.

Различия:

Содержательная – соответствие заданий теста измеряемому свойству.

Критериальная – соответствие диагноза и/или прогноза какому-либо критерию.

Конструктная – соответствие результата теста психологическому конструкту.

КОНКУРЕНТНАЯ ВАЛИДНОСТЬ – оценивается по корреляции разработанного теста с другими, валдность которых относительно данного параметра установлена.

ОЧЕВИДНАЯ ВАЛИДНОСТЬ – описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.

Билет 19.

Наши рекомендации