Определение надежности теста
Тест обычно считается надежным,если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.
В психометрике термин надежность имеет два значения. На одном из них — на- дежности по внутренней согласованности— мы не будем останавливаться под- робно, отсылая читателя к соответствующим справочникам и руководствам1, от- метив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Суще- ствует несколько способов определения надежности.
Надежность ретестовая— предполагает повторное предъявление того же само- го теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испыту- емые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому по- вторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаи- вают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).
Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестиро- вания варьировались. Стандартный коэффициент ретестовой надежности, равный
0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумы- вать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.
Наименьшим удовлетворительным значением для ретестовой надежности яв- ляется коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.
|
по конструированию тестов» (Киев, 1994), пока, к сожалению, единственная на русском языке дос- таточно подробная работа по конструированию тестов, может удовлетворить интерес читателя к этой проблеме.
162 Глава 3. Психометрические основы психодиагностики: основные этапы...
Надежность параллельных формпредусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная пробле- ма, препятствующая широкому распространению этого способа определения на- дежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.
Надежность частей тестаопределяется путем деления опросника на две час- ти (обычно на четные и нечетные задания), после чего и рассчитывается корреля- ция между этими частями. Обычно к этому способу определения надежности ре- комендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.
Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвя- щенном анализу заданий. Для определения надежности частей теста ранее рассчи- танный коэффициент произведения моментов Пирсона (между двумя полови- нами теста) используется в формуле Спирмена—Брауна. Формула Спирмена— Брауна имеет вид:
|
|
Например, если коэффициент корреляции произведения моментов Пирсона между двумя половинами теста равен 0,80, то:
Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные времен- ные интервалы.
Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надеж- ность — важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.
Факторный анализ
Во многих случаях перед разработчиком теста встает задача «сжатия» информа- ции или, иначе говоря, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. Факторный анализкак раз и является методом снижения размерности изучаемого многомерного явления.
Напомним читателю, что факторный анализ зародился в психологической на- уке и связан в первую очередь с исследованиями Ч. Спирмена (Spearman, 1904). Последующими работами таких выдающихся психологов, как Т. Келли, Л. Тер-
3.7. Факторный анализ 163
стоуна, Дж. Гилфорда и Р. Кэттелла, а также математиков К. Пирсона, К. Холзин- гера, Г. Хармана и др., был достигнут значительный успех в математическом обо- сновании факторного анализа, и этот метод начинает активно применяться в раз- личных науках.
Как хорошо известно, одной из типичных форм представления эксперимен- тальных данных является матрица, столбцы которой соответствуют, например, различным тестам (заданиям тестов), а строки — отдельным результатам (значе- ниям), полученным в результате их применения. Визуальный анализ сколь-ни- будь значительной по величине матрицы невозможен, а поэтому требуется исход- ную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет ко- эффициентов корреляции).
Воспользуемся в качестве примера исследованием Л. Айкена (Aiken, 1996). В этом исследовании 90 студентов колледжа просили оценить преподавателя с по- мощью пятибалльной шкалы (1 — низший балл, 5 — высший) по 11 параметрам: тактичность, вежливость, креативность, доброжелательность, увлеченность сво- им предметом, знание предмета, способность мотивировать студентов, организо- ванность, терпеливость, подготовленность и пунктуальность.
Если поделить матрицу корреляций рейтинговых оценок, данных студентами по списку качеств личности преподавателя (табл. 3.4) на два равных треугольни- ка, проведя диагональ из левого верхнего угла в правый нижний угол, то можно увидеть, что это — симметричная матрица, в которой первая верхняя строка со- стоит из тех же оценок, что и первая колонка. Аналогично вторая строка включает те же самые элементы, что и вторая колонка, и т. д. Также нужно обратить внима- ние на то, что все числа на основной диагонали (начиная сверху слева вплоть до чисел внизу справа) равны +1,00 — это предполагаемая корреляция каждого за- дания шкалы с самим собой.
В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объясняли бы боль- шую часть дисперсии в группе оценок по различным тестам или другим психомет- рическим измерениям. В вышерассмотренном примере — 11 переменных, поэто- му для него задача факторного анализа заключается в том, чтобы найти матрицу факторных нагрузокили корреляции между факторами и заданиями шкалы. Су- ществует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизациюматрицы корреляций, с тем чтобы получилась первона- чальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обна- ружить наиболее простую конфигурацию факторных нагрузок (см. табл. 3.4).
Стадия факторизации в этом процессе призвана определить количество фак- торов, необходимых для объяснения связей между различными тестами, и обес- печивает получение первичных оценок нагрузки (веса) каждого теста по каждо- му фактору. Вращение факторов необходимо для того, чтобы сделать их более по- нятными (интерпретируемыми) с помощью создания конфигурации факторов, в которой совсем немного тестов имеют высокие нагрузки, тогда как большая часть тестов имеют низкие нагрузки по любому фактору.
164 Глава 3. Психометрические основы психодиагностики: основные этапы...
Таблица 3.4