Определение надежности теста

Тест обычно считается надежным,если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.

В психометрике термин надежность имеет два значения. На одном из них — на­дежности по внутренней согласованности— мы не будем останавливаться под­робно, отсылая читателя к соответствующим справочникам и руководствам1, от­метив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Суще­ствует несколько способов определения надежности.

Надежность ретестовая— предполагает повторное предъявление того же само­го теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испыту­емые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому по­вторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаи­вают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).

Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестиро­вания варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумы­вать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.

Наименьшим удовлетворительным значением для ретестовой надежности яв­ляется коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.

Определение надежности теста - student2.ru Изданный под нашей редакцией перевод с английского книги П. Клайна «Справочное руководство по конструированию тестов» (Киев, 1994), пока, к сожалению, единственная на русском языке дос­таточно подробная работа по конструированию тестов, может удовлетворить интерес читателя к этой проблеме.

162 Глава 3. Психометрические основы психодиагностики: основные этапы...

Определение надежности теста - student2.ru Надежность параллельных формпредусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная пробле­ма, препятствующая широкому распространению этого способа определения на­дежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.

Надежность частей тестаопределяется путем деления опросника на две час­ти (обычно на четные и нечетные задания), после чего и рассчитывается корреля­ция между этими частями. Обычно к этому способу определения надежности ре­комендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.

Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвя­щенном анализу заданий. Для определения надежности частей теста ранее рассчи­танный коэффициент произведения моментов Пирсона (между двумя полови­нами теста) используется в формуле Спирмена—Брауна. Формула Спирмена— Брауна имеет вид:

Определение надежности теста - student2.ru

где ги — надежность, оцененная для всего опросника; Гуу — корреляция между дву­мя половинами опросника.

Например, если коэффициент корреляции произведения моментов Пирсона между двумя половинами теста равен 0,80, то:

Определение надежности теста - student2.ru

Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные времен­ные интервалы.

Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надеж­ность — важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.

Факторный анализ

Во многих случаях перед разработчиком теста встает задача «сжатия» информа­ции или, иначе говоря, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. Факторный анализкак раз и является методом снижения размерности изучаемого многомерного явления.

Напомним читателю, что факторный анализ зародился в психологической на­уке и связан в первую очередь с исследованиями Ч. Спирмена (Spearman, 1904). Последующими работами таких выдающихся психологов, как Т. Келли, Л. Тер-

Определение надежности теста - student2.ru стоуна, Дж. Гилфорда и Р. Кэттелла, а также математиков К. Пирсона, К. Холзин-гера, Г. Хармана и др., был достигнут значительный успех в математическом обо­сновании факторного анализа, и этот метод начинает активно применяться в раз­личных науках.

Как хорошо известно, одной из типичных форм представления эксперимен­тальных данных является матрица, столбцы которой соответствуют, например, различным тестам (заданиям тестов), а строки — отдельным результатам (значе­ниям), полученным в результате их применения. Визуальный анализ сколь-ни-будь значительной по величине матрицы невозможен, а поэтому требуется исход­ную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет ко­эффициентов корреляции).

Воспользуемся в качестве примера исследованием Л. Айкена (Aiken, 1996). В этом исследовании 90 студентов колледжа просили оценить преподавателя с по­мощью пятибалльной шкалы (1 — низший балл, 5 — высший) по 11 параметрам: тактичность, вежливость, креативность, доброжелательность, увлеченность сво­им предметом, знание предмета, способность мотивировать студентов, организо­ванность, терпеливость, подготовленность и пунктуальность.

Если поделить матрицу корреляций рейтинговых оценок, данных студентами по списку качеств личности преподавателя (табл. 3.4) на два равных треугольни­ка, проведя диагональ из левого верхнего угла в правый нижний угол, то можно увидеть, что это — симметричная матрица, в которой первая верхняя строка со­стоит из тех же оценок, что и первая колонка. Аналогично вторая строка включает те же самые элементы, что и вторая колонка, и т. д. Также нужно обратить внима­ние на то, что все числа на основной диагонали (начиная сверху слева вплоть до чисел внизу справа) равны +1,00 — это предполагаемая корреляция каждого за­дания шкалы с самим собой.

В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объясняли бы боль­шую часть дисперсии в группе оценок по различным тестам или другим психомет­рическим измерениям. В вышерассмотренном примере — 11 переменных, поэто­му для него задача факторного анализа заключается в том, чтобы найти матрицу факторных нагрузокили корреляции между факторами и заданиями шкалы. Су­ществует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизациюматрицы корреляций, с тем чтобы получилась первона­чальная факторная матрица; 2) вращениефакторной матрицы, с тем чтобы обна­ружить наиболее простую конфигурацию факторных нагрузок (см. табл. 3.4).

Стадия факторизации в этом процессе призвана определить количество фак­торов, необходимых для объяснения связей между различными тестами, и обес­печивает получение первичных оценок нагрузки (веса) каждого теста по каждо­му фактору. Вращение факторов необходимо для того, чтобы сделать их более по­нятными (интерпретируемыми) с помощью создания конфигурации факторов, в которой совсем немного тестов имеют высокие нагрузки, тогда как большая часть тестов имеют низкие нагрузки по любому фактору.

Определение надежности теста - student2.ru 164 Глава 3. Психометрические основы психодиагностики: основные этапы...

Таблица 3.4

Образец матрицы корреляций между 11 заданиями шкалы

для оценки личности преподавателя

Задание
1,000 0,727 0,424 0,573 0,343 0,294 0,458 0,200 0,425 0,091 0,078
0,727 1,000 0,304 0,620 0,287 0,258 0,363 0,075 0,459 0,115 0,127
0,424 0,304 1,000 0,470 0,510 0,080 0,691 0,206 0,304 0,129 0,112
0,573 0,620 0,470 1,000 0,336 0,195 0,390 0,061 0,528 0,026 0,022
0,343 0,287 0,510 0,336 1,000 0,171 0,638 0,374 0,203 0,243 0,244
0,294 0,258 0,080 0,195 0,171 1,000 0,108 0,227 0,159 0,490 0,430
0,458 0,363 0,691 0,390 0,638 0,108 1,000 0,218 0,314 0,108 0,065
0,200 0,075 0,206 0,061 0,374 0,227 0,218 1,000 00,85 0,524 0,421
0,425 0,459 0,304 0,528 0,203 0,159 0,314 0,085 1,000 0,114 0,187
0,091 0,115 0,129 0,026 0,243 0,490 0,108 0,524 0,114 1,000 0,611
00,78 0,127 0,112 0,022 0,244 0,430 0,065 0,421 0,187 0,611 1,000

Одна из наиболее известных процедур факторизации — метод главных осей(principal axis), а самая популярная процедура вращения — варимакс вращение1.

Из табл. 3.5 видно, что выделяются три фактора, они представлены в колон­ках, обозначенных А, В, С. Величины, записанные под колонкой каждого факто­ра, — корреляции или нагрузкикаждого из 11 заданий по этому фактору.

Например, задание 1 имеет нагрузку по фактору Л равную 0,754; - 0,271 по фак­тору В; и 0,250 по фактору С. Сумма квадратов нагрузок по каждому из факторов позволяет определить долю дисперсии этого задания. Таким образом, доля дис­персии задания 1 равна:

(0.754)2 +(-0,271)2 +(0,250)2 =0,704.

Это означает, что 70,4 % вариаций показателей по заданию 1 объясняется дей­ствием этих трех факторов.

Факторно-аналитический подход позволяет также оценить надежность теста. Как известно, полная дисперсия теста равна сумме дисперсий для общих факто­ров, плюс дисперсии специфических факторов, плюс дисперсия погрешности. Следовательно, если мы осуществим факторный анализ теста, возведем в квадрат и суммируем нагрузки его факторов, то мы получим его надежность, поскольку нагрузки факторов представляют корреляцию теста с общими или специфиче­скими факторами. Однако следует помнить, что такой способ установления на­дежности более всего подходит для уже факторизованного теста, нежели для тес­тов, которые могут измерять широкий набор разных факторов, часть которых мо­гут и не входить в батарею изучаемых исследователем.

Определение надежности теста - student2.ru 1 По вполне понятным причинам здесь опущены этапы ручной факторизации матрицы, поскольку в настоящее время для этой цели используются различные компьютерные программы. Для читателя, желающего ознакомиться подробно с процедурой факторизации матрицы и ее вращением, рекомен­дуем обратиться к книге: Окунь Я. Факторный анализ / Пер. с польск.; Под ред. Г. 3. Давидовича. — М.: Статистика, 1974.

Определение надежности теста - student2.ru Таблица 3.5

Матрица факторных весов с вращением и без вращения рейтинговых оценок по шкале оценки личности преподавателя (данные получены с помощью программы SPSSA)

Задание     Факторные веса      
Матрица до вращения   Матрица после вращения Доля
А В С А' В' С"  
0,754 -0,271 0,250 0,783 0,090 0,288 0,704
0,708 -0,281 0,415 0,853 0,089 0,131 0,752
0,689 -0,206 -0,440 0,303 0,015 0,786 0,710
0,702 -0,392 0,240 0,790 -0,041 0,280 0,704
0,674 0,063 -0,500 0,148 0,243 0,792 0,708
0,442 0,477 0,402 0,353 0,669 -0,113 0,585
0,714 -0,216 -0,485 0,298 0,009 0,838 0,791
0,434 0,573 -0,257 -0,082 0,649 0,392 0,582
0,594 -0,201 0,330 0,691 0,102 0,120 0,502
0,408 0,769 0,063 0,011 0,867 0,100 0,762
0,388 0,718 0,122 0,052 0,822 0,048 0,681

Факторная матрица после вращения представлена в колонках А',В'иС табли­цы. Доля дисперсии каждого задания та же самая, что и в факторной матрице до вращения факторов, но факторы, полученные после вращения, легче интерпрети­ровать, чем в матрице до вращения. Вращение варимакс является процедурой ор­тогонального вращения,в которой факторные оси остаются перпендикулярны­ми друг к другу. В противоположность этой процедуре факторные оси при обличе-ском(косоугольном) вращении формируют острые или тупые углы по отношению друг к другу. Ортогональные факторы обычно легче интерпретировать, чем ко­соугольные, поскольку эти факторы не коррелируют друг с другом (независимы).

При интерпретации факторной матрицы после вращения следует обратить особое внимание на задания, которые имеют вес 0,50 и выше по данному фактору. Четыре задания — 1 (тактичный), 2 (вежливый), 4 (доброжелательный) и 9 (тер­пеливый) — имеют высокие нагрузки по фактору А'. Соответственно подходящим названием для этого фактора могло бы быть такое обозначение, как «деликат­ность» или «вежливость». Еще четыре задания имеют высокие нагрузки, но уже по фактору В': 6 (осведомленный), 8 (организованный), 10 (подготовленный) и 11 (пунктуальный), значит, соответствующим наименованием фактора В'могло бы быть «готовность». Наконец, три задания имеют высокие нагрузки по факто­ру С": 3 (креативный), 5 (увлеченный) и 7 (способный мотивировать); подходя­щим обозначением этого фактора могло бы быть — «стимулирующий» или «мо­тивирующий». Эти три фактора приобретают психологический смысл при опре­делении типа личности преподавателя, который предпочитают студенты.

Определение надежности теста - student2.ru SPSS — Статистический пакет для социальных наук (Statistical Package for the Social Sciences).

166 Глава 3. Психометрические основы психодиагностики: основные этапы.-

Безусловно, имеется гораздо больше приложений для факторного анализа, чем те, на которых мы остановились. Сегодня факторному анализу посвящено множе­ство книг и статей. В то же время существуют значительные разногласия не толь­ко относительно наилучших процедур факторизации и вращения факторов, но и в отношении их интерпретации. Тем не менее факторный анализ был и остается одним из наиболее мощных инструментов психолога, разрабатывающего тесты.

Валидность теста

Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее.

Тест называется валидным,если он измеряет то, для измерения чего предназначен.

Очевидная валидность— описывает представление о тесте, сложившееся у ис­пытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то ме­ре трепет медицинским диагностическим инструментарием. Очевидная валид­ность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикация­ми в популярных газетах и журналах того, что можно назвать квазитестами, с по­мощью которых читателю предлагается определить все, что угодно: от интеллек­та до совместимости с будущим супругом.

Конкурентная валидностьоценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установ­лена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых пе­ременных, а новые создаются для того, чтобы улучшить качество измерения. В са­мом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

Прогностическая валидностьустанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свой­ство, но в более позднее время. Например, прогностическая валидность какого-либо теста интеллекта может быть показана корреляцией его показателей, полу­ченных у испытуемого в возрасте 10 лет, с академической успеваемостью в пери­од окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследо­ватель, пытающийся установить прогностическую валидность своего теста, состо­ит в выборе внешнего критерия. В особенной степени чаще всего это касается из­мерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколь­ко проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же вре-

Определение надежности теста - student2.ru мя хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.

Инкрементная валидностьимеет ограниченное значение и относится к слу­чаю, когда один тест из батареи тестов может иметь низкую корреляцию с крите­рием, но не перекрываться другими тестами из этой батареи. В этом случае дан­ный тест обладает инкрементной валидностью. Это может быть полезно при про­ведении профотбора с помощью психологических тестов.

Дифференциальная валидностьможет быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успева­емостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

Содержательная валидностьопределяется через подтверждение того, что за­дания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбирают­ся эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, гене­рируются задания теста, которые вновь оценивают эксперты.

Конструктная валидностьтеста демонстрируется полным, насколько это воз­можно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl, 1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчер­кивали, что во многих случаях ни один отдельно взятый критерий не может слу­жить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса: 1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструкт­ной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологиче­ская и выходит за рамки валидности (подробнее см. гл. 2).

Из вышесказанного следует, что не существует какого-либо единичного пока­зателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидно­сти теста, что потребует от него психологических знаний и интуиции.

Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стан­дартизированы,а это позволяет сравнить показатели, полученные одним испы­туемым, с таковыми в генеральной совокупности или соответствующих группах.

1 68 Глава 3. Психометрические основы психодиагностики: основные этапы...

Определение надежности теста - student2.ru Тем самым достигается адекватная интерпретация показателя отдельного испы­туемого. Таким образом, стандартизация теста наиболее важна в тех случаях, ког­да осуществляется сравнение показателей обследуемых. При этом вводится поня­тие нормы,или нормативных показателей.Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности до­статочной будет выборка из 500 испытуемых. Однако репрезентативность выбор­ки не зависит от ее объема. Например, для того чтобы получить нормативные по­казатели для всей популяции детей, обучающихся в начальной школе, потребует­ся выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандар­тизации или стратифицировать группу стандартизации относительно таких пара­метров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обя­зательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:

Определение надежности теста - student2.ru

где SD — стандартное отклонение; X2 — результат всего опросника всех испытуе­мых; п — количество испытуемых; 2 — сумма.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели,удовлетворяющий большинству требований, предъ­являемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получа­ют двумя путями: линейным и нелинейным преобразованием первичных («сы­рых») оценок. В случае линейного преобразования сохраняются все свойства ис­ходного распределения «сырых» оценок, и такие показатели называются стандарт­ными или z-показателями. Для вычисления z-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандарт­ное отклонение нормативной группы. Формула имеет вид:

Определение надежности теста - student2.ru

Здесь необходимо сказать о том, что основной причиной преобразования пер­вичных оценок в некоторую производную шкалу является желание получить по­казатели, которые сопоставимы между собой вне зависимости от того, по какому

Определение надежности теста - student2.ru тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения «сырых» оценок, по кото­рым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандарт­ным показателям.Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводит­ся процент случаев, приходящихся на участки, которые отстоят от среднего нор­мальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нор­мализованного стандартного показателя. Эти показатели, как и линейно преоб­разованные, будут иметь среднее (X), равное 0, и стандартное отклонение (SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соот­ветствующую среднему нормальной кривой, превосходя 50 % группы. В случае, если показатель равен — 1, испытуемый превосходит примерно 16 % группы, а ес­ли +1 — превосходит 84 % группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый «Г-показатель» и в этом случае Т, равное 50, соответствует среднему, равному 60 — превышает среднее на одно стан­дартное отклонение и т. д. С другими, не менее популярными нелинейными пре­образованиями «сырых» показателей теста, можно ознакомиться в соответствую­щей литературе1.

Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени не­обходим пересмотр(ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предполо­жить, что процесс их старения будет ускоряться. Для наглядности этапы конст­руирования теста представлены на рис. 3.1.

Пример из практики: определение надежности опросника 16 РРКеттелла.Личностный опросник Раймонда Кеттелла 16 Pi7 (16 личностных факторов) от­носится к наиболее распространенным психодиагностическим инструментам и не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непро­фессионально, с нарушением всех норм и правил, предъявляемых к психологиче­ским тестам.

Кроме различных переводов опросника, которые существенно отличаются один от другого, врусскоязычной литературе часто встречаются иразличные

Определение надежности теста - student2.ru 1 См., напр., БурлачукЛ. Ф., Морозов С. М, Словарь-справочник по психодиагностике. — СПб.: Питер, 1999, а также Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер. с англ. — М.: Прогресс, 1976.

Определение надежности теста - student2.ru Определение надежности теста - student2.ru

Рис. 3.1. Этапы конструирования теста

«ключи» к его факторам. Опубликованные в многочисленных сборниках и бро­шюрах варианты опросника не защищены (!) от ошибок и произвольного вмеша­тельства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отече­ственных выборках, то непонятно, какого рода результаты получали его многочи­сленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ста­вилась задача проверки факторной структуры 16PFna национальных выборках:

Определение надежности теста - student2.ru это статьи В. М. РусаловаиО. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль-ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множе­ством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощью опросника 16PFизмеряется нечто, имеющее неясное отношение к факторам лич­ности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст иссле­дуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или сред­нее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

Как известно, точность измерения с помощью психодиагностического инстру­мента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально по­лученные нами, были оценены по авторским ключам на внутреннюю согласован­ность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:

Определение надежности теста - student2.ru

где а — коэффициент Кронбаха; г — количество заданий теста; S2 — дисперсия по j-му пункту теста; 5^ — дисперсия суммарных баллов по всему тесту.

В табл. 3.6 содержатся данные о внутренней согласованности факторов лично­сти, полученные по авторским «ключам» (приведено буквенное обозначение фак­тора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетвори­тельно для большинства факторов. А фактор N вообще измеряет нечто, не имею­щее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор /•'(сургенция—десургенция) и фактор Н пармия—тректия (сме­лость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или суще­ствования известных культурных различий.

Для того чтобы выявить, что же именно стоит за данными, получаемыми с по­мощью 16PF, мы использовали факторный анализ. Факторы извлекались методом

Определение надежности теста - student2.ru 1 Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталию Духневичу.

172 Глава 3. Психометрические основы психодиагностики: основные этапы...

Определение надежности теста - student2.ru Таблица 3.6

Данные о внутренней согласованности

по факторам личности, выделенным Кеттеллом

Определение надежности теста - student2.ru Обозначение фактора

Коэффициент Кронбаха

 
  Определение надежности теста - student2.ru


А 0,335699
С 0,293849
Е 0,210113
F 0,640528
G 0,403974
Н 0,727452
I 0,521693
L 0,172452
М 0,138720
N 0,005232
0 0,443746
Q^ 0,002209
Q.2 0,379002
  0,452439
Ол 0,486635
Определение надежности теста - student2.ru

Рис. 3.2. Диаграмма собственных значений, на основе которой принималось решение о количестве факторов

главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений — scree-plot (рис. 3.2). На так называемом «графике осы­пи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно рас­положены так называемые «шумящие» факторы. Этот критерий позволяет выде-

Определение надежности теста - student2.ru Определение надежности теста - student2.ru лить гораздо меньшее число факторов, чем применяемый большинством пользо­вателей статистических пакетов метод Кайзера, базирующийся на величине соб­ственного значения фактора. Вращение факторов производилось методом VARIMAX с нормализацией по Кайзеру. Коэффициенты факторных баллов были вычислены методом регрессии. Статистическая обработка производилась с помо­щью программы SPSS для Windows (версия 5.0). В качестве значимых рассматри­вались нагрузки заданий, которые по абсолютной величине превосходили 0,3. Данная граница была принята по следующим соображениям: поскольку нагрузка представляет собой коэффициент корреляции задания и фактора, при данном его объеме эта величина является значимой и позволяет объяснить до 10 % вариации задания. Как показывает опыт, установление более высокой границы приводит к резкому падению согласованности шкалы, особенно при кросс-валидизации. При этом заметим, что небольшое количество наших испытуемых, конечно, не репре­зентирует генеральную совокупность. Кроме того, нами не проводилось исследо­вание стойкости факторного решения, полученного в исследовании (кросс-вали-дизация). Наконец, задания по фактору В, а также задания 1,2 и 187 были исклю­чены из анализа.

Обычно на таком графике кривая имеет две точки изгиба. Для интерпретации оставляют те факторы, которые размещены перед вторым изгибом кривой. Полу­чается, что в нашем случае следует оставить 7 факторов. Интересно, что прибли­зительно такое же количество факторов обнаруживается в большинстве исследо­ваний структуры личностной лексики в разных языках и совокупностей заданий личностных опросников. Выделенные факторы были интерпретированы следую­щим образом.

1. Тревожность — эмоциональная стабильность.

2. Энергичность, активность — пассивность.

3. Настойчивость, уверенность в себе — покорность, подверженность влия­
нию.

4. Сила Сверх-Я — слабость Сверх-Я (данный фактор соответствует факто­
ру G Кеттелла).

5. Обособленность — зависимость от группы (этот фактор соответствует фак­
тору Q2 Кеттелла).

6. Рациональность, практичность — мечтательность.

7. Импульсивность — сдержанность, самоконтроль.

Интересным представляется тот факт, что лишь три отмеченных фактора со­ответствуют тем, которые выделены Кеттелом. Это, на наш взгляд, свидетельству­ет о том, что данные факторы (G, <2з и Q2) настолько устойчивые характерологиче­ские конструкты, что имеет сходство в англоязычной и русскоязычной культурах. Также заслуживает внимание тот факт, что большинство факторов соответствуют факторам, полученным в других работах (Виноградов, 1997). Это еще раз подтвер­ждает надежность полученных результатов.

Нагрузки заданий опросника по семи факторам приведены в табл. 3.7 (вклю­чены нагрузки, абсолютное значение которых не менее 0,3).

174 Глава 3. Психометрические основы психодиагностики: основные этапы...

Определение надежности теста - student2.ru Таблица 3.7

Выделенные факторы и вопросы, их определяющие

Определение надежности теста - student2.ru Фактор Вопросы с ключевыми Вопросы с ключе-

ответами а выми ответами Ъ

Определение надежности теста - student2.ru 1. Тревожность- 18, 32, 35, 43, 49, 61, 74, 25, 44, 62, 93, 100,
эмоциональная стабильность 85, 86, 94, 99, 118, 123, 179

124, 145, 149, 154,161, 164, 170, 174

2. Энергичность, активность- 10, 33, 97, 110, 111, ИЗ, 27, 35, 61, 72, 82,
пассивность 135, 156, 180, 182,184, 186 106

3. Настойчивость, уверенность в себе- 5, 15, 20, 23, 47, 65, 90, 4, 17, 41, 45, 59,
покорность, подверженность влиянию 107, 119, 131, 142,160,173 81,172, 175

4. Сила Сверх-Я- 12, 40, 48, 63, 68, 73, 75, 9, 84
Слабость Сверх-Я 98,144, 169,176, 185

5. Обособленность- 56, 71, 79, 88, 121, 146,171 34,122
зависимость от группы

6. Рациональность, практичность- 11, 26, 62, 72, 87, 157, 158, 23, 36, 37, 58, 83,
мечтательность 185 84,112,116,132,

135,138, 163

7. Импульсивность- 7, 24, 29, 47, 66, 67, 69, 80, 37,104, 138, 139
сдержанность 133,136, 154,183

Определение надежности теста - student2.ru Вопросы, «работающие» на выделенные факторы, были подвергнуты стати­стической обработке с последующим анализом полученных показателей внутрен­ней согласованности. Результаты представлены в табл. 3.8.

Таблица 3.8

Значение Коэффициента Кронбаха для выделенных факторов

Определение надежности теста - student2.ru Фактор а

1. Определение надежности теста - student2.ru Тревожность — эмоциональная стабильность 0,7878

2. Энергичность, активность — пассивность 0,7535

3. Настойчивость, уверенность в себе — покорность, подверженность влиянию 0,8117

4. Сила «Сверх-Я» — Слабость «Сверх-Я» 0,7203

5. Обособленность — зависимость от группы 0,6726

6. Рациональность, практичность — мечтательность 0,7769

7. Импульсивность — сдержанность 0,6797

Определение надежности теста - student2.ru Нетрудно убедиться, что значения коэффициента надежности—согласованно­сти Кронбаха достаточно велики для выделенных факторов, а это свидетельству­ет об однородности построенных шкал. Поскольку не существует формальных способов проверки гипотезы о равенстве нулю коэффициента Кронбаха, в своей работе мы использовали его лишь в качестве дескриптивной меры согласованно­сти заданий исходных и полученных с помощью факторного анализа шкал. На­помним, что для шкал опросников наиболее характерны значения коэффициента Кронбаха в диапазоне 0,6-0,8.

Определение надежности теста - student2.ru На завершающем этапе исследования нами были рассчитаны среднее и стан­дартное отклонения для новых и оригинальных ключей1 (табл. 3.9, ЗЛО).

Таблица 3.9

Нормативные данные для выборки из 227 испытуемых

(новые «ключи») ____________________________________________

Среднее Стандартное
отклонение отклонение
2,1507 0,8355
1,5707 0,7552
1,6391 0,8400
1,4560 0,7097
2,0528 0,8491
2,1188 0,8375
2,1360 0,8490

Название фактора

Определение надежности теста - student2.ru Тревожность — эмоциональная стабильность Энергичность, активность — пассивность Настойчивость, уверенность в себе — покорность, подверженность влиянию Сила «Сверх-Я» — Слабость «Сверх-Я» Обособленность — зависимость от группы Рациональность, практичность — мечтательность Импульсивность — сдержанность

Определение надежности теста - student2.ru Таблица 3.10

Нормативные данные для выборки

из 227 испытуемых (оригинальные «ключи»)

Фактор Среднее Стандартное
  отклонение отклонение
А 1,5606 0,7704
В 1,6828 0,6108
С 1,8137 0,7763
Е 1,9089 0,7897
F 1,9121 0,8106
G 1,5845 0,7426
Н 1,6498 0,7799
I 1,7908 0,8645
L 2,0663 0,7904
М 2,0976 0,8572
N 1,9311 0,8333
О 2,1389 0,8401
а 1,9105 0,8567
  2,0923 0,8941
а 1,6092 0,7500
  2,1361 0,8414

Результаты проведенного исследования позволили ответить на вопрос о том, насколько мы точны в измерении факторов, постулированных Кеттеллом. Пред-

Определение надежности теста - student2.ru Для получения стандартного показателя из «сырого» балла вычитается среднее и делится на стан­дартное отклонение по шкале. Этот показатель в будущем будет использоваться для того, чтобы привести полученные данные к стандартной шкале. В нашем случае это шкала стенов (от 1 до 10, со средним 5,5 и стандартным отклонением 2).

Определение надежности теста - student2.ru 1Т6 Глава 3. Психометрические основы психодиагностики: основные этапы...

Определение надежности теста - student2.ru варительные нормативные данные могут служить ориентиром для заключений об относительной степени выраженности у испытуемого некоторых личностных черт. Памятуя об ограниченности выборки, отметим, что новые «ключи» и нормы следует использовать с известной осторожностью.

Заключение

Подводя итоги вышеприведенного, достаточно краткого рассмотрения психомет­рических основ психодиагностики, хотелось бы подчеркнуть, что измерение че­ловеческого поведения — необычайно сложная задача. Основная проблема заклю­чается в том, что речь идет об измерениях во внефизической сфере, сфере гума­нитарной науки, а используемый математико-статистический аппарат призван обслуживать (и успешно обслуживает) прежде всего измерение физических яв­лений. Вполне понятно желание многих исследователей предельно объективиро­вать психологическое измерение, задавая такие требования к тестам, как надеж­ность, дискриминативность, валидность. Соответствие этим требованиям зача­стую представляется как условие точности и объективности наших измерений. В то же время зачастую не учитывается, что гуманитарные науки накладывают на процесс измерения множество ограничений. Формализация и количественные методики, математические модели в психодиагностике никогда не смогут заме­нить разработку теоретических конструктов, фундаментальных принципов иссле­дования. Достаточно четко это прослеживается в развитии понятия валидности теста — его важнейшей характеристике как исследовательского инструмента. Понятие конструктной валидности, вобравшее в себя все подходы к определению валидности, — яркий пример того, что в конструировании тестов нельзя ограни­читься математическими расчетами, как бы достоверны и убедительны они ни бы­ли. Без полного, насколько это возможно, психологического описания перемен­ной (конструкта), для измерения которой предназначается тест, без формулиро­вания гипотез о его результатах в свете того, что нам известно об этой переменной, процесс создания теста становится упражнением из математической статистики. Разработка тестов — творческий акт исследователя, и именно поэтому известных и завоевавших популярность методик, несмотря на множество изобилующих ре­цептами «кулинарных» книг по их изготовлению, не так уж и много, что хорошо известно любому психологу-практику.

Глава 4

Измерение интеллекта

Люди отличаются от других животных интеллек­том. Человеческий интеллект отличается от интел­лекта машин. Интеллект детей отличается от интел­лекта взрослых. Также есть отличия в интеллекте человеческих существ одного и того же возраста... Энциклопедия психологии

Психологическая диагностика располагает огромным арсе­налом разнообразных методик (тестов), позволяющих уста­новить индивидуальные различия между людьми по тем или иным психологическим признакам. Особую группу этих методик составляют те, которые созданы для измере­ния уровня интеллектуального развития.

Проблема измерения интеллекта, как уже говорилось в главе 1, — одна из наиболее дискуссионных, волнующих не только психологов, но и широкую общественность. Приме­нение тестов интеллекта, раскрывающих индивидуальные различия в способностях, а тем самым дифференцирующих людей на более и менее способных, имеет серьезные социаль­ные последствия и сопряжено со значительными этически­ми проблемами.

В нашей стране тесты интеллекта широко применялись в 1920-1930-е гг. (по данным А. Шуберт, 1930, в период 1920-1930-х гг. в стране использовалось 25 отечественных и 17 зарубежных тестов, значительная часть которых пред­назначалась для диагностики интеллекта). Это были годы массового применения тестов в народном образовании, профориентации и профотборе. Прекращение тестирова­ния по идеологическим соображениям в середине 1930-х гг. (см. гл. 1) лишило психологию инструментов измерения уровня интеллектуального развития. «Второе пришествие» тестов измерения интеллекта в СССР, напомним, происхо-

Определение надежности теста - student2.ru дит в 1970-е гг.1 Это были в основном американские тесты, многие из которых име­ли длительную историю развития, опыт работы с ними передавался от одного по­коления зарубежных психологов к другому. За тестами, естественно, потянулся и шлейф всех тех проблем, которые возникают при измерении интеллекта, проблем, во многом остающихся новыми или малоизвестными для нас и по сегодняшний день.

Предполагается, что эти тесты предназначены для измерения интеллекта. Энциклопедии и справочники по психологии дают различные определения этого понятия. Так какой же интеллект измеряют тесты? В зарубежной психодиагно­стике сформировалась психометрическая модель интеллекта, которая обычно признается традиционной. Эта модель базируется на следующих положениях.

1. Допускается существование единой всепроницающей способности, назван­
ной общим интеллектом, или G (см. подробнее в главе 1 раздел, посвящен­
ный исследованиям Ч. Спирмена).

2. Общий интеллект имеет биологическую основу, а в соответствии с этим
высоко коррелирует с наследственностью (/г) и различными психофизио­
логическими показателями.

3. Тесты интеллекта измеряют биологический интеллект.

Психометрическая модель интеллекта постоянно развивается и уточняется многочисленными исследованиями, в которых устанавливаются связи между IQ и скоростью передачи нервного сигнала, временем реакции, параметрами вызван­ных потенциалов и т, д. и т. п. Только лишь обзоры этих исследований занимают многие сотни страниц в современной зарубежной психологической литературе. Насколько правомерна традиционная психометрическая модель интеллекта? Воз­можны ли иные представления о его природе, а тем самым о том, что измеряется тестами интеллекта? Каковы причины индивидуальных различий в уровне раз­вития интеллекта? Ответам на эти вопросы и будет посвящена данная глава.

Наши рекомендации