Методы анализа данных в психодиагностике

В психологии существуют два основных направления исследования личности: подход на основе выделения черт личности и типологичес­кий подход [Мейли, 1975; Мельников, Ямпольский, 1985]. Первый предполагаетсуществование конечного набора базисных качествигла-сит, что личностные различия определяются степенью их выраженно­сти. При типологическом подходе исходят из постулата, что тип лич­ности является целостным образованием, не сводимым к комбинации отдельных личностных факторов.

Черты объединяют группы тесно связанных признаков и выступа­ют как интегральные характеристики, обобщающие информацию, содержащуюся в данной группе признаков. Число черт определяет раз­мерность личностного пространства. Типы объединяют группы похо­жих испытуемых и составляют иной набор объяснительных понятий, где в качестве имени понятия выступает название соответствующего типа, а содержание раскрывается описанием типичного (или усреднен­ного) представителя. Иными словами, подход на основе черт требует группировки личностных признаков, а подход на основе типов - груп­пировки испытуемых.

Для решения каждой из этих задач существуют специальные мате­матические методы и модели. Наиболее часто для группировки при­знаков используются корреляционный анализ, метод главных компо­нент, факторный анализ, а для группировки испытуемых - кластерный анализ и дискриминантный анализ. Эти методы являются двумя спо-

Компьютерная психодиагностика

собами формирования обобщений на основе таблицы эксперименталь­ных данных. Они позволяют «сжать» информацию за счет выделения неоднородностей в структуре связей между признаками или испытуе­мыми. В результате таблица экспериментальных данных разбивается на некоторые подгруппы, которые представляют собой обобщения совокупности данных.

Таким образом, математические методы анализа данных осуществ­ляют обработку таблицы экспериментальных данных, как минимум, двумя способами: путем группировки признаков личности (обобще­ние по столбцам экспериментальной таблицы) и путем группировки испытуемых (обобщение по строкам экспериментальной таблицы).

Основанием для группировки признаков или испытуемых служат две фундаментальные категории взаимоотношений между элемента­ми ТЭД. Это категории сходства и различия. При группировке при­знаков сходство и различие выражается мерами связи признаков, а при группировке испытуемых - мерами близости (удаления).

^уппировка признаков.Обобщение данных путем группировки при­знаков (по столбцам) состоит в выделении из таблицы эксперимен­тально-психологических данных групп тесно связанных признаков при помощи различных мер связи корреляционного анализа, факторного анализа, иногда кластерного анализа.

В случае использования различных мер связи корреляционного ана­лиза от таблицы экспериментальных данных (ТЭД) переходят к таб­лице связи (ТС), задающей отношение «признак-признак» и представ­ляющей собой симметричную таблицу размера Рна Рследующего вида:

Таблица 1.4

$,   о„
$■   13;,
     
$,   о„

Здесь 5, - мера связи между признаками У, и У,

^^^^^^^ед^^Тсобой^о^б^зие } методов исследования параметров генеральной совокупнос­ти, распределенной по нормальному закону, и позволяет с помощью выборки делать выводы о степени статистической связи (мера связи) между признаками.

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Известно большое количество мер связи между признаками. Они различаются как объемом вычислений, так и теми аспектами связи, которые отражают. Различные авторы предлагают разные основания для классификации этих мер связи. С точки зрения используемых прин­ципов связи меры связи делят на две большие группы. К первой груп­пе относятся меры связи, использующие принцип ковариации, а ко второй - принцип сопряженности признаков.

Принцип ковариации предполагает, что заключение о наличии связи между переменными делается в том случае, когда увеличение значе­ний одной переменной сопровождается устойчивым увеличением или уменьшением значений другой переменной.

К этой группе, прежде всего, относится коэффициент корреляции Пирсона, который является мерой линейной связи двух переменных Г,и)> вычисляется по формуле:

%=^==, где Цу=хЕ(Ъ-«*№/-*;), a т]=]^Уу.

К этой же группе относятся коэффициент ранговой корреляции Спирмена, бисериальный коэффициент корреляции, коэффициент ранговой корреляции Тау Кендалла, а также рангово-бисериальный коэффициент корреляции Кертена и Гласса.

Принцип сопряженности дает вторую обширную группу мер связи, которая направлена на выяснение следующего факта: появляются ли некоторые значения одного признака одновременно с определенны­ми значениями другого чаще, чем это можно объяснить случайным стечением обстоятельств. В этом случае фиксируется только сам факт наличия или отсутствия интересующих значений признака, независи­мо от их количественного выражения.

Общим, как бы переходным, для первой и второй групп мер связи является популярный в психодиагностических исследованиях коэф­фициент четырехклеточной сопряженности Пирсона (ф), который предназначен для измерения связи двух дихотомических признаков. Так, например, при исследовании зависимости между выздоровлени­ем больного и обращением к врачу можно составить следующую таб­лицу:

Таблица 1.4

Обращение больной, к врачу больнопжврачу Результат лечения
Быстрое выздоровление Медленное выздоровление |
Обращался а Ъ
Необращался с d

Компьютерная психодиагностика

Здесь а,b,c,d- числа, соответствующие количеству объектов, об­ладающих свойством, из столбца и строки. Тогда связь между этими признаками (обращение к врачу и результат лечения) принято изме­рять с помощью коэффициента

аЛ-Ьс ^ ^а+Ь)(с+<1)(a+c)(b+d) ' К этой группе мер связи относятся коэффициенты Чупрова, Кра­мера, контингенции Пирсона и т. д.

В следующей таблице представлены рекомендуемые меры связи между различными типами признаков [Дюк, 1994].

Таблица 1.5

,-, Типпризнака
Дихотомический Ранговый Количественный
Дихотомический   —=.  
Ранговый   2.ТауКендалла(т) 2.ТауКендалла(т)
Количественный     ЕЙЕГ

Для вычисления корреляций на компьютере можно использовать, например, систему 5ТАТ15Т1СА, модуль «Основные статистики и таб­лицы». Содержащийся в этом модуле раздел «Корреляции» включает большое количество средств, позволяющих исследовать зависимости между переменными. Существует возможность вычисления практичес­ки всех общих мер зависимости, включая коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмена, Тау Кендал-ла, Гамма, коэффициент сопряженности признаков и многие другие. Корреляционные матрицы могут быть вычислены и для данных с про­пусками, в этом случае используются специальные методы обработки пропущенных значений. Используя модуль «Менеджер мегафайлов», можно вычислять корреляционные матрицы практически неограни­ченных размеров (до 32000 на 32000).

Вычисленные корреляционные матрицы выводятся в виде элект­ронных таблиц ЗсгоПзпе*. Они могут быть сохранены в формате фай-

Глава 1. Психометрическая парадигма конструирования тестов и шкал

лов с исходными данными, а затем обработаны с помощью статисти­ческого анализа любого типа.

В системе 5ТАТ15Т1СА имеется широкий набор возможностей для работы с таблицами 8сгоШпеet. В частности, существуют возможнос­ти разделения их прокрутки, если таблицы очень большие, интерак­тивного выбора числовых форматов, маркировки значений и т. д. Та­ким образом, большие матрицы могут быть сжаты, что облегчает визуальный поиск значимых коэффициентов корреляции. Для визуа­лизации корреляционных матриц при поиске глобальных структур могут быть использованы различные графические методы (например, контурные графики, графики поверхностей и др.). Все эти операции требуют лишь нескольких щелчков мыши.

Обобщениеданныхпутемгруппировкипризнаковтакжеосуществ-ляет факторный анализ

} тодов для преобразования исходного набора признаков к бо­лее простой и содержательной форме. Он базируется на пред­положении, что наблюдаемое поведение испытуемого может быть объяснено с помощью небольшого числа скрытых ха­рактеристик, называемых факторами.

В табличном виде работа методов факторного анализа представля­ется как разбиение таблицы экспериментально-психологических дан­ных по столбцам на подтаблицы, каждая из которых соответствует од­ной группе сильно коррелирующих признаков. При этом исходный прямоугольник ТЭД разрезается на вертикальные полосы так, что каж­дая полоса содержит информацию обо всех испытуемых, но не по всем признакам, а только по группе сильно коррелирующих признаков.

Помимо разбиения таблицы данных на вертикальные полосы (груп­пы сильно коррелирующих признаков), факторный анализ формирует новый обобщающий вертикальный столбец (комплексный признак-фактор), который в конденсированном виде содержит основную инфор­мацию об испытуемых по всем столбцам соответствующей полосы. Это сжатие может быть изображено как замена таблицы с большим числом столбцов на таблицу с малым числом столбцов, равным числу факторов и хорошо описывающим все столбцы исходной таблицы данных.

Основные задачи факторного анализа перечислены ниже.

1. Исследования структуры взаимосвязи переменных. В .том слу­чае каждая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.

Компьютерная психодиагностика

2. Идентификация факторов как скрытых (латентных) переменных, которые могут рассматриваться как причины взаимосвязи исходных переменных.

3. Вычисление значений факторов для испытуемых как новых, ин­тегральных переменных. При этом число факторов существенно мень­ше числа исходных переменных, что сокращает количество признаков с минимальными потерями исходной информации.

Методы факторного анализа - это различные способы получения факторной структуры при заданном числе факторов. К наиболее часто применяемым методам относятся анализ главных компонент, анализ главных факторов, факторный анализ с итерациями по общностям и метод максимального правдоподобия.

Факторному анализупосвященоболыпоеколичествоисследований, и он широко представлен в литературных источниках [Дюк, 1997; На-еледов, 1999].

В системе 5ТАТ15Т1СА содержится модуль «Факторный анализ» (Расюr Апа1ум8), предназначенный для сжатия данных или выделения основных общих факторов, влияющих на наблюдаемые характеристи­ки сложного объекта и объясняющих связи между ними. Он включает в себя, в частности, метод главных компонент, метод минимальных остатков, метод максимального правдоподобия с расширенной диаг­ностикой и чрезвычайно широким набором аналитических и разведоч­ных графиков. Модуль может выполнять вычисление главных компо­нент общего и иерархического факторного анализа с массивом, содержащим до 300 переменных. После того как решение определено, можно пересчитать корреляционную матрицу от соответствующего числа факторов для того, чтобы оценить качество построенной модели.

Группировка испытуемых.Обобщение данных путем группировки испытуемых (по строкам ТЭД) представляет собой группировку испы­туемых по степени их близости (удаленности) в пространстве измеряе­мых признаков.

7Ъблицаблизостей(уд}тснноскй)(ТБ) задает отношение «объект-объект» и представляет собой симметричную таблицу п на п с неотри­цательными элементами следующего вида:

Таблица 1.6

А,   А,
А,   А,
     
А,   А,

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Элементы таблицы ^являются значениями некоторой меры бли­зости (удаленности) между объектами Xj и X,

Структуру взаимоотношений объектов исследования можно трак­товать как некоторую геометрическую конфигурацию точек в много­мерном пространстве признаков, если элементы таблицы удовлетво­ряют следующим требованиям.

1. Максимальное сходство объекта с самим собой, то есть Л, = тшА,

2. Симметричность, то есть Д,= Л,

3. Выполнение неравенства треугольника, то есть Д, + /)<, > Я,.

Ниже представлены наиболее распространенные меры расстояния между объектами.

Евклидово расстояние вычисляется по следующей формуле:

Эта мера может применяться для вычисления расстояния между объектами, описанными количественными, качественными и дихото­мическими признаками. Ее использование целесообразно, когда при­знаки однородны по смысловой нагрузке и одинаково важны для ре­шаемой задачи.

Расстояние Минковского вычисляется следующим образом:

М

Это расстояние еще называют «городской метрикой», поскольку расстояние между точками определяется аналогично расстоянию вдоль взаимно перпендикулярных улиц городских кварталов [Александров и др., 1990; Дюк, 1994]. Городская метрика применяется для измерения расстояния между объектами, описанными порядковыми признаками. Показатель 1к (Х„ X) равен разнице номеров градаций по к-щ призна­ку у сравниваемых объектов X, и X,

Существуют два основных варианта постановки задачи группиров­ки испытуемых:

□ группировка испытуемых на заданные группы;

□ группировка испытуемых на незаданные группы.

Группировка испытуемых на заданные группы предполагает, что име­ются результаты многомерного психологического исследования не­скольких групп испытуемых и о каждом испытуемом заранее известно,

Компьютерная психодиагностика

к какой группе он принадлежит. Такие группы испытуемых называют­ся обучающей выборкой, или внешним критерием. Например, в задаче профотбора это могут быть группы хороших и плохих специалистов, при исследовании полового диморфизма - испытуемые разного пола, при педагогических исследованиях - группы школьников, различаю­щихся по успешности обучения, дисциплинированности, обществен­ной активности, возрасту и т. п.

Задача заключается в том, чтобы найти правило разбиения испытуе­мых на заданные группы по психологическим характеристикам. Для решения этой задачи используются методы обучения распознаванию обра­зов с учителем [Мельников, Ямпольский, 1985], или иначе их еще на­зывают методами, использующими внешний критерий. К ним относятся множественный регрессионный анализ и дискриминантный анализ.

Эти методы основываются на предположении, что существует та­кое многомерное пространство психологических характеристик, в ко­тором точки, представляющие испытуемых одной группы, расположе­ны кучно и «далеко» от точек, представляющих испытуемых другой группы. В этом случае может быть построена поверхность, разделяю­щая испытуемых разных групп. Методы и подходы анализа данных различаются между собой, в частности, типом разделяющих поверх­ностей и способом их построения. Для того чтобы найти разделяющую поверхность, испытуемых представляют в виде векторов (упорядочен­ной совокупности значений индивидуальных характеристик личност­ных признаков), затем выбирается некоторое количество векторов пер­вой и второй групп (при классификации на две группы) и с помощью обучающей выборки проводится обучение. В результате методы фор­мируют разделяющее правило (в виде набора признаков или уравне­ния разделяющей поверхности), с помощью которого можно по зна­чениям психологических признаков определить, к какой группе принадлежит испытуемый.

Вв( Мноэкеспъен^^

3 ление статистической зависимости среднего значения одной случайной величины Zot нескольких других величин К, К, Ут. Эта статистическая зависимость определяется уравнением.

Z=а0 + а,У]+ a2Y2+...+ атУт+ е,

где а- (/= 1,..., т) являются искомыми параметрами, а е - век­тор остатков, отражающий влияние на внешний критерий не­учтенных факторов (ошибок).

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Параметр Z, как раз и определяемый внешним критерием, рассмат­ривается как «зависимая» переменная (как правило, ранговая или ко­личественная), которая выражается функцией от «независимых при­знаков» Ги Уъ Ут.

Проведение множественного регрессионного анализа позволяет осуществить два важных для конструирования тестов и шкал момента. Во-первых, определить в какой мере «зависимая» переменная связана ссовокупностью«независимых»переменных(аналитическийвидурав-нения) и оценить статистическую значимость этой взаимосвязи. В дан­ном случае показателем является коэффициент множественной кор­реляции и его статистическая значимость по /'-критерию Фишера. Во-вторых, определить существенность вклада каждой «независимой» переменной (признака), в оценку «зависимой» переменной (внешнего критерия), для отсева несущественных для исследования тестовых за­даний.

В системе 8ТАП8Т1СА есть модуль «Множественная регрессия» (МиШрк Кевгаюп), предназначенный для построения зависимостей между многомерными данными, подбора простой линейной модели и оценки ее адекватности. Этот модуль содержит исчерпывающий на­бор средств множественной линейной и фиксированной нелинейной (вчастности, полиномиальной, экспоненциальной,логарифмической и др.) регрессии, включая пошаговые, иерархические и другие мето­ды, а также ридж-регрессию.

Системапозволяетвычислить всесторонний набор статистик и рас­ширенной диагностики, в том числе полную регрессионную таблицу, частные и частичные корреляции и ковариации для регрессионных весов, матрицы прогонки, статистку Дурбина-Ватсона, расстояния Махаланобиса и Кука, удаленные остатки и многие другие. Анализ ос­татков и выбросов может быть проведен при помощи широкого набо­ра графиков, включая разнообразные точечные графики, графики ча­стотных корреляций и многие другие. Допускаются чрезвычайно большие регрессионные задачи (до 300 переменных в процедуре раз­ведочной регрессии).

3 мерных наблюдений по одной из нескольких категорий. Ме­тоды дискриминантного анализа используются тогда, когда критериальный показатель Z измерен в номинальной шкале или связь этого показателя с исходными признаками являет­ся нелинейной и носит неизвестный характер.

Компьютерная психодиагностика

Дискриминантами анализ позволяет не только интерпретировать различиямежду классами, то есть указать, насколько хорошо можно от­личить один класс от другого, используя данный набор признаков, но и определить, какие из этих признаков наиболее существенны для разли­чения классов. Принадлежность объекта к классу в большинстве ком­пьютерных программ дискриминантного анализа определяется либо по классифицирующим функциям Фишера, либо по квадрату расстояния Махаланобиса. Классифицирующая функция, или функция, принад­лежности объекта к классу, - это линейная комбинация для каждого класса, максимизирующая различия между классами и минимизирую­щая дисперсию объектов внутри класса. Функция, вычисляемая для каж­дого испытуемого по каждому классу, имеет следующий вид:

июаГиаУ21+...+ акяГя1,

где Цк - значение функции принадлежности /-го испытуемого к к-му классу; ат аки акЪ..., акт - коэффициенты, которые определяются в ходе анализа и не подлежат интерпретации.

В системе 5ТАТ15Т1СА содержится модуль «Дискриминантный ана­лиз» (ОксптшаШ Апа1у515), предназначенный для отнесения объекта по результатам измерений к одному из нескольких классов. Этот мо­дуль позволяет построить на основе ряда предположений классифика­ционное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем.

Исторически первой в дискриминантном анализе была модель Фи­шера, в которой предполагается, что наблюдаемые векторы имеют многомерное нормальное распределение с невырожденной ковариа­ционной матрицей и вектором средних, разным для разных классов. В простейших задачах распределение наблюдаемых величин задано точно для каждого класса. В сложных задачах распределение известно частично и для построения классификатора приходится привлекать до­полнительную информацию.

Модуль содержит полный набор процедур для множественного по­шагового функционального дискриминантного анализа, позволяющего выполнять пошаговый анализ, как вперед, так и назад, а также внутри определенного пользователем блока переменных в модели. В дополне­нии к многочисленным графикам и диагностикам, описывающим дискриминантные функции, предлагается широкий набор опций и ста­тистик для классификации «новых» или «старых» случаев (при оцени­вании справедливости модели).

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Группировка испытуемых на незаданные группы формулируется сле­дующим образом. Имеется многомерное психологическое описание выборки испытуемых, и требуется осуществить их разделение (или классификацию) на однородные группы, то есть такое разделение, при котором в составе выделенных групп оказались бы испытуемые, похо­жие по психологическим характеристикам. Такая постановка задачи группировки испытуемых соответствует интуитивным представлени­ям о типе личности. Для решения этой задачи используются различ­ные алгоритмы и методы кластерного анализа.

3 объектов на заданное или неизвестное число классов на ос­новании некоторого критерия качества классификации, при этом предполагается, что нет никаких допущений ни о со­ставе классов, ни об их отличии друг от друга. Известна лишь информация о признаках объектов, позволяющих судить об их сходстве (различии).

В литературе часто встречаются синонимы кластерного анализа: автоматическая классификация, таксономический анализ, анализ об­разов (без обучения).

Существуетрядзадач,прирешении которых кластерный анализявля-ется незаменимым другими многомерными методами [Наследов, 1999].

1. Разбиение однородной совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин меж­групповых различий по внешним критериям.

2. Проверка гипотез о том, проявляются ли типологические разли­чия между испытуемыми по измеренным признакам.

3. Исследование группирования признаков, в качестве которых выступают объекты, упорядочиваемые испытуемыми, например, по степени предпочтения.

4. Применение кластерного анализа как значительно более просто­го аналога факторного анализа, когда ставится задача только группи­ровки признаков без вычисления (оценки) факторов.

Несмотря на различие целей проведения кластерного анализа, мож­но выделить общую его последовательность, как ряд относительно са­мостоятельных шагов, играющих существенную роль в прикладном исследовании.

1. Отбор объектов для дластеризации. Объектами мигут быть, в за­висимости от цели исследования: а) испытуемые; б) объекты, которые

Компьютерная психодиагностика

оцениваются испытуемыми; в) признаки, измеренные на выборке ис­пытуемых.

2. Определениемножествапеременных,покоторьтбудутразличаться объекты кластеризации. Для испытуемых - это набор измеренных признаков, для оцениваемых объектов - субъекты оценки, для при­знаков - испытуемые.

3. Определение меры сходства между объектами кластеризации. Вы­бор меры сходства определяется процедурой исследования и характе­ром получаемых данных.

4. Выбор и применение метода классификации для создания групп сходных объектов. Следует иметь в виду, что разные методы кластери­зации порождают разные группировки для одних и тех же данных. В процессе кластеризации структура может привноситься в данные, со­здаваться искусственно и не соответствовать реальной.

5. Проверка достоверности разбиения на классы. Этот этап связан, прежде всего, с тем что, кластерный анализ всегда разобьет совокуп­ность объектов на классы, независимо от того, существуют ли они на самом деле. Поэтому вместо показывания существенности разбиения на классы, например, на основании достоверности различий между классами по признакам, включенным в анализ, обычно проверяют устойчивость группировки на повторной идентичной выборке объек­тов и значимость разбиения по внешним критериям, то есть по призна­кам, не вошедшим в анализ.

Модуль «Кластерный анализ» в системе 5ТАТ15Т1СА содержит все­сторонний инструментарий для кластеризации (метод ^-средних, иерархическая классификация и др.) с возможностью использовать различные метрики: евклидову, манхэттенскую, чебышевскую и др. Этотмодульпозволяетработатьсчрезвычайнообъемнымэксперимен-тальным материалом. Например, иерархическая классификация вы­полняется для стольких переменных, сколько содержит файл данных (до 90.000 расстояний); а с помощью метода ^-средних можно класте­ризовать 2100 объектов размерности 600.

В заключение следует отметить, что исследование может не огра­ничиваться только, допустим, группировкой признаков или группи­ровкой испытуемых. Очень часто и перспективно встает необходимость провести одновременную группировку признаков и испытуемых. В этом случае применяются как методы факторного анализа, так и кла­стерный анализ.

Проблеме применения математических методов в психологических исследованияхпосвященобольшоеколичестволитературы. Особо следу-

Глава 1. Психометрическая парадигма конструирования тестов и шкал

ет выделить литературу, не только дающую общие теоретические поло­жения, но и позволяющую получить практические навыки работы с ком­пьютерными программами [Дюк, 1997; Наследов, 1999; Тарасов, 1999].

Наши рекомендации