Методы анализа данных в психодиагностике
В психологии существуют два основных направления исследования личности: подход на основе выделения черт личности и типологический подход [Мейли, 1975; Мельников, Ямпольский, 1985]. Первый предполагаетсуществование конечного набора базисных качествигла-сит, что личностные различия определяются степенью их выраженности. При типологическом подходе исходят из постулата, что тип личности является целостным образованием, не сводимым к комбинации отдельных личностных факторов.
Черты объединяют группы тесно связанных признаков и выступают как интегральные характеристики, обобщающие информацию, содержащуюся в данной группе признаков. Число черт определяет размерность личностного пространства. Типы объединяют группы похожих испытуемых и составляют иной набор объяснительных понятий, где в качестве имени понятия выступает название соответствующего типа, а содержание раскрывается описанием типичного (или усредненного) представителя. Иными словами, подход на основе черт требует группировки личностных признаков, а подход на основе типов - группировки испытуемых.
Для решения каждой из этих задач существуют специальные математические методы и модели. Наиболее часто для группировки признаков используются корреляционный анализ, метод главных компонент, факторный анализ, а для группировки испытуемых - кластерный анализ и дискриминантный анализ. Эти методы являются двумя спо-
Компьютерная психодиагностика
собами формирования обобщений на основе таблицы экспериментальных данных. Они позволяют «сжать» информацию за счет выделения неоднородностей в структуре связей между признаками или испытуемыми. В результате таблица экспериментальных данных разбивается на некоторые подгруппы, которые представляют собой обобщения совокупности данных.
Таким образом, математические методы анализа данных осуществляют обработку таблицы экспериментальных данных, как минимум, двумя способами: путем группировки признаков личности (обобщение по столбцам экспериментальной таблицы) и путем группировки испытуемых (обобщение по строкам экспериментальной таблицы).
Основанием для группировки признаков или испытуемых служат две фундаментальные категории взаимоотношений между элементами ТЭД. Это категории сходства и различия. При группировке признаков сходство и различие выражается мерами связи признаков, а при группировке испытуемых - мерами близости (удаления).
^уппировка признаков.Обобщение данных путем группировки признаков (по столбцам) состоит в выделении из таблицы экспериментально-психологических данных групп тесно связанных признаков при помощи различных мер связи корреляционного анализа, факторного анализа, иногда кластерного анализа.
В случае использования различных мер связи корреляционного анализа от таблицы экспериментальных данных (ТЭД) переходят к таблице связи (ТС), задающей отношение «признак-признак» и представляющей собой симметричную таблицу размера Рна Рследующего вида:
Таблица 1.4
$, | о„ | |
$■ | 13;, | |
$, | о„ |
Здесь 5, - мера связи между признаками У, и У,
^^^^^^^ед^^Тсобой^о^б^зие } методов исследования параметров генеральной совокупности, распределенной по нормальному закону, и позволяет с помощью выборки делать выводы о степени статистической связи (мера связи) между признаками.
Глава 1. Психометрическая парадигма конструирования тестов и шкал
Известно большое количество мер связи между признаками. Они различаются как объемом вычислений, так и теми аспектами связи, которые отражают. Различные авторы предлагают разные основания для классификации этих мер связи. С точки зрения используемых принципов связи меры связи делят на две большие группы. К первой группе относятся меры связи, использующие принцип ковариации, а ко второй - принцип сопряженности признаков.
Принцип ковариации предполагает, что заключение о наличии связи между переменными делается в том случае, когда увеличение значений одной переменной сопровождается устойчивым увеличением или уменьшением значений другой переменной.
К этой группе, прежде всего, относится коэффициент корреляции Пирсона, который является мерой линейной связи двух переменных Г,и)> вычисляется по формуле:
%=^==, где Цу=хЕ(Ъ-«*№/-*;), a т]=]^Уу.
К этой же группе относятся коэффициент ранговой корреляции Спирмена, бисериальный коэффициент корреляции, коэффициент ранговой корреляции Тау Кендалла, а также рангово-бисериальный коэффициент корреляции Кертена и Гласса.
Принцип сопряженности дает вторую обширную группу мер связи, которая направлена на выяснение следующего факта: появляются ли некоторые значения одного признака одновременно с определенными значениями другого чаще, чем это можно объяснить случайным стечением обстоятельств. В этом случае фиксируется только сам факт наличия или отсутствия интересующих значений признака, независимо от их количественного выражения.
Общим, как бы переходным, для первой и второй групп мер связи является популярный в психодиагностических исследованиях коэффициент четырехклеточной сопряженности Пирсона (ф), который предназначен для измерения связи двух дихотомических признаков. Так, например, при исследовании зависимости между выздоровлением больного и обращением к врачу можно составить следующую таблицу:
Таблица 1.4
Обращение больной, к врачу больнопжврачу | Результат лечения | |
Быстрое выздоровление | Медленное выздоровление | | |
Обращался | а | Ъ |
Необращался | с | d |
Компьютерная психодиагностика
Здесь а,b,c,d- числа, соответствующие количеству объектов, обладающих свойством, из столбца и строки. Тогда связь между этими признаками (обращение к врачу и результат лечения) принято измерять с помощью коэффициента
аЛ-Ьс ^ ^а+Ь)(с+<1)(a+c)(b+d) ' К этой группе мер связи относятся коэффициенты Чупрова, Крамера, контингенции Пирсона и т. д.
В следующей таблице представлены рекомендуемые меры связи между различными типами признаков [Дюк, 1994].
Таблица 1.5
,-, | Типпризнака | ||
Дихотомический | Ранговый | Количественный | |
Дихотомический | —=. | ||
Ранговый | 2.ТауКендалла(т) | 2.ТауКендалла(т) | |
Количественный | ЕЙЕГ |
Для вычисления корреляций на компьютере можно использовать, например, систему 5ТАТ15Т1СА, модуль «Основные статистики и таблицы». Содержащийся в этом модуле раздел «Корреляции» включает большое количество средств, позволяющих исследовать зависимости между переменными. Существует возможность вычисления практически всех общих мер зависимости, включая коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмена, Тау Кендал-ла, Гамма, коэффициент сопряженности признаков и многие другие. Корреляционные матрицы могут быть вычислены и для данных с пропусками, в этом случае используются специальные методы обработки пропущенных значений. Используя модуль «Менеджер мегафайлов», можно вычислять корреляционные матрицы практически неограниченных размеров (до 32000 на 32000).
Вычисленные корреляционные матрицы выводятся в виде электронных таблиц ЗсгоПзпе*. Они могут быть сохранены в формате фай-
Глава 1. Психометрическая парадигма конструирования тестов и шкал
лов с исходными данными, а затем обработаны с помощью статистического анализа любого типа.
В системе 5ТАТ15Т1СА имеется широкий набор возможностей для работы с таблицами 8сгоШпеet. В частности, существуют возможности разделения их прокрутки, если таблицы очень большие, интерактивного выбора числовых форматов, маркировки значений и т. д. Таким образом, большие матрицы могут быть сжаты, что облегчает визуальный поиск значимых коэффициентов корреляции. Для визуализации корреляционных матриц при поиске глобальных структур могут быть использованы различные графические методы (например, контурные графики, графики поверхностей и др.). Все эти операции требуют лишь нескольких щелчков мыши.
Обобщениеданныхпутемгруппировкипризнаковтакжеосуществ-ляет факторный анализ
} тодов для преобразования исходного набора признаков к более простой и содержательной форме. Он базируется на предположении, что наблюдаемое поведение испытуемого может быть объяснено с помощью небольшого числа скрытых характеристик, называемых факторами.
В табличном виде работа методов факторного анализа представляется как разбиение таблицы экспериментально-психологических данных по столбцам на подтаблицы, каждая из которых соответствует одной группе сильно коррелирующих признаков. При этом исходный прямоугольник ТЭД разрезается на вертикальные полосы так, что каждая полоса содержит информацию обо всех испытуемых, но не по всем признакам, а только по группе сильно коррелирующих признаков.
Помимо разбиения таблицы данных на вертикальные полосы (группы сильно коррелирующих признаков), факторный анализ формирует новый обобщающий вертикальный столбец (комплексный признак-фактор), который в конденсированном виде содержит основную информацию об испытуемых по всем столбцам соответствующей полосы. Это сжатие может быть изображено как замена таблицы с большим числом столбцов на таблицу с малым числом столбцов, равным числу факторов и хорошо описывающим все столбцы исходной таблицы данных.
Основные задачи факторного анализа перечислены ниже.
1. Исследования структуры взаимосвязи переменных. В .том случае каждая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.
Компьютерная психодиагностика
2. Идентификация факторов как скрытых (латентных) переменных, которые могут рассматриваться как причины взаимосвязи исходных переменных.
3. Вычисление значений факторов для испытуемых как новых, интегральных переменных. При этом число факторов существенно меньше числа исходных переменных, что сокращает количество признаков с минимальными потерями исходной информации.
Методы факторного анализа - это различные способы получения факторной структуры при заданном числе факторов. К наиболее часто применяемым методам относятся анализ главных компонент, анализ главных факторов, факторный анализ с итерациями по общностям и метод максимального правдоподобия.
Факторному анализупосвященоболыпоеколичествоисследований, и он широко представлен в литературных источниках [Дюк, 1997; На-еледов, 1999].
В системе 5ТАТ15Т1СА содержится модуль «Факторный анализ» (Расюr Апа1ум8), предназначенный для сжатия данных или выделения основных общих факторов, влияющих на наблюдаемые характеристики сложного объекта и объясняющих связи между ними. Он включает в себя, в частности, метод главных компонент, метод минимальных остатков, метод максимального правдоподобия с расширенной диагностикой и чрезвычайно широким набором аналитических и разведочных графиков. Модуль может выполнять вычисление главных компонент общего и иерархического факторного анализа с массивом, содержащим до 300 переменных. После того как решение определено, можно пересчитать корреляционную матрицу от соответствующего числа факторов для того, чтобы оценить качество построенной модели.
Группировка испытуемых.Обобщение данных путем группировки испытуемых (по строкам ТЭД) представляет собой группировку испытуемых по степени их близости (удаленности) в пространстве измеряемых признаков.
7Ъблицаблизостей(уд}тснноскй)(ТБ) задает отношение «объект-объект» и представляет собой симметричную таблицу п на п с неотрицательными элементами следующего вида:
Таблица 1.6
А, | А, | |
А, | А, | |
А, | А, |
Глава 1. Психометрическая парадигма конструирования тестов и шкал
Элементы таблицы ^являются значениями некоторой меры близости (удаленности) между объектами Xj и X,
Структуру взаимоотношений объектов исследования можно трактовать как некоторую геометрическую конфигурацию точек в многомерном пространстве признаков, если элементы таблицы удовлетворяют следующим требованиям.
1. Максимальное сходство объекта с самим собой, то есть Л, = тшА,
2. Симметричность, то есть Д,= Л,
3. Выполнение неравенства треугольника, то есть Д, + /)<, > Я,.
Ниже представлены наиболее распространенные меры расстояния между объектами.
Евклидово расстояние вычисляется по следующей формуле:
Эта мера может применяться для вычисления расстояния между объектами, описанными количественными, качественными и дихотомическими признаками. Ее использование целесообразно, когда признаки однородны по смысловой нагрузке и одинаково важны для решаемой задачи.
Расстояние Минковского вычисляется следующим образом:
М
Это расстояние еще называют «городской метрикой», поскольку расстояние между точками определяется аналогично расстоянию вдоль взаимно перпендикулярных улиц городских кварталов [Александров и др., 1990; Дюк, 1994]. Городская метрика применяется для измерения расстояния между объектами, описанными порядковыми признаками. Показатель 1к (Х„ X) равен разнице номеров градаций по к-щ признаку у сравниваемых объектов X, и X,
Существуют два основных варианта постановки задачи группировки испытуемых:
□ группировка испытуемых на заданные группы;
□ группировка испытуемых на незаданные группы.
Группировка испытуемых на заданные группы предполагает, что имеются результаты многомерного психологического исследования нескольких групп испытуемых и о каждом испытуемом заранее известно,
Компьютерная психодиагностика
к какой группе он принадлежит. Такие группы испытуемых называются обучающей выборкой, или внешним критерием. Например, в задаче профотбора это могут быть группы хороших и плохих специалистов, при исследовании полового диморфизма - испытуемые разного пола, при педагогических исследованиях - группы школьников, различающихся по успешности обучения, дисциплинированности, общественной активности, возрасту и т. п.
Задача заключается в том, чтобы найти правило разбиения испытуемых на заданные группы по психологическим характеристикам. Для решения этой задачи используются методы обучения распознаванию образов с учителем [Мельников, Ямпольский, 1985], или иначе их еще называют методами, использующими внешний критерий. К ним относятся множественный регрессионный анализ и дискриминантный анализ.
Эти методы основываются на предположении, что существует такое многомерное пространство психологических характеристик, в котором точки, представляющие испытуемых одной группы, расположены кучно и «далеко» от точек, представляющих испытуемых другой группы. В этом случае может быть построена поверхность, разделяющая испытуемых разных групп. Методы и подходы анализа данных различаются между собой, в частности, типом разделяющих поверхностей и способом их построения. Для того чтобы найти разделяющую поверхность, испытуемых представляют в виде векторов (упорядоченной совокупности значений индивидуальных характеристик личностных признаков), затем выбирается некоторое количество векторов первой и второй групп (при классификации на две группы) и с помощью обучающей выборки проводится обучение. В результате методы формируют разделяющее правило (в виде набора признаков или уравнения разделяющей поверхности), с помощью которого можно по значениям психологических признаков определить, к какой группе принадлежит испытуемый.
Вв( Мноэкеспъен^^
3 ление статистической зависимости среднего значения одной случайной величины Zot нескольких других величин К, К, Ут. Эта статистическая зависимость определяется уравнением.
Z=а0 + а,У]+ a2Y2+...+ атУт+ е,
где а- (/= 1,..., т) являются искомыми параметрами, а е - вектор остатков, отражающий влияние на внешний критерий неучтенных факторов (ошибок).
Глава 1. Психометрическая парадигма конструирования тестов и шкал
Параметр Z, как раз и определяемый внешним критерием, рассматривается как «зависимая» переменная (как правило, ранговая или количественная), которая выражается функцией от «независимых признаков» Ги Уъ Ут.
Проведение множественного регрессионного анализа позволяет осуществить два важных для конструирования тестов и шкал момента. Во-первых, определить в какой мере «зависимая» переменная связана ссовокупностью«независимых»переменных(аналитическийвидурав-нения) и оценить статистическую значимость этой взаимосвязи. В данном случае показателем является коэффициент множественной корреляции и его статистическая значимость по /'-критерию Фишера. Во-вторых, определить существенность вклада каждой «независимой» переменной (признака), в оценку «зависимой» переменной (внешнего критерия), для отсева несущественных для исследования тестовых заданий.
В системе 8ТАП8Т1СА есть модуль «Множественная регрессия» (МиШрк Кевгаюп), предназначенный для построения зависимостей между многомерными данными, подбора простой линейной модели и оценки ее адекватности. Этот модуль содержит исчерпывающий набор средств множественной линейной и фиксированной нелинейной (вчастности, полиномиальной, экспоненциальной,логарифмической и др.) регрессии, включая пошаговые, иерархические и другие методы, а также ридж-регрессию.
Системапозволяетвычислить всесторонний набор статистик и расширенной диагностики, в том числе полную регрессионную таблицу, частные и частичные корреляции и ковариации для регрессионных весов, матрицы прогонки, статистку Дурбина-Ватсона, расстояния Махаланобиса и Кука, удаленные остатки и многие другие. Анализ остатков и выбросов может быть проведен при помощи широкого набора графиков, включая разнообразные точечные графики, графики частотных корреляций и многие другие. Допускаются чрезвычайно большие регрессионные задачи (до 300 переменных в процедуре разведочной регрессии).
3 мерных наблюдений по одной из нескольких категорий. Методы дискриминантного анализа используются тогда, когда критериальный показатель Z измерен в номинальной шкале или связь этого показателя с исходными признаками является нелинейной и носит неизвестный характер.
Компьютерная психодиагностика
Дискриминантами анализ позволяет не только интерпретировать различиямежду классами, то есть указать, насколько хорошо можно отличить один класс от другого, используя данный набор признаков, но и определить, какие из этих признаков наиболее существенны для различения классов. Принадлежность объекта к классу в большинстве компьютерных программ дискриминантного анализа определяется либо по классифицирующим функциям Фишера, либо по квадрату расстояния Махаланобиса. Классифицирующая функция, или функция, принадлежности объекта к классу, - это линейная комбинация для каждого класса, максимизирующая различия между классами и минимизирующая дисперсию объектов внутри класса. Функция, вычисляемая для каждого испытуемого по каждому классу, имеет следующий вид:
и1к =аю +ааГи +ааУ21+...+ акяГя1,
где Цк - значение функции принадлежности /-го испытуемого к к-му классу; ат аки акЪ..., акт - коэффициенты, которые определяются в ходе анализа и не подлежат интерпретации.
В системе 5ТАТ15Т1СА содержится модуль «Дискриминантный анализ» (ОксптшаШ Апа1у515), предназначенный для отнесения объекта по результатам измерений к одному из нескольких классов. Этот модуль позволяет построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем.
Исторически первой в дискриминантном анализе была модель Фишера, в которой предполагается, что наблюдаемые векторы имеют многомерное нормальное распределение с невырожденной ковариационной матрицей и вектором средних, разным для разных классов. В простейших задачах распределение наблюдаемых величин задано точно для каждого класса. В сложных задачах распределение известно частично и для построения классификатора приходится привлекать дополнительную информацию.
Модуль содержит полный набор процедур для множественного пошагового функционального дискриминантного анализа, позволяющего выполнять пошаговый анализ, как вперед, так и назад, а также внутри определенного пользователем блока переменных в модели. В дополнении к многочисленным графикам и диагностикам, описывающим дискриминантные функции, предлагается широкий набор опций и статистик для классификации «новых» или «старых» случаев (при оценивании справедливости модели).
Глава 1. Психометрическая парадигма конструирования тестов и шкал
Группировка испытуемых на незаданные группы формулируется следующим образом. Имеется многомерное психологическое описание выборки испытуемых, и требуется осуществить их разделение (или классификацию) на однородные группы, то есть такое разделение, при котором в составе выделенных групп оказались бы испытуемые, похожие по психологическим характеристикам. Такая постановка задачи группировки испытуемых соответствует интуитивным представлениям о типе личности. Для решения этой задачи используются различные алгоритмы и методы кластерного анализа.
3 объектов на заданное или неизвестное число классов на основании некоторого критерия качества классификации, при этом предполагается, что нет никаких допущений ни о составе классов, ни об их отличии друг от друга. Известна лишь информация о признаках объектов, позволяющих судить об их сходстве (различии).
В литературе часто встречаются синонимы кластерного анализа: автоматическая классификация, таксономический анализ, анализ образов (без обучения).
Существуетрядзадач,прирешении которых кластерный анализявля-ется незаменимым другими многомерными методами [Наследов, 1999].
1. Разбиение однородной совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям.
2. Проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам.
3. Исследование группирования признаков, в качестве которых выступают объекты, упорядочиваемые испытуемыми, например, по степени предпочтения.
4. Применение кластерного анализа как значительно более простого аналога факторного анализа, когда ставится задача только группировки признаков без вычисления (оценки) факторов.
Несмотря на различие целей проведения кластерного анализа, можно выделить общую его последовательность, как ряд относительно самостоятельных шагов, играющих существенную роль в прикладном исследовании.
1. Отбор объектов для дластеризации. Объектами мигут быть, в зависимости от цели исследования: а) испытуемые; б) объекты, которые
Компьютерная психодиагностика
оцениваются испытуемыми; в) признаки, измеренные на выборке испытуемых.
2. Определениемножествапеременных,покоторьтбудутразличаться объекты кластеризации. Для испытуемых - это набор измеренных признаков, для оцениваемых объектов - субъекты оценки, для признаков - испытуемые.
3. Определение меры сходства между объектами кластеризации. Выбор меры сходства определяется процедурой исследования и характером получаемых данных.
4. Выбор и применение метода классификации для создания групп сходных объектов. Следует иметь в виду, что разные методы кластеризации порождают разные группировки для одних и тех же данных. В процессе кластеризации структура может привноситься в данные, создаваться искусственно и не соответствовать реальной.
5. Проверка достоверности разбиения на классы. Этот этап связан, прежде всего, с тем что, кластерный анализ всегда разобьет совокупность объектов на классы, независимо от того, существуют ли они на самом деле. Поэтому вместо показывания существенности разбиения на классы, например, на основании достоверности различий между классами по признакам, включенным в анализ, обычно проверяют устойчивость группировки на повторной идентичной выборке объектов и значимость разбиения по внешним критериям, то есть по признакам, не вошедшим в анализ.
Модуль «Кластерный анализ» в системе 5ТАТ15Т1СА содержит всесторонний инструментарий для кластеризации (метод ^-средних, иерархическая классификация и др.) с возможностью использовать различные метрики: евклидову, манхэттенскую, чебышевскую и др. Этотмодульпозволяетработатьсчрезвычайнообъемнымэксперимен-тальным материалом. Например, иерархическая классификация выполняется для стольких переменных, сколько содержит файл данных (до 90.000 расстояний); а с помощью метода ^-средних можно кластеризовать 2100 объектов размерности 600.
В заключение следует отметить, что исследование может не ограничиваться только, допустим, группировкой признаков или группировкой испытуемых. Очень часто и перспективно встает необходимость провести одновременную группировку признаков и испытуемых. В этом случае применяются как методы факторного анализа, так и кластерный анализ.
Проблеме применения математических методов в психологических исследованияхпосвященобольшоеколичестволитературы. Особо следу-
Глава 1. Психометрическая парадигма конструирования тестов и шкал
ет выделить литературу, не только дающую общие теоретические положения, но и позволяющую получить практические навыки работы с компьютерными программами [Дюк, 1997; Наследов, 1999; Тарасов, 1999].