Факторный и компонентный анализ как методы снижения размерности

Главными целями факторного анализа являются: (1) устранение мультиколлениарности; (2) сокращение числа переменных (редукция данных) и (3) определение структуры взаимосвязей между переменными, т.е. классификация переменных.

Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. Под факторным анализом понимается методика комплексного и системного изучения и измерения воздействия факторов на величину результативного показателя. Факторы в результате анализа получают количественную и качественную оценку. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК).

Факторный анализ - более мощный и сложный аппарат, чем метод главных компонент, поэтому он применяется в том случае, если результаты компонентного анализа не вполне устраивают. Но поскольку эти два метода решают одинаковые задачи, необходимо сравнить результаты компонентного и факторного анализов, т.е. матрицы нагрузок, а также уравнения регрессии на главные компоненты и общие факторы, прокомментировать сходство и различия результатов.

Компонентный анализ предназначен для преобразования системы k исходных признаков, в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k-я, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются m первых компонент (m< k).

При наличии результативного показателя Y может быть построено уравнение регрессии на главных компонентах. На основании матрицы исходных данных:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

размерности (n×k) , где xij – значение j-го показателя у i-го наблюдения (i=1,2,...,n; j=1,2,...,k) вычисляют средние значения показателей Факторный и компонентный анализ как методы снижения размерности - student2.ru , а также s1, ..., sk и матрицу нормированных значений:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

с элементами:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Рассчитывается матрица парных коэффициентов корреляции: Факторный и компонентный анализ как методы снижения размерности - student2.ru

с элементами: Факторный и компонентный анализ как методы снижения размерности - student2.ru , где, j = 1,2, ..., k.

На главной диагонали матрицы R, т.е. при j=l,

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Модель компонентного анализа имеет вид:

Факторный и компонентный анализ как методы снижения размерности - student2.ru (1) , где:

a– “вес”, факторная нагрузка, ν-ой главной компоненты на j-ой переменной;

f – значение ν-й главной компоненты для i-го наблюдения (объекта),

где ν=1,2, ... ,k.

В матричной форме модель (1) имеет вид: Факторный и компонентный анализ как методы снижения размерности - student2.ru ,

где: Факторный и компонентный анализ как методы снижения размерности - student2.ru – матрица значений главных компонент размерности (n×k)

Факторный и компонентный анализ как методы снижения размерности - student2.ru – матрица факторных нагрузок размерности (k×k).

АТ – транспонированная матрица А;

f– значение ν-й главной компоненты у i-го наблюдения (объекта);

a – значение факторной нагрузки ν-й главной компоненты на j-й переменной.

Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:

Факторный и компонентный анализ как методы снижения размерности - student2.ru , Факторный и компонентный анализ как методы снижения размерности - student2.ru , а главные компоненты не коррелированны между собой. Из этого следует, что, Факторный и компонентный анализ как методы снижения размерности - student2.ru (2),

где Факторный и компонентный анализ как методы снижения размерности - student2.ru – единичная матрица размерности (k×k).

Выражение (2) может быть также представлено в виде:

Факторный и компонентный анализ как методы снижения размерности - student2.ru (3) ν ,ν ′ =1,2,..., k.

С целью интерпретации элементов матрицы А, рассмотрим выражение для парного коэффициента корреляции, между Zj-переменной и, например, f1-й главной компонентой. Так как, zj и f1 нормированы, будем иметь с учетом (1):

Факторный и компонентный анализ как методы снижения размерности - student2.ru Факторный и компонентный анализ как методы снижения размерности - student2.ru

Принимая во внимание (3), окончательно получим:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Рассуждая аналогично, можно записать в общем виде:

Факторный и компонентный анализ как методы снижения размерности - student2.ru для всех j=1,2, ... , k и ν=1,2, ... , k.

Таким образом, элемент ajv матрицы факторных нагрузок А, характеризует тесноту линейной связи между zj-исходной переменной и fv-й главной компонентой, то есть

Факторный и компонентный анализ как методы снижения размерности - student2.ru .

Рассмотрим теперь выражение для дисперсии zj-й нормированной переменной. С учетом (1) будем иметь:

Факторный и компонентный анализ как методы снижения размерности - student2.ru Факторный и компонентный анализ как методы снижения размерности - student2.ru

Факторный и компонентный анализ как методы снижения размерности - student2.ru , где ν, ν'=1,2, ... , k.

Учитывая (3), окончательно получим:

Факторный и компонентный анализ как методы снижения размерности - student2.ru (4)

По условию переменные zj нормированы и sj2=1. Таким образом, дисперсия zj-й переменной согласно (4), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад ν-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Одно из основополагающих условий метода главных компонент, связано с представлением корреляционной матрицы R, через матрицу факторных нагрузок А:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Учитывая (2), окончательно получим: Факторный и компонентный анализ как методы снижения размерности - student2.ru

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметрической матрицы R, всегда существует такая ортогональная матрица U, что выполняется условие: Факторный и компонентный анализ как методы снижения размерности - student2.ru (5), где

Факторный и компонентный анализ как методы снижения размерности - student2.ru – диагональная матрица собственных значений размерности (k*k)

Факторный и компонентный анализ как методы снижения размерности - student2.ru – ортогональная матрица собственных векторов размерности (k*k)

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения положительны – λν>0 для всех ν=1,2, ..., k.

В компонентном анализе элементы матрицы Λ ранжированы λ1≥λ2≥...≥λν ≥...≥λk>0. Как будет показано ниже, собственное значение λν характеризует вклад ν-й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя k-я – наименьший.

В ортогональной матрице U собственных векторов, ν-й столбец является собственным вектором, соответствующим λν-му значению.

Собственные значения λ1≥...≥λν≥...≥λk находятся как корни характеристического уравнения: Факторный и компонентный анализ как методы снижения размерности - student2.ru

Собственный вектор Vν, соответствующий собственному значению λν корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Нормированный собственный вектор Uν равен:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Из условия ортогональности матрицы U следует, что Факторный и компонентный анализ как методы снижения размерности - student2.ru , но тогда по определению матрицы R и Λ подобны, так как они согласно (5) удовлетворяют условию: Факторный и компонентный анализ как методы снижения размерности - student2.ru

Так как следы, т.е. суммы диагональных элементов у подобных матриц равны, то:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Напомним из линейной алгебры, что умножение матрицы U на обратную матрицу U-1, дает единичную матрицу Е. Следы матричных произведений (U-1)×(RU) и R×(UU-1) также равны.

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Таким образом, Факторный и компонентный анализ как методы снижения размерности - student2.ru (6)

Представим матрицу факторных нагрузок А в виде: Факторный и компонентный анализ как методы снижения размерности - student2.ru (7)

а ν-й столбец матрицы А: Факторный и компонентный анализ как методы снижения размерности - student2.ru , где Uν – собственный вектор матрицы R, соответствующий собственному значению λν.

Найдем норму вектора Аν: Факторный и компонентный анализ как методы снижения размерности - student2.ru

Здесь учитывалось, что вектор Uν нормированный и Факторный и компонентный анализ как методы снижения размерности - student2.ru . Таким образом,

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Сравнив полученный результат с полным вкладом ν-й главной компоненты в дисперсию всех k исходных признаков (вычисляется по формуле Факторный и компонентный анализ как методы снижения размерности - student2.ru ), можно сделать вывод, что собственное значение λν характеризует вклад ν-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (7) следует: Факторный и компонентный анализ как методы снижения размерности - student2.ru

Согласно (6) общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад ν-й главной компоненты определяется по формуле: Факторный и компонентный анализ как методы снижения размерности - student2.ru

Суммарный вклад m первых главных компонент определяется из выражения:

Факторный и компонентный анализ как методы снижения размерности - student2.ru

Обычно для анализа используют m первых главных компонент, суммарный вклад которых превышает 60–70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют линейные функции исходных признаков. Для экономической интерпретации fν используются лишь те xj, для которых, |а|>0,5.

Значения главных компонент для каждого i-го объекта (i=1,2,...,n) задаются матрицей F.

Факторный анализ - более мощный и сложный аппарат, чем компонентный анализ. Если число исходных показателей k и число общих факторов m и корреляц. матрица R допускают построение модели фак. анализа, то для выполнения условия единственности решения требуются дополнительные ограничения на матрицу факторных нагрузок А Факторный и компонентный анализ как методы снижения размерности - student2.ru , а также на ков. матрицу Факторный и компонентный анализ как методы снижения размерности - student2.ru для вектора специфических факторов Факторный и компонентный анализ как методы снижения размерности - student2.ru .

Пусть Z-это матрица нормированных значений исходных показателей. Факторный и компонентный анализ как методы снижения размерности - student2.ru , тогда модель фак. анализа: Факторный и компонентный анализ как методы снижения размерности - student2.ru это нормированное значение j-го показателя для i-го наблюдения. А- матрица факторных нагрузок.

Матрица значений: Факторный и компонентный анализ как методы снижения размерности - student2.ru это значение j-го специфического фактора для i-го наблюдения. Факторный и компонентный анализ как методы снижения размерности - student2.ru

Отсюда связь между Факторный и компонентный анализ как методы снижения размерности - student2.ru общим фактором, можно записать в виде: Факторный и компонентный анализ как методы снижения размерности - student2.ru Факторный и компонентный анализ как методы снижения размерности - student2.ru

содержание

Наши рекомендации