Вопрос 20. Методы снижения размерности многомерного признакового пространства

Исследуемые объекты помещаются в теоретическое признаковое пр-во с размерносьюm, равной числу наблюдаемых признаков.

Снижение размерности дает следующие преимущества:

· Возможность визуализации данных при размерности k≤3.

· Сокращение числа параметров эконометрических моделей.

· Лучшая интерпретируемость результатов исследования.

· Выявление и анализ структуры изучаемого процесса или явлений.

· Сжатие массивов хранимой статистической информации.

Существует по крайней мере три основных действия, позволяющих уменьшить число факторов:

1. Устранение дублирующей информации при наличии сильно коррелированных признаков

2. Редукция слабоинформативных (маломеняющихся для различных объектов) признаков

3. Агрегирование (объединение) нескольких признаков в один.

Для снижения размерности:

Факторный анализ

МГК

Корреляционный анализ

Кластерный анализ.

Корреляционный анализ:Смотрим матрицу парных и частных корреляций. При наличии сильно коррелированных признаков, удаляем их по принципу общей логики (смотрим, насколько признак важен для модели, если очень важен, то не удаляем его + если х1 коррел. с х2 и х3, то удаляем х1, а не х2 и х3).

Кластерный анализ.Если признаки не сопоставимы – стандартизируем их. Далее применяем методы кластерного анализа – строим дендограмму. Признаки, для которых межклассовое расстояние мало, дублируют друг друга, удаляем один из них так же по принципу общей логики.

МГК (Факторный анализ).

МГК позволяет:

1)сократить многомерность;

2) вскрыть причинно-следственные связи изучаемого явления или процесса.

Когда общее число m наблюдаемых признаков настолько велико, что затрудняет интерпретацию и качественный анализ получаемых результатов статистического исследования, необходимо выделить некоторое кол-во вспомогательных показателей или факторов {f1,…,fk}, k<<m, которые достаточно полно отражают суть изучаемого процесса.

Суть метода главных компонент можно показать на следующем примере реализации двумерной нормальнойслучайной величины. Признаки, соответвующие двум осям, сильно положительно коррелированны. Поэтому объекты с большим значением первого признака, как правило, имеют большое значение второго признака. Если нужно описать объекты в одномерном пространстве, то целесообразно выбрать в качестве обобщающего признака (первой главной компоненты) направление оси Р1, поскольку проекция объектов на эту ось ведет к минимальным потерям информации. Геометрически первая главная компонента является осью, для которой сумма квадратов расстояний от наблюдаемых объектов минимальна. Соответственно, сумма квадратов вдоль выбранной оси (дисперсия вдоль оси) максимальна. В двумерном случае вторая ось P2 определяется однозначно, как ортогональная к Р1. В случае большей размерности следующая главная компонента находится из тех же соображений минимизации расстояния (максимизации дисперсии) в подпространстве, ортогональном первой главной компоненте.

Математический метод нахождения главных осей заключается в вычислении собственных чисел и собственных векторов ковариационной матрицы S.

Если исходные признаки не сопоставимы по масштабу и единицам измерения – стандартизируем данные, чтобы каждый признак имел единичную дисперсию и нулевое МО.

Вопрос 20. Методы снижения размерности многомерного признакового пространства - student2.ru , где Вопрос 20. Методы снижения размерности многомерного признакового пространства - student2.ru - МО i-го признака, Вопрос 20. Методы снижения размерности многомерного признакового пространства - student2.ru - СКО.

Тогда применяем корелляционную матрицу R (т.е. либо S, либо R – для несопоставим. данных – мы делали по R, в основном).

Векторы, задающие направления главных осей, являются решением системы уравнений:

Sv = λv или (S-λE)v=0, где λ- собственное значение, v – собственный вектор матрицы S.

Из этого, в частности следует, что λ является корнем характеристического уравнения det(S-λE)=0.

В частности для двумерного пространства: det(S-λE)= λ2-λtrS+detS, где trS- след матрицы (сумма диагональных элементов).

В таком случае числа λ1 и λ2 (λ1≥ λ2) находятся прямым решением квадратного уравнения. А собственные векторы v1 и v2 определяются из решения однородных линейных уравнений:

(S- λ1E)v1=0 и (S- λ2E)v2=0

Алгоритм вычисления главных компонент для трехмерного и более пространства на выходе имеет:

· Собственные значения λ1≥…≥λm≥0

· Ортогональную матрицу перехода в собственный базис С, такую что

S=CΛC*; Λ= Вопрос 20. Методы снижения размерности многомерного признакового пространства - student2.ru

Координаты объекта p=(p1,…,pm) в пространстве главных компонент вычисляются по формуле p=C(x- Вопрос 20. Методы снижения размерности многомерного признакового пространства - student2.ru ). Столбцы матрицы перехода совпадают с собственными векторами vi. В литературе их называют весами главных компонент. Соответственно главные компоненты являются линейными комбинациями исходных признаков с вычисленными весами.

В случае стандартизированных признаков обычно рассматриваются только те главные компоненты, для которых собственное значение больше единицы. Собственные значения, меньше единицы, указывают на то, что изменчивость соответствующей главной компоненты меньше изменчивости любого из исходных признаков. Именно такие компоненты зачастую исключаются из дальнейшего анализа. Полученные в итоге обобщенные признаки (главные компоненты) являются линейными комбинациями исходных признаков и могут не нести конкретного экономического смысла (но правильнее его найти и объяснить).


Наши рекомендации