Мгк (факторный анализ)
МГК позволяет:
1)сократить многомерность;
2) вскрыть причинно-следственные связи изучаемого явления или процесса.
Когда общее число m наблюдаемых признаков настолько велико, что затрудняет интерпретацию и качественный анализ получаемых результатов статистического исследования, необходимо выделить некоторое кол-во вспомогательных показателей или факторов {f1,…,fk}, k<<m, которые достаточно полно отражают суть изучаемого процесса.
Суть метода главных компонент можно показать на следующем примере реализации двумерной нормальнойслучайной величины. Признаки, соответвующие двум осям, сильно положительно коррелированны. Поэтому объекты с большим значением первого признака, как правило, имеют большое значение второго признака. Если нужно описать объекты в одномерном пространстве, то целесообразно выбрать в качестве обобщающего признака (первой главной компоненты) направление оси Р1, поскольку проекция объектов на эту ось ведет к минимальным потерям информации. Геометрически первая главная компонента является осью, для которой сумма квадратов расстояний от наблюдаемых объектов минимальна. Соответственно, сумма квадратов вдоль выбранной оси (дисперсия вдоль оси) максимальна. В двумерном случае вторая ось P2 определяется однозначно, как ортогональная к Р1. В случае большей размерности следующая главная компонента находится из тех же соображений минимизации расстояния (максимизации дисперсии) в подпространстве, ортогональном первой главной компоненте.
Математический метод нахождения главных осей заключается в вычислении собственных чисел и собственных векторов ковариационной матрицы S.
Если исходные признаки не сопоставимы по масштабу и единицам измерения – стандартизируем данные, чтобы каждый признак имел единичную дисперсию и нулевое МО.
, где - МО i-го признака, - СКО.
Тогда применяем корелляционную матрицу R. (Т.е. Либо S, либо R – для несопоставим. Данных – мы делали по R, в основном).
Векторы, задающие направления главных осей, являются решением системы уравнений:
Sv = λv или (S-λE)v=0, где λ- собственное значение, v – собственный вектор матрицы S.
Из этого, в частности следует, что λ является корнем характеристического уравнения det(S-λE)=0.
В частности для двумерного пространства: det(S-λE)= λ2-λ trS+detS, где trS- след матрицы (сумма диагональных элементов).
В таком случае числа λ1 и λ2 (λ1≥ λ2) находятся прямым решением квадратного уравнения. А собственные векторы v1 и v2 определяются из решения однородных линейных уравнений:
(S- λ1E)v1=0 и (S- λ2E)v2=0
Алгоритм вычисления главных компонент для трехмерного и более пространства на выходе имеет:
· Собственные значения λ1≥…≥λm≥0
· Ортогональную матрицу перехода в собственный базис С, такую что
S=CΛC*; Λ=
Координаты объекта p=(p1,…,pm) в пространстве главных компонент вычисляются по формуле p=C(x- ). Столбцы матрицы перехода совпадают с собственными векторами vi. В литературе их называют весами главных компонент. Соответственно главные компоненты являются линейными комбинациями исходных признаков с вычисленными весами.
В случае стандартизированных признаков обычно рассматриваются только те главные компоненты, для которых собственное значение больше единицы. Собственные значения, меньше единицы, указывают на то, что изменчивость соответствующей главной компоненты меньше изменчивости любого из исходных признаков. Именно такие компоненты зачастую исключаются из дальнейшего анализа. Полученные в итоге обобщенные признаки (главные компоненты) являются линейными комбинациями исходных признаков и могут не нести конкретного экономического смысла (но правильнее его найти и объяснить).