Вопрос 25. Модель факторного анализа, критерии качества структуры модели. Использование результатов факторного анализа в регрессионных моделях
Для изучения сложных социально-экономических систем возможно использование методов факторного анализа, так как они позволяют одновременно сократить размерность признакового пространства и вскрыть скрытые причинно-следственные связи.
Использование факторного анализа дает следующие преимущества:
· Снижение признакового пространства, ;
· Лучшая интерпретация результатов исследования;
· Выявление и анализ структуры изучаемого процесса;
· Сжатия большого массива информации без потери содержательного наполнения признаков.
Общий вид модели факторного анализа:
где z – вектор стандартизированных элементарных признаков;
f – вектор общих факторов размерности k < m,
W – матрица факторных нагрузок размерности k*m;
u – характерность.
В отличие от МГК в общем случае при использовании факторного анализа не утверждается, что наблюдаемые признаки могут быть однозначно вычислены (без потери информации) по значениям общих факторов f. Остаток, не объясненный общими факторами, называется характерностью (u) и интерпретируется как влияние специфичных для каждого признака факторов и случайных ошибок.
Для определения коэффициентов модели факторного анализа вычисляем ковариационные матрицы левой и правой частей векторного уравнения (1):
Для упрощения данного выражения используются основные предположения факторного анализа:
1) Общие факторы стандартизированы и декоррелированы является единичной матрицей;
2) Характерные и общие факторы независимы ;
3) Характерные факторы декоррелированы ковариационная матрица является диагональной
Тогда уравнение для ковариаций преобразуется к компактному виду:
где R – корреляционная матрица элементарных признаков,
- редуцированная корреляционная матрица (т.к. матрица U – диагональная, то элементы матрицы вне диагонали равны соответствующим элементам матрицы R)
Диагональные элементы редуцированной матрицы называются общностями и обозначаются как . Качественно общность обозначает вклад общих факторов в полную дисперсию признака: . Остаток – характерность.
Основными подходами к определению общностей являются:
· Метод наибольшей корреляции
Мощности присваивается наибольшее значение элемента столбца (строки) матрицы R кроме диагонального элемента матрицы R, равного единицы
· Метод триад используется, когда матрица частных корреляций сильно отличается от матрицы парных корреляций (R)
При данном методе в j-й строке (столбце) матрицы R отыскиваются 2 наибольших значения коэффициентов корреляции и и составляется триада
если вдруг , тогда ставим значение = 1
· Метод малого центроида
На главной диагонали матрицы R ставятся наибольшие коэффициенты корреляции каждой строки (столбца). По новой матрице вычисляется отношение квадрата суммы элементов соответствующей строки (столбца) к сумме всех элементов матрицы:
Цель расчета – методы направлены на увеличение относительного веса в факторной структуре признаков с сильными корреляционными связями и уменьшение связи слабо коррелируемых признаков.
Следующим шагом факторного анализа является определение факторных нагрузок:
В отличие от метода главных компонент общая модель факторного анализа имеет неоднозначное решение. Это обусловлено двумя причинами:
1. Свобода выбора характерности при нахождении редуцированной корреляционной матрицы ;
2. Число общих факторов не определено.
Наиболее распространёнными методами решения являются:
· Метод главных факторов;
· Метод наименьших квадратов;
· Обобщенный метод наименьших квадратов;
· Метод максимального правдоподобия Лоули.
Общая схема факторного анализа:
1. Нормировка признакового пространства.
Признаки z получены из х центрированием или стандартизацией. В некоторых случаях нормировка признаков нежелательна или приводит к неудовлетворительным результатам (к примеру, не следует нормировать данные по психологическим опросам). Для того чтобы перейти к безразмерным переменным, удобно провести центрирование либо стандартизация исходных показателей:
· Центрирование: , где – среднее значение j-го признака, – исходное значение j-го признака на i-том объекте исследования
Стандартизация: , где – нормированное значение j-го признака на i-том объекте исследования (безразмерная, обезличенная величина), - среднее квадратическое отклонение j-го признака, которое рассчитывается:
2. Вычисление корреляционной матрицы , состоящей из парных коэффициентов корреляции, рассчитываемых по формуле:
3. Вычисление редуцированной матрицы ;
4. Вычисление факторного отображения;
5. Вращение факторного пространства
В случае если в структуре факторного отображения нельзя выделить доминирующие факторы, затрудняется интерпретация факторного пространства. Сложная структура матрицы факторных нагрузок усложняет процесс управления явлением путем воздействия на отдельные факторы, так как фактор может равномерно влиять на все признаки. Однако эта проблема может быть устранена при вращении факторного пространства.
Формально вращение можно представить в виде разложения матрицы факторных нагрузок:
где – матрица перехода к новым факторам размера k*k;
– матрица факторных нагрузок после вращения.
Если накладывается ограничение, что матрица C – ортогональна, то преобразование факторного пространства называется ортогональным вращением. Если матрица переходов не является ортогональной, то преобразование называется косоугольным вращением. Факторные нагрузки при косоугольном вращении могут быть >1. Выбираем угол поворота (х – угол):
– если 2 общих фактора
Оценка качества моделей факторного анализа
Большинство методов факторного анализа (за исключением метода макс. правдоподобия Лоули и канонического факторного анализа РАО) не являются статистическими в строгом смысле, так как для них не разработаны способы обобщения выборочных результатов на генеральную совокупность.
Зачастую вопрос о значимости факторных нагрузок решается с помощью эмпирических порогов значимости: если факторная нагрузка , то связь между признаком i и фактором j признается значимой.
Однако возможно оценивать отдельные элементы и предпосылки факторного анализа:
· -критерий Уилкса
Оценивает значимость матрицы парных корреляций R
H0: матрица парных корреляций R значима с уровнем доверительной вероятности α;
H1: матрица парных корреляций R не значима с уровнем доверительной вероятности α.
Расчетное значение критерия Уилкса сравнивается с квантилями -распределения с
степенями свободы при заданном уровне значимости α.
При принимается гипотеза H0, то есть матрица парных корреляций признается статистически значимой с доверительной вероятностью α.
· -критерий Лоули
Определяет достаточность выделенных факторов
Статистика критерия Лоули вычисляется как:
где – восстановленная корреляционная матрица.
Расчетное значение критерия Лоули сравнивается с квантилями -распределения с
степенями свободы при заданном уровне значимости α.
При принимается гипотеза H0, то есть количество выделенных факторов является достаточным с доверительной вероятностью α.
· Подход Хармана
Дает общую оценку качества факторного решения
При подходе Хармана используется следующий индикатор:
Данный индикатор является эмпирическим и не имеет эталонного распределения. Среди нескольких факторных моделей предпочтение отдается модели с наименьшим H.
Использование результатов факторного анализа в регрессионных моделях
Исторически метод главных факторов в экономических исследованиях применялся для улучшения результатов регрессионного анализа. В случае мультиколлинеарности признаков переход от наблюдаемых признаков к некоррелированым факторам позволяет улучшить качество регрессионной модели.
Из установочной лекции Тихомировой:
Мультиколлинеарность в многофакторной регрессии, переходим к модели факторного анализа. Строим общие факторы и с ними формируем новую множественную регрессию. Стоит отметить, что в отличие от метода главных компонент, в новой многофакторной регрессии на общих факторах изменится, во-первых, R2 модели, а, во-вторых, ошибка модели E. Изменение величины остатков модели происходит из-за того, что есть ошибка в изначальной регрессионной модели, а также есть ошибка в факторной модели (характерность)!