Линейные регрессионные модели

Регрессионный анализ – это статистический метод исследования функциональной связи случайной величины y от переменных Линейные регрессионные модели - student2.ru , Линейные регрессионные модели - student2.ru , рассматриваемых как неслучайные (известные) многомерные случайные величины с произвольной функцией распределения.

Задачей регрессионного анализа является построение зависимости изучаемой случайной величины y от факторов x по результатам наблюдения:

Линейные регрессионные модели - student2.ru ξ, (1.4)

где Линейные регрессионные модели - student2.ru – неизвестные параметры, ξ– случайные ошибки или остатки, Линейные регрессионные модели - student2.ru – независимые наблюдения, Линейные регрессионные модели - student2.ru [27].

Регрессионные модели бывают линейными и нелинейными. В линейной регрессионной модели математическое ожидание зависимой переменной – это линейная комбинация регрессоров с неизвестными коэффициента, что функция Линейные регрессионные модели - student2.ru линейна по параметрам. Уравнение линейной регрессии записывается следующим образом:

Линейные регрессионные модели - student2.ru , (1.5)

Линейные регрессионные модели - student2.ru – известные функции, Линейные регрессионные модели - student2.ru – оценка параметров регрессии.

Будем рассматривать линейные оценки истинных параметров. Можно найти оценки Линейные регрессионные модели - student2.ru , которые являются состоятельными, несмещенными и обладают наименьшими дисперсиями среди множества всех линейных несмещенных оценок [27]. Такие оценки называются наилучшими линейными оценками, и в случае независимых и распределенных с одинаковыми дисперсиями случайными ошибками ξ вычисляются по формуле:

Линейные регрессионные модели - student2.ru , (1.6)

где матрица Линейные регрессионные модели - student2.ru равна

Линейные регрессионные модели - student2.ru , (1.7)

матрица Линейные регрессионные модели - student2.ru равна

Линейные регрессионные модели - student2.ru . (1.8)

Средний квадрат ошибки прогноза равен

Линейные регрессионные модели - student2.ru . (1.9)

Ковариационная матрица ошибок оценок Линейные регрессионные модели - student2.ru равна

Линейные регрессионные модели - student2.ru . (1.10)

Ширина коридора ошибок в данном случае определяется по формуле:

Линейные регрессионные модели - student2.ru , (1.11)

где ε – уровень доверия, а Линейные регрессионные модели - student2.ru

Для оценивания точности регрессионной модели используют коэффициент детерминации. Коэффициентом детерминации называется число:

Линейные регрессионные модели - student2.ru . (1.12)

Коэффициент детерминации определяет наличие функциональной связи вида (1.9). Если Линейные регрессионные модели - student2.ru , то Линейные регрессионные модели - student2.ru , то есть неучтенные ошибки будут определяющими. Следовательно, линейная связь между Линейные регрессионные модели - student2.ru и Линейные регрессионные модели - student2.ru отсутствует. Если Линейные регрессионные модели - student2.ru , то Линейные регрессионные модели - student2.ru , то вектор Линейные регрессионные модели - student2.ru однозначно определяется переменными Линейные регрессионные модели - student2.ru . Если Линейные регрессионные модели - student2.ru , то связь между Линейные регрессионные модели - student2.ru и Линейные регрессионные модели - student2.ru недостаточно подтвержденная. Если Линейные регрессионные модели - student2.ru , то говорят о наличии средней связи. При Линейные регрессионные модели - student2.ru , применение линейной регрессии обосновано и связь сильная [27].

Факторный анализ

Факторный анализ является естественным обобщением и развитием метода главных компонент. Если объект описывается с помощью n признаков, то в результате действия метода получается математическая модель, зависящая от меньшего числа переменных. При этом предполагается, что на исходные измеряемые данные Линейные регрессионные модели - student2.ru оказывает влияние небольшое число латентных признаков. Цель факторного анализа заключается в выявлении этих скрытых характеристик (факторов) и оценивании их числа.

Запишем факторную модель в общем виде

Линейные регрессионные модели - student2.ru , (1.13)

где Линейные регрессионные модели - student2.ru , Линейные регрессионные модели - student2.ru – факторы, Линейные регрессионные модели - student2.ru – факторные нагрузки, Линейные регрессионные модели - student2.ru – латентные факторы, Линейные регрессионные модели - student2.ru

Техника факторного анализа направлена на определение факторных нагрузок, дисперсий характерных факторов и значений факторов для каждого наблюдаемого объекта.

Запишем двухфакторную модель в виде:

Линейные регрессионные модели - student2.ru , Линейные регрессионные модели - student2.ru

причем на Линейные регрессионные модели - student2.ru накладывают условие взаимной некоррелированности Линейные регрессионные модели - student2.ru и условие нормировки Линейные регрессионные модели - student2.ru .

Нахождение факторных нагрузок и факторов осуществляется с помощью метода неопределенных множителей Лагранжа из условия минимизации Линейные регрессионные модели - student2.ru . Так как Линейные регрессионные модели - student2.ru , то функция Лагранжа определяется следующим равенством:

Линейные регрессионные модели - student2.ru где Линейные регрессионные модели - student2.ru – неизвестные множители.

Для нахождения условного экстремума дифференцируем функцию Лагранжа по Линейные регрессионные модели - student2.ru и приравниваем найденные производные нулю:

Линейные регрессионные модели - student2.ru Линейные регрессионные модели - student2.ru (1.14)

где Линейные регрессионные модели - student2.ru .

Можно показать, что Линейные регрессионные модели - student2.ru . Тогда имеет место случай однофакторной модели, причем за фактор взят вектор Линейные регрессионные модели - student2.ru . Решение этой задачи известно: Линейные регрессионные модели - student2.ru – собственные вектора матрицы ковариаций Линейные регрессионные модели - student2.ru , Линейные регрессионные модели - student2.ru – ее собственные числа. При этом дисперсия Линейные регрессионные модели - student2.ru достигает минимума, если Линейные регрессионные модели - student2.ru и Линейные регрессионные модели - student2.ru будут первым и вторым наибольшими по величине собственными числами матрицы Линейные регрессионные модели - student2.ru .

Вводя в рассмотрение матрицу P c центрированными элементами исходных данных по формуле Линейные регрессионные модели - student2.ru и учитывая выполнение соотношения Линейные регрессионные модели - student2.ru , полученного ранее в однофакторной модели, определим факторы Линейные регрессионные модели - student2.ru как собственные вектора матрицы P, соответствующие ее первым максимальным по абсолютной величине собственным числам Линейные регрессионные модели - student2.ru и Линейные регрессионные модели - student2.ru .

Рассмотрение общего случая p–факторной модели производится в полном соответствии с двухфакторной моделью. Однако следует помнить, что при вычислении факторов и факторных нагрузок необходимо задействовать уже p наибольших по величине собственных чисел и p соответствующих им собственных векторов.

Найденные Линейные регрессионные модели - student2.ru образуют в пространстве признаков новый базис, а Линейные регрессионные модели - student2.ru играют роль координат Линейные регрессионные модели - student2.ru в этом базисе.

После определения факторов исследователю зачастую требуется оценить уровень информативности или вклад фактора в суммарную дисперсию всех признаков.

Определение: пусть имеется n-факторная модель. Пусть Линейные регрессионные модели - student2.ru – некоторый фактор, Линейные регрессионные модели - student2.ru . Вкладом фактора Линейные регрессионные модели - student2.ru в суммарную дисперсию всех признаков называется число Линейные регрессионные модели - student2.ru , где Линейные регрессионные модели - student2.ru – собственное число выборочной матрицы ковариаций Линейные регрессионные модели - student2.ru .

Очевидно, что для n-факторной модели общая дисперсия есть Линейные регрессионные модели - student2.ru . В этом случае Линейные регрессионные модели - student2.ru называют еще суммарной общностью факторов Линейные регрессионные модели - student2.ru .

Определение: долей фактора Линейные регрессионные модели - student2.ru в суммарной общности называется отношение Линейные регрессионные модели - student2.ru . Оно характеризует долю, которую вносит фактор Линейные регрессионные модели - student2.ru в факторную модель.

Определение: пусть Линейные регрессионные модели - student2.ru – собственные числа выборочной матрицы ковариаций Линейные регрессионные модели - student2.ru . Пусть собственному числу Линейные регрессионные модели - student2.ru соответствует фактор Линейные регрессионные модели - student2.ru и имеются факторные нагрузки Линейные регрессионные модели - student2.ru , которые, в свою очередь, являются наибольшими по абсолютной величине координатами вектора Линейные регрессионные модели - student2.ru . Тогда число Линейные регрессионные модели - student2.ru называется коэффициентом информативности признаков Линейные регрессионные модели - student2.ru .

Данное число определяет, какие вектора из множества Линейные регрессионные модели - student2.ru вносят наибольший вклад в название Линейные регрессионные модели - student2.ru . Принято считать набор объясняющих признаков Линейные регрессионные модели - student2.ru удовлетворительным, если Линейные регрессионные модели - student2.ru [21]


Наши рекомендации