Множественная (многофакторная) регрессия

Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной)регрессии:

Множественная (многофакторная) регрессия - student2.ru

Построение моделей множественной регрессии включает несколько этапов:

  1. Выбор формы связи (уравнения регрессии);
  2. Отборфакторных признаков;
  3. Обеспечение достаточного объема совокупности.

Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно выбрать целый ряд уравнений, которые в определенной степени будут описывать эти связи. Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор и последующее включение факторных признаков.

С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных при­знаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует простоте и качеству ее реализации. В то же время построение модели регрессии малой размерности может привести к тому, что такая мо­дель будет недостаточно адекватна исследуемым явлениям и процессам.

Проблема отбора факторных признаков для построения моделей взаимосвязи мо­жет быть решена на основе интуитивно-логических или многомерных математико-статистических методов анализа.

Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия(шаговый регрессионный анализ). Сущность метода шаговой регрессии заклю­чается в реализации алгоритмов последовательного «включения», «исключения» или «включения-исключения» факторов в уравнение регрессии и последующей проверке их статистической значимости. Алгоритм «включения» заключается в том, что факторы по­очередно вводятся в уравнение так называемым «прямым методом». При проверке значи­мости введенного фактора определяется, на сколько уменьшается сумма квадратов остат­ков и увеличивается величина множественного коэффициента корреляции (R2). Одновре­менно используется и алгоритм последовательного «исключения», сущность которого за­ключается в том, что исключаются факторы, ставшие незначимыми по статистическим критериям.

Фактор является незначимым, если его включение в уравнение регрессии только изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффи­циента регрессии не изменяется (или меняется несущественно), то данный признак суще­ственен и его включение в уравнение регрессии необходимо. В противном случае, фактор нецелесообразно включать в модель регрессии.

При построении модели регрессии возможна проблема мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель (rxy > 0,8).

Наличие мультиколлинеарности между признаками вызывает:

• искажение величины параметров модели, которые имеют тенденцию к завышению, чем осложняется процесс определения наиболее существенных факторных призна­ков;

• изменение смысла экономической интерпретации коэффициентов регрессии.

В качестве причин возникновения мультиколлинеарности между признаками мож­но выделить следующие:

• изучаемые факторные признаки являются характеристикой одной и той же стороны изучаемого явления или процесса. Например: показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;

• факторные признаки являются составляющими элементами друг друга. Например: показатели выработки продукции на одного работающего и численность работающих одновременно в модель включать нельзя, так как в основе расчета показателей лежит один и тот же показатель - численность работающих на предприятии.

• факторные признаки по экономическому смыслу дублируют друг друга.

Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

Вопрос о том, какой из факторов следует отбросить, решается на основании качественного,логического анализа изучаемого явления, а также на основе анализа тесноты связимежду результативным (у) с каждым из сильно коллинеарно связанных факторных признаков. Из дальнейшего анализа целесообразно исключить тот факторный признак, которого с результативным наименьшая.

Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности. Исследователь должен стремиться к увеличению - числа наблюдений, так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей.

Аналитическая форма связи результативного признака от нескольких факторных чается и называется многофакторным (множественным) уравнением регрессии или моделью связи.

Линейное уравнение множественной регрессии имеет вид:

Множественная (многофакторная) регрессия - student2.ru

Множественная (многофакторная) регрессия - student2.ru - теоретические значения результативного признака, полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии;

x1,x2,…,xk — факторные признаки;

a12,…,аk — параметры модели (коэффициенты регрессии).

Параметры уравнения могут быть определены графическим методом или методом наименьших квадратов.

Пример.

По следующим данным о выручке (у), спросу по номиналу (x1)и объему продаж (х2) корпоративных ценных бумаг определим зависимость между признаками.

Таблица 8.4.

Наши рекомендации