Множественный регрессионный анализ

Цель работы

Освоение методов построения регрессионных моделей на основе обработкой статистических данных.

Теоретические сведения

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели [1, 2].

В регрессионных моделях зависимая (объясняемая) переменная Y может быть представлена в виде функции f (X1, X2, X3, … Xm), где X1, X2, X3, … Xm - независимые (объясняющие) переменные, или факторы. В качестве зависимой переменной может выступать практически любой показатель, харак­теризующий, например, функционирование сложной системы, деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f (X1, X2, X3, … Xm) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

Связь между переменной Y и m независимыми факторами можно охарактеризовать функцией регрессии Y= f (X1, X2, X3, … Xm), которая показывает, каково будет в среднем значение переменной yi, если переменные xi примут конкретные значения.

Данное обстоятельство позволяет использовать модель регрессии не только для анализа, но и для прогнозирования процессов и результатов функционирования систем..

Линейная модель множественной регрессии имеет вид:

Y i = a0 + a1x i 1 +a2x i 2 +…+ am x i m + ei , Множественный регрессионный анализ - student2.ru . (1)

коэффициент регрессии aj показывает, на какую величину в среднем изменится результативный признак Y, если переменную xj увеличить на единицу измерения. Обычно предполагается, что случайная величина ei имеет нормальный закон распределения с математическим ожиданием равным нулю и с дисперсией Множественный регрессионный анализ - student2.ru .

Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения (2):

Y = X a + e, (2)

где Y - вектор зависимой переменной размерности п ´ 1, представляющий собой п наблюдений значений уi;Х- матрица п наблюдений независимых переменных X1, X 2, X 3 , … X m, размерность матрицыХ равна п ´(т+1); a— подлежащий оцениванию вектор неизвестных параметров размерности (т+1)´1;e-вектор случайных отклонений (возмущений) размерности п ´1.

Уравнение (1) содержит значения неизвестных пара­метров a0,a1,a2,… ,am. Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрес­сии, в которой вместо истинных значений параметров под­ставлены их оценки (а именно такие регрессии и приме­няются на практике), имеет вид:

Множественный регрессионный анализ - student2.ru (3)

где а- вектор оценок параметров; е - вектор отклонений регрессии, остатки регрессии, Множественный регрессионный анализ - student2.ru оценка значе­ний Y, равная Множественный регрессионный анализ - student2.ru =Ха.

Параметры модели множественной регрессии можно оценить с помощью метода наименьших квадратов.

Формулу для вычисления параметров регрессионного уравнения имеет вид:

a = (Xт X )- 1 X т Y (4)

Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т.е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы ис­ходных данных Х линейно независимы. Это условие выполняется не всегда. Линейная или близкая к ней связь между факторами называется мультиколлинеарностью и приводит к линейной зависимости нормальных уравнений, что делает вычисле­ние параметров либо невозможным, либо затрудняет содержатель­ную интерпретацию параметров модели.

Мультиколлинеарность может возникать в силу разных причин. На­пример, несколько независимых переменных могут иметь общий вре­менной тренд, относительно которого они совершают малые колебания. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0.8. Чтобы избавиться от мультиколлинеарности, в модель включают лишь один из линейно связанных между собой факторов, причем тот, который в большей степени свя­зан с зависимой переменной Y. Множественный регрессионный анализ - student2.ru

Качество модели регрессии оценивается по следующим направлениям:

1) проверка качества всего уравнения регрессии;

2) проверка значимости всего уравнения регрессии;

3) проверка статистической значимости коэффициентов уравнения регрессии;

4) проверка выполнения предпосылок МНК.

Для оценки качества модели множественной регрессии вычисляют коэффициент множественной корреляции (индекс корреляции) R икоэффициент детерминацииR2:

Множественный регрессионный анализ - student2.ru , (5)

где у - фактическое значение зависимой переменной; y*- рассчитанное по уравнению регрессии значение зависимой переменной; y - среднее арифметическое значение переменной у.

Чем ближе к единице значение R2, тем выше качество модели.

В многофакторной регрессии добавление дополнительных объ­ясняющих переменных увеличивает коэффициент детерминации. Следовательно, коэффициент детерминации должен быть скор­ректирован с учетом числа независимых переменных. Скоррек­тированный R2, или Множественный регрессионный анализ - student2.ru , рассчитывается так:

Множественный регрессионный анализ - student2.ru , (6)

где n - число наблюдений; k -число независимых переменных.

Проверка значимости модели регрессии

Для проверки значимости модели регрессии используется

F-критерий Фишера, вычисляемый по формуле:

Множественный регрессионный анализ - student2.ru (7)

Если расчетное значение с f1= к и f 2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

Анализ статистической значимости параметров модели

значимость отдельных коэффициентов регрессии проверяется по t-статистике пу­тем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

taj = Множественный регрессионный анализ - student2.ru / Saj , (8)

где Saj -это стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj.Величина Saj представляет собой квадратный корень из произ­ведения несмещенной оценки дисперсии Множественный регрессионный анализ - student2.ru и j-го диагонального эле­мента матрицы, обратной матрице системы нормальных уравнений.

Saj = Множественный регрессионный анализ - student2.ru Множественный регрессионный анализ - student2.ru , (9)

где bjj - диагональный элемент матрицы (ХТ Х)-1.

Если расчетное значение t-критерия с (n - k - 1) степенями сво­боды превосходит его табличное значение при заданном уровне зна­чимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует ис­ключить из модели, при этом оставшиеся в модели параметры должны быть пересчитаны.

Проверка выполнения предпосылок МНК

Проверка выполнения предпосылок МНК выполняется на основе анализа остаточной компоненты. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения остатков.

Исследование остатков полезно начинать с изучения их графика. 0н может показать наличие какой-то зависимости, не учтенной в модели. График остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент.

График остатков показывает и резко отклоня­ющиеся от модели наблюдения - выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как их присутствие мо­жет грубо искажать значения оценок. Устранение эффектов вы­бросов может проводиться либо с помощью удаления этих точек из анализируемых данных, (эта процедура называется цензурированием), либо с помощью применения методов оценивания параметров, устойчи­вых к подобным грубым отклонениям.

Независимость остатков можно проверить расчетом первого коэффициента автокорреляции:

Множественный регрессионный анализ - student2.ru . (10)

Для принятия решения о наличии или отсутствии автокорреляции в исследуемом ряду фактическое значение коэффициента автокорреляции r(1) сопоставляется с табличным (критическим) значением для 5%-ного уровня значимости (вероятности допустить ошибку при принятии нулевой гипотезы о независимости уровней ряда). Если фактическое значение коэффициента автокорреляции меньше табличного, то гипотеза об отсутствии автокорреляции в ряду может быть принята, а если фактическое значение больше табличного – делают вывод о наличии автокорреляции в ряду динамики.

Обнаружение гетероскедастичности

Для обнаружения гетероскедастич­ности обычно используют три теста, в которых делаются различные предположения о зависимости между дисперсией случайного члена и объясняющей переменной: тест ранговой корреляции Спирмена, тест Голдфельда-Квандта и тест Глейзера [Доугерти].

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Голдфельда - Квандта.

Данный тест используется для проверки такого типа гетероскедастичности, когда дисперсия остатков возрастает пропорционально квадрату фактора. При этом делается предположение, что, случайная составляющая Множественный регрессионный анализ - student2.ru распределена нормально.

Чтобы оценить нарушение гомоскедастичности по тесту Голдфельда - Квандта необходимо выполнить следующие шаги.

1) Упорядочение п наблюдений по мере возрастания перемен­ной х.

2) Разделение совокупности на две группы (соответственно с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.

3) Определение остаточной суммы квадратов для первой регрессии S и второй регрессии S .

4) Вычисление отношений Множественный регрессионный анализ - student2.ru (или Множественный регрессионный анализ - student2.ru ). В числителе должна быть большая сумма квадратов.

Полученное отношение имеет F распределение со степенями свободы k1=n1-m и k2=n-n1-m, (m – число оцениваемых параметров в уравнении регрессии).

Если Множественный регрессионный анализ - student2.ru , то гетероскедастичность имеет место.

Оценка влияния отдельных факторов на зависимую переменную на основе модели (коэффициенты эластичности, b - коэффициенты)

Важную роль при оценке влияния факторов играют коэффициен­ты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени ко­леблемости. Для устранения таких различий при интерпретации применяются коэффициенты эластичности Эj и бета-коэффициенты bj, которые рассчитываются по формулам: Множественный регрессионный анализ - student2.ru (11-12)

где Sxj , Sy - среднеквадратическое отклонение соответственно фактора j и зависимой переменной у.

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора Хj на один процент. Однако он не учитывает степень колеблемости факторов.

Бета-коэффициент показывает, на какую часть величины средне­го квадратичного отклонения Sy изменится зависи­мая переменная Y с изменением соответствующей независимой пере­менной Хj на величину своего среднеквадратичного отклонения при фиксирован­ном на постоянном уровне значении остальных независимых пере­менных.

Указанные коэффициенты позволяют упорядочить факторы по степени их влияния на зависимую переменную.

Долю влияния фактора i в суммарном влиянии всех факторов мож­но оценить по величине дельта - коэффициентов D (j):

Множественный регрессионный анализ - student2.ru (13)

где Множественный регрессионный анализ - student2.ru - коэффициент парной корреляции между фактором х j (j = 1,...,m) и зависимой переменной y.

Одной из целей моделирования является прогнозирование поведения исследуемого объекта. При использовании модели для прогнозирования делается предположение о сохранении в период прогнозирования существовавших ранее взаимосвязей переменных.

Для того чтобы определить область возможных значений резуль­тативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание на­блюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точ­ности, в частности, величиной Sε. Ошибки второго рода обусловле­ны фиксацией численных значений коэффициентов регрессии, в то время как они в действительности являются случайными, нормально распределенными величинами.

Для линейной модели регрессии доверительный интервал рассчи­тывается следующим образом. Оценивается величина отклонения от линии регрессии (обозначим ее U):

Множественный регрессионный анализ - student2.ru (14)

где Множественный регрессионный анализ - student2.ru

Пример. Построить модель для предсказания объема реализации одного из продуктов фирмы. Объем реализации – это зависимая переменная Y (млн. руб.) В качестве независимых, объясняющих переменных выбраны: время - X1, расходы на рекламу X 2 (тыс. руб.), цена товара X3 (руб.), средняя цена товара у конкурентов X4 (руб.), индекс потребительских расходов X5 (%) [1].

Статистические данные по всем переменным приведены в таблице 1. В этом примере n = 16, m = 5.

Таблица 1- Данные объема реализации одного из продуктов фирмы

Y Х1 X2 X3 X4 X5
Объем реализации Время   Реклама Цена Цена конкурента Индекс потребительских расходов
4,8 14,8 17,3 98,4
3,8 15,2 16,8 101,2
8,7 15,5 16,2 103,5
8,2 15,5 104,1
9,7
14,7 18,1 20,2 107,4
18,7 15,8 108,5
19,8 15,8 18,2 108,3
10,6 16,9 16,8 109,2
8,6 16,3 110,1
6,5 16,1 18,3 110,7
12,6 15,4 16,4 110,3
6,5 15,7 16,2 111,8
5,8 17,7 112,3
5,7 15,1 16,2 112,9

1) Осуществим выбор факторных признаков для построения двухфакторной регрессионной модели. Для этого проведем корреляционный анализ данных (таблица 2):

Таблица 2 - Результат корреляционного анализа.

Факторные признаки Объем реализации Время Реклама Цена Цена конкурента Индекс потребительских расходов
Столбец 1 Столбец 2 Столбец 3 Столбец 4 Столбец 5 Столбец 6
Объем реализации          
Время 0.678        
Реклама 0.646 0.106      
Цена 0.233 0.174 -0.003    
Цена конкурента 0.226 -0.051 0.204 0.698  
Индекс потребительских расходов 0.816 0.960 0.273 0.235 0.03

Анализ матрицы коэффициентов парной корреляции (табл.2) показывает, что зависимая переменная, т.е. объем реализации имеет тесную связь с индексом потребительских расходов (ryx5= 0.816), с расходами на рекламу (ryx2 = 0.646) и со временем (ryx1 = 0.678). Однако факторы Х2 и Х5 тесно связаны между собой (r х 1x5 = 0.96), что свидетельствует о наличии мультиколлинеарности. Из этих двух переменных оставим в модели Х5 - индекс потребительских расходов. После исключения незначимых факторов n = 16, k =2.

2) Оценим параметры регрессии по методу наименьших квадратов. Расчеты произведем в программе EXCEL (таблицы 3 – 6):

Таблица 3- Регрессионная статистика.

Регрессионная статистика
Множественный R 0.927
R-квадрат 0.859
Нормированный R-квадрат 0.837
Стандартная ошибка 41.473
Наблюдения 16.000

Таблица 4 – Дисперсионный анализ

Дисперсионный анализ        
df SS MS F
Регрессия 136358.33 68179.167 39.639
Остаток 22360.104 1720.008  
Итого 158718.44    

Таблица 5 – Коэффициенты модели

Коэффициенты Стандартная ошибка t-статистика
Y-пересечение -1471.314 259.766 -5.664
Реклама 9.568 2.266 4.223
Индекс потребительских расходов 15.753 2.467 6.386

Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в следующем виде: y = -1471,314 + 9,568х1 + 15,754х2.

Таблица 6 – Вывод остатка

Множественный регрессионный анализ - student2.ru 3) Оценим качества всего уравнения регрессии. Коэффициент детерминации R2 = 0,859показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 86% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов.

Коэффициент множественной корреляции равен R=0,927. Он показывает тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.

4) Проверку значимости уравнения регрессии произведем на основе вычисления Fрас - критерия Фишера. Расчетное значение критерия равно 39,639. Табличное значение Fтабл- критерия при доверительной вероятности 0,95 при f1= k =2 и f2=n – k -1= 16 – 2 - 1=13 составляет 3,81. Поскольку F Множественный регрессионный анализ - student2.ru >F Множественный регрессионный анализ - student2.ru , уравнение регрессии следует признать адекватным.

5) Оценим с помощью t - критерия Стъюдента статистическую значимость коэффициентов уравнения множественной регрессии. Расчетные значения t – критерия приведены в таблице 5. Табличное значение t-критерия при 5% уровне значимости и степенях свободы (16-2-1=13) составляет 2,16. Так как |t Множественный регрессионный анализ - student2.ru |>t Множественный регрессионный анализ - student2.ru , то коэффициенты a1, а Множественный регрессионный анализ - student2.ru и существенны (значимы).

6) Проанализируем влияние факторов на зависимую переменную по модели (для каждого коэффициента регрессии вычисляем коэффициент эластичности Э, b - коэффициенты.

Множественный регрессионный анализ - student2.ru 9,568´9,294/306,813=0,2898; Множественный регрессионный анализ - student2.ru 15,7529´107,231/306,813=5,506;

Множественный регрессионный анализ - student2.ru 9,568´4,913/102,865=0,457; Множественный регрессионный анализ - student2.ru 15,7529´4,5128/102,865=0,691.

7) Определим точечный и интервальный прогнозные оценки объема реализации на два квартала вперед (t0,7 = 1,12). Исходные данные представлены временными рядами, поэтому прогнозные значения Множественный регрессионный анализ - student2.ru , Множественный регрессионный анализ - student2.ru и Множественный регрессионный анализ - student2.ru , Множественный регрессионный анализ - student2.ru можно определить с помощью методов экспертных оценок, с помощью средних абсолютных приростов или вычислить на основе экстраполяционных методов.

Для фактора Х1 «Затраты на рекламу» выбрана модель:

Х1 = 12,83-11,616t +4,319t2 –0,552t3+0,020t4-0,0006t5,

по модели получаем прогноз на 2 месяца вперед. График модели временного ряда «Затраты на рекламу» приведен на рисунке 1.

Множественный регрессионный анализ - student2.ru Множественный регрессионный анализ - student2.ru

Рисунок 1 - Прогноз показателя «Затраты на рекламу»

Для временного ряда «Индекс потребительских расходов» в качестве аппроксимирующей функции выбираем полином второй степени (параболу), по которой строим прогноз на два шага вперед:

Упреждение Прогноз  
112,468  
112,488  

Х2 = 97,008+1,739t – 0,0488t2 .

Для получения прогнозных оценок зависимой переменной по модели Y = -1471,438 + 9,568X1 + 15,754X2 подставим в нее найденные прогнозные значения факторов X1 и X2:

Yt=17 = -1471,438 + 9,568*5.75 + 15,754*112,468=355,399,

Yt=18 = -1471,438 + 9,568*4.85 + 15,754*112,488=344,179.

Результаты прогнозных оценок модели регрессии, для выбранной вероятности 90% с числом степеней свободы равным 13 (tкр = 1,77), представлены в таблице 7

Таблица 7 – Таблица прогнозов

Таблица прогнозов (p = 90%) Прогноз Нижняя граница Верхняя граница
Упреждение
355,399 273,94 436,85
344,179 261,71 426,65

Задание к лабораторной работе

1) Осуществить выбор факторных признаков для построения регрессионной модели.

2) Рассчитать параметры модели.

3) Для оценки качества всего уравнения регрессии определить:

- линейный коэффициент множественной корреляции,

- коэффициент детерминации,

4) Осуществить оценку значимости уравнения регрессии.

5) Оценить с помощью t-критерия Стьюдента статистическую значимость коэффициентов уравнения множественной регрессии.

6) Отбросить незначимые переменные, снова пересчитать коэффициенты регрессии.

7) Оценить влияние факторов на зависимую переменную по модели.

8) Построить точечный и интервальный прогноз результирующего показателя на два шага вперед при уровне значимости Множественный регрессионный анализ - student2.ru

Наши рекомендации