Тема 9. КОРРЕЛЯЦИОННЫЙ МЕТОД АНАЛИЗА СВЯЗЕЙ. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
В парной корреляции исходят из постулата, что результативный признак зависит от одного факторного признака.
В действительности связь в экономических явлениях чаще является многофакторной. Уравнения, выражающие зависимость результативного признака от многих факторов, называются многофакторными (множественными) корреляционными уравнениями.
Линейное уравнение множественной регрессии в общем виде представляется формулой
,
где – значение результативного признака, соответствующее заданным факторным признакам .
, – параметры уравнения.
Параметр экономической интерпретации не имеет. Параметр называется коэффициентом условно-чистой регрессии.
Термин «коэффициент условно-чистой регрессии» означает, что каждая из величин измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют.
Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты не свободны от примеси влияния факторов, не входящих в уравнение.
Параметры уравнения , найдем методом наименьших квадратов (МНК). Для этого необходимо минимизировать сумму квадратов отклонений результативного признака от теоретического значения результативного признака , т.е. найти параметры , , при которых функция достигает минимума.
Запишем необходимые условия экстремума:
,
,
,
…
или
,
,
,
…
.
Раскроем скобки и получим стандартную форму нормальных уравнений. Параметры уравнения , найдем из решения системы этих нормальных уравнений:
Уравнение множественной регрессии в нелинейной форме не применяют в связи с тем, что их решение в математическом плане становится сверхсложной задачей.
При построении уравнения множественной регрессии принципиальное значение приобретает отбор факторов, которые будут участвовать в данной модели.
Выбранная функция должна отразить основные закономерности, но в то же время иметь по возможности простой вид.
Отбор факторов для модели может быть выполнен в следующей последовательности.
На первой стадии производится априорный анализ явления, и устанавливаются все возможные факторы.
На второй стадии осуществляется сравнительная оценка и отсев части факторов с помощью парных коэффициентов корреляции.
Если абсолютная величина парного коэффициента корреляции =0,8 и более, то факторы и считаются коллинеарными (дублирующими друг друга) и один из них отбрасывается.
На третьей стадии выполняется многошаговый процесс вычислений с последовательным отсевом наименее значимого фактора , у которого парный коэффициент корреляции оказался наименьшим.
Для каждой модели, включающей в себя число факторов, последовательно уменьшенное на один из них, рассчитывается совокупный коэффициент корреляции или корреляционное отношение, которые равны между собой. Модель с наибольшим совокупным коэффициентом корреляции (или корреляционным отношением) считается наиболее оптимальной.
Рассмотрим множественное уравнение регрессии с двумя признаками-факторами:
.
Параметры уравнения найдем из решения системы нормальных уравнений:
Решение данной системы имеет вид:
Совокупный коэффициент корреляции вычисляется по формуле:
,
где – это линейный коэффициент корреляции, который исчислен по указанным парам показателей и , и , и . Так, например,
,
где – среднее значение произведения признаков и ;
– средние значения признаков и ;
– средние квадратические отклонения признаков и ;
Корреляционное отношение вычисляется по формуле:
,
где – индивидуальные значения результативного признака,
– теоретические значения результативного признака, которые находятся по уравнению множественной регрессии,
– среднее значение результативного признака.
При этом совокупный коэффициент корреляции равен корреляционному отношению.
Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации
.
Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.
Значимость модели множественной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
,
где m – количество объясняющих переменных модели.
2. Критическую точку F-критерия Фишера определяем по соответствующей таблице
,
где - уровень значимости, обычно или ( , где - доверительная вероятность);
m и n-m-1 – числа степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателями и y.
Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями и y.
Значимость коэффициента регрессии ( ) проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза ( ) (о незначимости коэффициента регрессии) при конкурирующей гипотезе ( ).
1. Наблюдаемое значение критерия находится по формуле:
( ),
где ( ) - среднеквадратическая (стандартная) ошибка параметра регрессии ( ), находится по формуле
( ),
где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или ( , где - доверительная вероятность);
– число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.
Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессии a.
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости параметра a, т.е. параметра a не равен нулю.
Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:
где , , - среднеквадратические ошибки параметров регрессии a, и , соответственно,
- табличное значение критерия Стьюдента при заданном уровне значимости и числе степеней свободы .
Точечный прогноз находится по построенной модели множественной линейной регрессии.
Пример.Имеются данные об объеме сбережений домохозяйства, располагаемого им дохода и процентной ставки за 11 лет (см. табл. 9.1).
Таблица 9.1
Год | Располагаемый доход домохозяйства, тыс. руб. | Процентная ставка, % | Объем сбережений домохозяйства, тыс. руб. |
Необходимо:
1) построить модель множественной линейной регрессии зависимости объема сбережений домохозяйства от располагаемого им дохода и процентной ставки;
2) оценить тесноту связи между указанными признаками с помощью совокупного коэффициента корреляции;
3) определить значимость построенной модели с помощью коэффициента детерминации;
4) при уровне значимости проверить значимость
а) модели множественной линейной регрессии,
б) параметров регрессии
и сделать соответствующие выводы;
5) построить 95%-ные доверительные интервалы для найденных параметров регрессии.
6) спрогнозировать средний объем сбережений в 1991 году, если предполагаемый доход составит 170 тыс. руб., а процентная ставка будет равна 5,5%.
Решение.
1) Так как объем сбережений домохозяйства зависит от располагаемого им дохода и процентной ставки, то в качестве факторных признаков ( и ) будут выступать доход и процентная ставка, а в качестве результативного (y) – объем сбережений.
Для нахождения параметров множественной регрессии рассчитаем необходимые суммы и средние величины (см. табл. 9.2 и 9.3).
Таблица 9.2
Год | y | ||||
5831,405 | 1,860 | ||||
4404,132 | 1,860 | ||||
1322,314 | 0,132 | ||||
695,041 | 1,860 | ||||
267,769 | 0,132 | ||||
267,769 | 0,405 | ||||
13,223 | 0,405 | ||||
558,678 | 0,132 | ||||
2876,860 | 0,405 | ||||
5422,314 | 2,678 | ||||
6995,041 | 2,678 | ||||
Сумма: | 28654,545 | 12,545 | |||
Среднее: | 176,364 | 3,364 | 36,818 |
Таблица 9.3
Год | ||||
104,132 | 1284,298 | 22,934 | 282,851 | |
90,496 | 784,298 | 16,116 | 139,669 | |
13,223 | 247,934 | 2,479 | 46,488 | |
35,950 | 179,752 | 9,298 | 46,488 | |
5,950 | 29,752 | 0,661 | 3,306 | |
-10,413 | -19,339 | 0,752 | 1,397 | |
2,314 | 11,570 | 2,025 | 10,124 | |
-8,595 | 27,934 | -0,430 | 1,397 | |
34,132 | 385,207 | 4,570 | 51,579 | |
120,496 | 970,661 | 21,570 | 173,760 | |
136,860 | 1520,661 | 29,752 | 330,579 | |
Сумма: | 524,545 | 5422,727 | 109,727 | 1087,636 |
Тогда
Таким образом, модель множественной линейной регрессии имеет вид
.
2) Оценим тесноту связи между указанными признаками с помощью совокупного коэффициента корреляции. Средние значения признаков , и y найдены в таблице 9.2. Рассчитаем дисперсии и среднеквадратические отклонения этих признаков (необходимые суммы найдены в таблицах 9.2 и 9.3):
; (тыс. руб.);
; (%);
; (тыс. руб.).
Рассчитаем в таблице 9.4 суммы и средние величины, необходимые для нахождения парных линейных коэффициентов корреляции.
Таблица 9.4
Год | y | |||||
Сумма: | ||||||
Среднее: | 176,364 | 3,364 | 36,818 | 640,909 | 6986,364 | 133,818 |
Найдем парные линейные коэффициенты корреляции:
,
,
.
Итак, совокупного коэффициента корреляции
,
что свидетельствует о весьма высокой связи между этими признаками, т.е. между объемом сбережений домохозяйства, располагаемого им дохода и процентной ставкой.
3) Коэффициент детерминации , следовательно, модель объясняет зависимость между переменными на 97,8 %.
4а) При уровне значимости проверим гипотезу о значимости модели множественной линейной регрессии.
,
.
1. Наблюдаемое значение критерия:
,
2. Критическая точка ,
3. Т.к. (175,4735>4,46), то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями и y (совокупное влияние переменных и на переменную y существенно).
4б) При уровне значимости проверим гипотезы о значимости параметров регрессии.
Рассчитаем стандартную ошибку регрессии, для этого в таблице 9.5 найдем теоретические значения и .
Таблица 9.5
Год | y | ||||
22,489 | 6,1927 | ||||
23,730 | 1,6119 | ||||
31,010 | 1,0199 | ||||
28,698 | 1,6953 | ||||
33,494 | 2,2690 | ||||
37,048 | 0,9072 | ||||
39,531 | 0,2197 | ||||
38,461 | 0,2127 | ||||
45,741 | 3,0302 | ||||
51,778 | 3,1626 | ||||
53,020 | 3,9193 | ||||
Сумма: | 24,2406 |
Тогда .
Для коэффициента регрессии :
,
.
1. Наблюдаемое значение критерия:
,
где
;
2. Критическая точка ;
3. Т.к. (5,8495>2,31), то отклоняем нулевую гипотезу о незначимости коэффициента регрессии .
Для коэффициента регрессии :
,
.
1. Наблюдаемое значение критерия:
,
где ;
2. Критическая точка ;
3. Т.к. (3,5025>2,31), то отклоняем нулевую гипотезу о незначимости коэффициента регрессии .
Для параметра регрессии a:
,
.
1. Наблюдаемое значение критерия:
,
где
2. Критическая точка ;
3. Т.к. (1,5647<2,31), то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю, и он может не использоваться в модели. Однако наличие свободного члена в линейном уравнении может лишь уточнить вид зависимости. Поэтому, если нет серьезных причин для удаления свободного члена из уравнения регрессии, то лучше его использовать в модели.
5) Построим 95%-ные доверительные интервалы для найденных параметров регрессии в соответствии с выше приведенными формулами.
Для параметра регрессии a:
или (-1,4031;7,3270),
для коэффициента регрессии :
или (0,0753;0,1731),
для коэффициента регрессии :
или (1,2142;5,8935).
6) Прогноз среднего объема сбережений в 1991 году найдем по построенной модели множественной линейной регрессии.
(тыс. руб.).