Залежність споживання від доходів
Самостійна робота
з курсу «Економетрика»
Виконав:
студент 3 курсу
Будько Кирило Андрійович
Викладач:
к. ф-м. н. доцент
Комашко Олег Валентинович
Залежність споживання від доходів
У цій роботі була досліджена залежність витрат населення на придбання товарів та послуг від заробітної платні, прибутку та змішаного доходу, доходів від власності та одержаних трансфертів. Дані було взято з сайту державного комітету статистики, з 1-го кварталу 2006го по 31 2011го. Розрахунки здійснювалися за допомогою R та MS EXSEL.
Отже, припустивши, що зв’язок між наведеними показниками є лінійним, ми отримали наступну регресію:
vyt =-1486.5342 + 1.3777 zp + 0.2821 pr - 0.1835 doh + 0.4960 tr,
де vyt - витрати населення на придбання товарів та послуг, zp - заробітна платня, pr – прибуток та змішаний доход, doh - доход від власності, tr – трансферт.
Відповідний фрагмент коду:
Residuals:
Min 1Q Median 3Q Max
-11262.3 -2272.3 117.1 2608.5 10014.0
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1486.5342 4429.7041 -0.336 0.7411
zp 1.3777 0.2186 6.303 6.09e-06 ***
pr 0.2821 0.1471 1.917 0.0712 .
doh -0.1835 0.1979 -0.927 0.3660
tr 0.4960 0.1845 2.688 0.0150 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5178 on 18 degrees of freedom
Multiple R-squared: 0.992, Adjusted R-squared: 0.9902
F-statistic: 557.3 on 4 and 18 DF, p-value: < 2.2e-16
Коефіцієнт детермінації є близьким до 1, що свідчить про тісноту лінійного зв’язку. Значущими є коефіцієнти при заробітній платні (рівень надійності >99,9%), прибутку (>90%) та трансфертах (>95%). Регресія є адекватною, оскільки p-value є дуже малим.
Рис. 1 Залишки базової моделі
Рис. 2 Стандартизовані залишки та регресійна пряма базової моделі
Тепер перевіримо гіпотезу про значення коефіцієнтів. Перевіримо, чи можна вважати коефіцієнт при заробітній платні рівним 1. Порівняємо практичне значення статистики Стьюдента з теоретичним.
Фрагмент коду:
(1.3777-1)/0.2186 = 1.727813
qt(0.95,18) = 1.734064
, отже з 95% рівнем надійності можна стверджувати, що коефіцієнт при заробітній платні є рівним 1.
Тепер перевіримо гіпотезу про лінійні обмеження на коефіцієнти регресії. Перевіримо, чи можна вважати суму коефіцієнтів при заробітній платні, прибутку та змішаному доході рівною 2, застосовуючи критерій Вальда.
Фрагмент коду:
t=matrix(0,ncol = 5)
t[1,2]=1
t[1,3]=1
x=matrix(nrow=23,ncol=5)
for(i in 1:23)for(j in 2:5) {x[i,j]=sh1[i,j+1]}
x[,1]=1
b=matrix(nrow=1,ncol=5)
b[,1]=-1486.5342
b[,2]= 1.3777
b[,3]= 0.2821
b[,4]= -0.1835
b[,5]= 0.4960
fpr=(t(t%*%t(b)-2)%*%solve(t%*%solve(t(x)%*%x)%*%t(t))%*%(t%*%t(b)-2))*18/ sum(residuals(fm1)^2) = 5.191101
qf(0.05,1,18) = 0.004043292
t – матриця коефіцієнтів при обмеженнях, х – матриця значень змінних, b – матриця оцінок коефіцієнтів регресії. , тобто відповідну гіпотезу з 95% рівнем надійності прийняти не можна.
Перевіримо гіпотезу про стійкість моделі. Розіб’ємо спостереження на дві группи, з 1го кварталу 2006го по 4й 2008го (12 спостережень) та з 1го 2009го по 3й 2011го (11 спостережень). Визначимо, чи викликала криза суттєві зрушення у споживанні, та чи слід розбивати цю модель на дві.
Фрагмент коду:
vyt1=sh1[1:12,2]
vyt2=sh1[13:23,2]
zp1=sh1[1:12,3]
pr1=sh1[1:12,4]
doh1=sh1[1:12,5]
tr1=sh1[1:12,6]
zp2=sh1[13:23,3]
pr2=sh1[13:23,4]
doh2=sh1[13:23,5]
tr2=sh1[13:23,6]
fm01=lm(vyt1~zp1+pr1+doh1+tr1)
fm02=lm(vyt2~zp2+pr2+doh2+tr2)
summary(fm01)
lm(formula = vyt1 ~ zp1 + pr1 + doh1 + tr1)
Residuals:
Min 1Q Median 3Q Max
-3151.73 -886.58 -96.53 1363.20 3113.31
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3398.0518 3323.9132 -1.022 0.34066
zp1 1.2100 0.2529 4.784 0.00200 **
pr1 0.1287 0.1248 1.031 0.33684
doh1 -0.1480 0.8798 -0.168 0.87116
tr1 0.7831 0.2154 3.636 0.00833 **
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2343 on 7 degrees of freedom
Multiple R-squared: 0.9975, Adjusted R-squared: 0.9961
F-statistic: 710.9 on 4 and 7 DF, p-value: 3.297e-09
summary(fm02)
lm(formula = vyt2 ~ zp2 + pr2 + doh2 + tr2)
Residuals:
Min 1Q Median 3Q Max
-10519 -4547 2011 5019 7881
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2990.8815 26524.4902 -0.113 0.9139
zp2 1.3678 0.5578 2.452 0.0496 *
pr2 0.3568 0.3199 1.115 0.3074
doh2 -0.1925 0.3542 -0.543 0.6064
tr2 0.4918 0.6442 0.763 0.4742
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8123 on 6 degrees of freedom
Multiple R-squared: 0.968, Adjusted R-squared: 0.9466
F-statistic: 45.31 on 4 and 6 DF, p-value: 0.0001284
rss1=sum(residuals(fm01)^2)
rss2=sum(residuals(fm02)^2)
rss=sum(residuals(fm1)^2)
(rss-rss1-rss2)/5*13/(rss1+rss2) = 0.2895121
qf(0.95,5,13) = 3.025438
, отже з 95% рівнем надійності початкова модель є стійкою, і не потребує розбиття на дві.
Подивимося, чи впливає сезонність на витрати на споживання. Введемо 3 бінарні змінні, що відповідають кварталам, взявши 1й за базовий. Маємо:
fmz=lm(vyt~zp+pr+doh+tr+q2+q3+q4)
summary(fmz)
Residuals:
Min 1Q Median 3Q Max
-7376 -1388 648 2014 4932
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.003e+03 4.226e+03 2.131 0.050088 .
zp 1.087e+00 1.839e-01 5.912 2.85e-05 ***
pr 1.114e+00 2.629e-01 4.236 0.000719 ***
doh -3.128e-01 1.611e-01 -1.942 0.071198 .
tr 4.939e-01 1.354e-01 3.648 0.002381 **
q2 -7.772e+03 2.260e+03 -3.439 0.003656 **
q3 -2.260e+04 5.799e+03 -3.897 0.001429 **
q4 -8.572e+03 2.943e+03 -2.913 0.010707 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3736 on 15 degrees of freedom
Multiple R-squared: 0.9965, Adjusted R-squared: 0.9949
F-statistic: 614.4 on 7 and 15 DF, p-value: < 2.2e-16
Дана модель є адекватною, має більший коефіцієнт детермінації, ніж у базовій, а усі змінні у ній є значущими з рівнем надійності 90% і вище. Отже, доцільно говорити, що сезонність впливає на споживання.
Рис. 3 Залишки моделі з сезонністю
Рис. 4 Стандартизовані залишки та регресійна пряма моделі з сезонністю
Тепер перевіримо гіпотезу про наявність мультиколінеарності за допомогою критерію Фарра – Глаубера. Обрахувавши кореляційну матрицю змінних та логарифм її визначника, маємо відповідні значення практичної та теоретичної оцінок:
(22-(8+5)/6)*4.68 = 92.82
qchisq(0.95,6) = 12.59159
, отже, наявна мультиколінеарність, тобто високий рівень кореляції між регресорами. Причина цього в тому, що досліджувані показники мають подібні тренди, і змінюються як правило в одному напрямку. До того ж, кількість спостережень (23) не є значною.
Перевіримо, як зміниться базова модель, якщо з неї прибрати незначущу змінну доходів від власності.
fml=lm(vyt~ zp + pr + tr)
summary(fml)
Residuals:
Min 1Q Median 3Q Max
-10375.7 -2736.5 433.9 2947.7 10347.2
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 339.1386 3953.6259 0.086 0.9325
zp 1.3375 0.2134 6.267 5.12e-06 ***
pr 0.2894 0.1464 1.978 0.0627 .
tr 0.4943 0.1838 2.689 0.0145 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5159 on 19 degrees of freedom
Multiple R-squared: 0.9916, Adjusted R-squared: 0.9903
F-statistic: 748.2 on 3 and 19 DF, p-value: < 2.2e-16
(0.992-0.9916)/(1-0.992)*19 = 0.95
qf(0.05,1,19) = 0.004037369
, а отже, змінну, що відповідає за доход від власності, недоцільно прибирати з моделі, а її незначущість – результат мультиколінеарності.
Перевіримо наявність гетероскедастичності в базовій моделі за допомогою критерію Голфельда – Квондта. Відповідний фрагмент коду:
gqtest(fm1,fraction=0.15)
Goldfeld-Quandt test
data: fm1
GQ = 12.4976, df1 = 5, df2 = 4, p-value = 0.01489
Отже, з рівнем надійності більшим за 95% можна стверджувати про наявність гетероскедастичності.
Позбудемося від неї за допомогою критерію Уайта:
bptest(fm1,~ I(zp^2)+I(pr^2)+I(doh^2)+I(tr^2)+zp*pr+zp*doh+zp*tr+pr*doh+pr*tr+tr*doh)
studentized Breusch-Pagan test
data: fm1
BP = 17.8776, df = 14, p-value = 0.2124
Варто зазначити, що лише з рівнем надійності <80% гіпотеза про наявність гетероскедастичності за критерієм Уайта справджується.
vytf=vyt/abs(residuals(fm1))
zpf=zp/abs(residuals(fm1))
prf=pr/abs(residuals(fm1))
dohf=doh/abs(residuals(fm1))
trf=tr/abs(residuals(fm1))
fmf=lm(vytf~zpf+prf+dohf+trf)
summary(fmf)
Residuals:
Min 1Q Median 3Q Max
-1.8600 -0.9368 0.1350 0.9040 1.5722
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.08353 0.29930 -0.279 0.7834
zpf 1.29634 0.10171 12.746 1.90e-10 ***
prf 0.28973 0.05015 5.777 1.78e-05 ***
dohf -0.17229 0.09119 -1.889 0.0751 .
trf 0.56513 0.09567 5.907 1.36e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.168 on 18 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 3.72e+05 on 4 and 18 DF, p-value: < 2.2e-16
bptest(fmf,~ I(zpf^2)+I(prf^2)+I(dohf^2)+I(trf^2)+zpf*prf+zpf*dohf+zpf*trf+prf*dohf+prf*trf+trf*dohf)
studentized Breusch-Pagan test
data: fmf
BP = 22.1533, df = 14, p-value = 0.07552
Отже, з >90% рівнем надійності ми позбулися від гетероскедастичності за критерієм Уайта. В отриманій моделі усі змінні є значущими, а коефіцієнт детермінації є рівним 1, що свідчить про лінійність зв’язку між отриманими змінними.
Рис. 5 Залишки моделі без гетероскедастичності
Рис. 6 Стандартизовані залишки та регресійна пряма моделі без гетероскедастичності
Тепер перевіримо модель на наявність автокореляції критерієм Дурбіна – Уотсона.
dwtest(fmf)
Durbin-Watson test
data: fmf
DW = 1.4838, p-value = 0.08989
alternative hypothesis: true autocorrelation is greater than 0
Отже, з >90% рівнем надійності автокореляція присутня.
Позбудемося від неї, припустивши, що маємо справу з AR(1) – процесом:
ro=sum(residuals(fmz)[2:23]*residuals(fmz)[1:22])/sum(residuals(fmz)[1:22]^2)
> vyta[1]=(1-ro)^(1/2)*vytf[1]
> zpa[1]=(1-ro)^(1/2)*zpf[1]
> pra[1]=(1-ro)^(1/2)*prf[1]
> doha[1]=(1-ro)^(1/2)*dohf[1]
> tra[1]=(1-ro)^(1/2)*trf[1]
> for (i in 2:23) {vyta[i]=vytf[i]-ro*vyta[i-1]}
> for (i in 2:23) {zpa[i]=zpf[i]-ro*zpa[i-1]}
> for (i in 2:23) {pra[i]=prf[i]-ro*pra[i-1]}
> for (i in 2:23) {doha[i]=dohf[i]-ro*doha[i-1]}
> for (i in 2:23) {tra[i]=trf[i]-ro*tra[i-1]}
> fma=lm(vyta~zpa+pra+doha+tra)
> summary(fma)
Residuals:
Min 1Q Median 3Q Max
-2.0618 -0.5750 0.1395 0.8945 1.4579
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03733 0.26363 0.142 0.8890
zpa 1.27904 0.09493 13.473 7.66e-11 ***
pra 0.29649 0.04493 6.599 3.38e-06 ***
doha -0.20274 0.08148 -2.488 0.0229 *
tra 0.58309 0.08952 6.514 4.00e-06 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.093 on 18 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 3.937e+05 on 4 and 18 DF, p-value: < 2.2e-16
dwtest(fma)
Durbin-Watson test
data: fma
DW = 1.6542, p-value = 0.2564
alternative hypothesis: true autocorrelation is greater than 0
Отже, можна стверджувати, що ми позбулися від автокореляції, і у вихідній моделі збурення є незалежними.
Рис. 7 Залишки вихідної моделі
Рис. 8 Стандартизовані залишки та регресійна пряма вихідної моделі