Корреляционный анализ. Пример решения

Уравнение парной регрессии.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит степенной характер.

Степенное уравнение регрессии имеет вид y = a xb

Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = a xb + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

После линеаризации получим: ln(y) = ln(a) + b ln(x)

Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a•n + b∑x = ∑y

a∑x + b∑x2 = ∑y•x

Для наших данных система уравнений имеет вид

20a + 189.47 b = 214.97

189.47 a + 1813.72 b = 2056.89

Домножим уравнение (1) системы на (-9.47), получим систему, которую решим методом алгебраического сложения.

-189.47a -1794.28 b = -2035.74

189.47 a + 1813.72 b = 2056.89

Получаем:

19.44 b = 21.15

Откуда b = 1.0858

Теперь найдем коэффициент «a» из уравнения (1):

20a + 189.47 b = 214.97

20a + 189.47 • 1.0858 = 214.97

20a = 9.25

a = 0.4625

Получаем эмпирические коэффициенты регрессии: b = 1.0858, a = 0.4625

Уравнение регрессии (эмпирическое уравнение регрессии):

y = e0.46245913x1.0858 = 1.58797x1.0858

Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

ln(x) ln(y) ln(x)2 ln(y)2 ln(x) • ln(y)
12.25 13.89 150.17 192.83 170.17
11.19 12.15 125.11 147.72 135.94
10.34 12.24 106.85 149.84 126.54
10.15 11.84 103.01 140.16 120.16
9.83 11.42 96.62 130.32 112.22
9.46 11.04 89.56 121.91 104.49
8.12 8.33 65.86 69.37 67.59
9.54 10.85 90.99 117.81 103.53
9.03 10.79 81.61 116.36 97.45
8.93 10.74 79.78 115.45 95.98
9.16 10.73 83.94 115.07 98.28
9.1 10.41 82.81 108.46 94.77
9.55 10.67 91.11 113.86 101.85
10.27 105.41 121.1 112.99
8.56 10.4 73.28 108.1
9.03 10.05 81.59 100.91 90.74
8.71 10.26 75.83 105.23 89.33
8.91 10.14 79.31 102.88 90.33
9.11 8.19 83.06 67.05 74.63
8.23 9.83 67.8 96.55 80.91
189.47 214.97 1813.72 2340.98 2056.89

1. Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

1.4. Ошибка аппроксимации.

В среднем, расчетные значения отклоняются от фактических на 74.15%. Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.

1.5. Эмпирическое корреляционное отношение.

где

Индекс корреляции.

Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

Полученная величина свидетельствует о том, что фактор x существенно влияет на y

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

1.6. Индекс детерминации.

т.е. в 96.02 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 3.98 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

x y y(x) (yi-ycp)2 (y-y(x))2 (xi-xcp)2 |y - yx|:y
953567.38 925306246726.56 14325125809.1 34123270207.52 0.11
298620.1 6164668037.16 11832674652.77 2194814746.32 0.57
118890.65 9175992313.96 7784065121.79 31864331.52 0.43
97003.77 739372233.96 1723431555.94 139017.12 0.3
68545.92 423108444.16 493331997.48 43945629.72 0.24
46046.16 2394986569.96 267055810.71 152007939.72 0.26
10653.58 11488538477.16 42400644.28 477997327.92 1.57
49971.95 3551635539.36 3094242.31 128168437.32 0.034
28876.79 3959756987.56 381155533.92 283186632.42 0.4
25866.59 4216372408.96 421333394.48 311033786.82 0.44
33196.21 4322615411.56 153358141.11 245867104.02 0.27
31026.8 6082065753.76 5346262.54 264229901.52 0.0694
50331.51 4658553912.96 52685922.63 126093809.72 0.17
110201.29 2618634990.76 2504731108.15 12686775.42 0.83
17279.29 6172553503.36 239683330.37 399446191.82 0.47
28850.61 7792228456.96 33612233.02 283422275.52 0.25
20284.29 6858423603.36 67678691.94 366919771.52 0.29
25129.33 7381318493.16 79902.31 318092575.52 0.0111
31497.42 11605235801.76 778321984.9 260181739.02 7.75
12123.98 8615663784.36 40730124.89 459680032.02 0.34
2057963.64 1033527971450.8 41149896464.66 40483048232.55 14.83

2. Оценка параметров уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

S2 = 2286105359.148 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

S = 47813.23 - стандартная ошибка оценки (стандартная ошибка регрессии).

2.4. Доверительные интервалы для зависимой переменной.

Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.

Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.

y(xp) ± ε

где

Xp = 25208.15 • 115% = 28989.37

tкрит (n-m-1;α/2) = (18;0.025) = 2.101

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 28989.37

Вычислим ошибку прогноза для уравнения y = a xb

y(28989.37) = 1.587*28989.371.086 = 111113.93

111113.93 ± 26719.176

(84394.75;137833.11)

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Вычислим ошибку прогноза для уравнения y = a xb + ε

(7165.66;215062.2)

Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

2) F-статистика. Критерий Фишера.

Табличное значение критерия со степенями свободы k1=1 и k2=18, Fтабл = 4.41

Отметим значения на числовой оси.

Принятие H0 Отклонение H0, принятие H1
95% 5%
4.41 434.09

Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

Показатели качества уравнения регрессии.

Показатель Значение
Коэффициент детерминации 0.96
Средний коэффициент эластичности не был рассчитан
Средняя ошибка аппроксимации 74.15

Решение было получено и оформлено с помощью сервиса:

Уравнение нелинейной регрессии

Вместе с этой задачей решают также:

Уравнение множественной регрессии

Выявление тренда методом аналитического выравнивания

Показатели вариации

Показатели динамики

Онлайн сдача дистанционных тестов

Copyright © Semestr.RU

Наши рекомендации