Корреляционный анализ. Пример решения
Уравнение парной регрессии.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит степенной характер.
Степенное уравнение регрессии имеет вид y = a xb
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = a xb + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
После линеаризации получим: ln(y) = ln(a) + b ln(x)
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
20a + 189.47 b = 214.97
189.47 a + 1813.72 b = 2056.89
Домножим уравнение (1) системы на (-9.47), получим систему, которую решим методом алгебраического сложения.
-189.47a -1794.28 b = -2035.74
189.47 a + 1813.72 b = 2056.89
Получаем:
19.44 b = 21.15
Откуда b = 1.0858
Теперь найдем коэффициент «a» из уравнения (1):
20a + 189.47 b = 214.97
20a + 189.47 • 1.0858 = 214.97
20a = 9.25
a = 0.4625
Получаем эмпирические коэффициенты регрессии: b = 1.0858, a = 0.4625
Уравнение регрессии (эмпирическое уравнение регрессии):
y = e0.46245913x1.0858 = 1.58797x1.0858
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
ln(x) | ln(y) | ln(x)2 | ln(y)2 | ln(x) • ln(y) |
12.25 | 13.89 | 150.17 | 192.83 | 170.17 |
11.19 | 12.15 | 125.11 | 147.72 | 135.94 |
10.34 | 12.24 | 106.85 | 149.84 | 126.54 |
10.15 | 11.84 | 103.01 | 140.16 | 120.16 |
9.83 | 11.42 | 96.62 | 130.32 | 112.22 |
9.46 | 11.04 | 89.56 | 121.91 | 104.49 |
8.12 | 8.33 | 65.86 | 69.37 | 67.59 |
9.54 | 10.85 | 90.99 | 117.81 | 103.53 |
9.03 | 10.79 | 81.61 | 116.36 | 97.45 |
8.93 | 10.74 | 79.78 | 115.45 | 95.98 |
9.16 | 10.73 | 83.94 | 115.07 | 98.28 |
9.1 | 10.41 | 82.81 | 108.46 | 94.77 |
9.55 | 10.67 | 91.11 | 113.86 | 101.85 |
10.27 | 105.41 | 121.1 | 112.99 | |
8.56 | 10.4 | 73.28 | 108.1 | |
9.03 | 10.05 | 81.59 | 100.91 | 90.74 |
8.71 | 10.26 | 75.83 | 105.23 | 89.33 |
8.91 | 10.14 | 79.31 | 102.88 | 90.33 |
9.11 | 8.19 | 83.06 | 67.05 | 74.63 |
8.23 | 9.83 | 67.8 | 96.55 | 80.91 |
189.47 | 214.97 | 1813.72 | 2340.98 | 2056.89 |
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
1.4. Ошибка аппроксимации.
В среднем, расчетные значения отклоняются от фактических на 74.15%. Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.
1.5. Эмпирическое корреляционное отношение.
где
Индекс корреляции.
Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
1.6. Индекс детерминации.
т.е. в 96.02 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 3.98 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
x | y | y(x) | (yi-ycp)2 | (y-y(x))2 | (xi-xcp)2 | |y - yx|:y |
953567.38 | 925306246726.56 | 14325125809.1 | 34123270207.52 | 0.11 | ||
298620.1 | 6164668037.16 | 11832674652.77 | 2194814746.32 | 0.57 | ||
118890.65 | 9175992313.96 | 7784065121.79 | 31864331.52 | 0.43 | ||
97003.77 | 739372233.96 | 1723431555.94 | 139017.12 | 0.3 | ||
68545.92 | 423108444.16 | 493331997.48 | 43945629.72 | 0.24 | ||
46046.16 | 2394986569.96 | 267055810.71 | 152007939.72 | 0.26 | ||
10653.58 | 11488538477.16 | 42400644.28 | 477997327.92 | 1.57 | ||
49971.95 | 3551635539.36 | 3094242.31 | 128168437.32 | 0.034 | ||
28876.79 | 3959756987.56 | 381155533.92 | 283186632.42 | 0.4 | ||
25866.59 | 4216372408.96 | 421333394.48 | 311033786.82 | 0.44 | ||
33196.21 | 4322615411.56 | 153358141.11 | 245867104.02 | 0.27 | ||
31026.8 | 6082065753.76 | 5346262.54 | 264229901.52 | 0.0694 | ||
50331.51 | 4658553912.96 | 52685922.63 | 126093809.72 | 0.17 | ||
110201.29 | 2618634990.76 | 2504731108.15 | 12686775.42 | 0.83 | ||
17279.29 | 6172553503.36 | 239683330.37 | 399446191.82 | 0.47 | ||
28850.61 | 7792228456.96 | 33612233.02 | 283422275.52 | 0.25 | ||
20284.29 | 6858423603.36 | 67678691.94 | 366919771.52 | 0.29 | ||
25129.33 | 7381318493.16 | 79902.31 | 318092575.52 | 0.0111 | ||
31497.42 | 11605235801.76 | 778321984.9 | 260181739.02 | 7.75 | ||
12123.98 | 8615663784.36 | 40730124.89 | 459680032.02 | 0.34 | ||
2057963.64 | 1033527971450.8 | 41149896464.66 | 40483048232.55 | 14.83 |
2. Оценка параметров уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2 = 2286105359.148 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S = 47813.23 - стандартная ошибка оценки (стандартная ошибка регрессии).
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
y(xp) ± ε
где
Xp = 25208.15 • 115% = 28989.37
tкрит (n-m-1;α/2) = (18;0.025) = 2.101
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 28989.37
Вычислим ошибку прогноза для уравнения y = a xb
y(28989.37) = 1.587*28989.371.086 = 111113.93
111113.93 ± 26719.176
(84394.75;137833.11)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Вычислим ошибку прогноза для уравнения y = a xb + ε
(7165.66;215062.2)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
2) F-статистика. Критерий Фишера.
Табличное значение критерия со степенями свободы k1=1 и k2=18, Fтабл = 4.41
Отметим значения на числовой оси.
Принятие H0 | Отклонение H0, принятие H1 |
95% | 5% |
4.41 | 434.09 |
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Показатели качества уравнения регрессии.
Показатель | Значение |
Коэффициент детерминации | 0.96 |
Средний коэффициент эластичности | не был рассчитан |
Средняя ошибка аппроксимации | 74.15 |
Решение было получено и оформлено с помощью сервиса:
Уравнение нелинейной регрессии
Вместе с этой задачей решают также:
Уравнение множественной регрессии
Выявление тренда методом аналитического выравнивания
Показатели вариации
Показатели динамики
Онлайн сдача дистанционных тестов
Copyright © Semestr.RU