Рассчитать параметры уравнений.
2. Оценить тесноту связи с помощью коэффициента (индекса)
корреляции.
3. Оценить качество модели с помощью коэффициента (индекса)
детерминации и средней ошибки аппроксимации.
4. Дать с помощью среднего коэффициента эластичности
сравнительную оценку силы связи фактора с результатом.
5. С помощью F-критерия Фишера оценить статистическую надежность результатов регрессионного моделирования.
По значениям характеристик, рассчитанных в пунктах 2-5 выбрать лучшее уравнение регрессии.
Используя метод Гольфрельда-Квандта проверить остатки на гетероскедастичность.
8. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 5% от его среднего уровня. Для уровня значимости =0,05 определить доверительный интервал прогноза.
Решение.
Строим поле корреляции.
Анализируя расположение точек поля корреляции, предполагаем, что связь между признаками х и у может быть линейной, т.е. у=а+bх, или нелинейной вида: у=а+blnх, у = ахb.
Основываясь на теории изучаемой взаимосвязи, предполагаем получить зависимость у от х вида у=а+bх, т. к. затраты на производство y можно условно разделить на два вида: постоянные, не зависящие от объема производства - a, такие как арендная плата, содержание администрации и т.д.; и переменные, изменяющиеся пропорционально выпуску продукции bх, такие как расход материала, электроэнергии и т.д.
2.1. Модель линейной парной регрессии.
2.1.1. Рассчитаем параметры a и b линейной регрессии у=а+bх.
Строим расчетную таблицу 1.
Таблица 1
№ | x | y | yx | x2 | y2 | Аi | ||
5,3 | 18,4 | 97,52 | 28,09 | 338,56 | 16,21 | 2,19 | 11,92 | |
15,1 | 22,0 | 332,20 | 228,01 | 484,00 | 24,74 | -2,74 | 12,46 | |
24,2 | 32,3 | 781,66 | 585,64 | 1043,29 | 32,67 | -0,37 | 1,14 | |
7,1 | 16,4 | 116,44 | 50,41 | 268,96 | 17,77 | -1,37 | 8,38 | |
11,0 | 22,2 | 244,20 | 121,00 | 492,84 | 21,17 | 1,03 | 4,63 | |
8,5 | 21,7 | 184,45 | 72,25 | 470,89 | 18,99 | 2,71 | 12,47 | |
14,5 | 23,6 | 342,20 | 210,25 | 556,96 | 24,22 | -0,62 | 2,62 | |
10,2 | 18,5 | 188,70 | 104,04 | 342,25 | 20,47 | -1,97 | 10,67 | |
18,6 | 26,1 | 485,46 | 345,96 | 681,21 | 27,79 | -1,69 | 6,48 | |
19,7 | 30,2 | 594,94 | 388,09 | 912,04 | 28,75 | 1,45 | 4,81 | |
21,3 | 28,6 | 609,18 | 453,69 | 817,96 | 30,14 | -1,54 | 5,39 | |
22,1 | 34,0 | 751,40 | 488,41 | 1156,00 | 30,84 | 3,16 | 9,30 | |
4,1 | 14,2 | 58,22 | 16,81 | 201,64 | 15,16 | -0,96 | 6,77 | |
12,0 | 22,1 | 265,20 | 144,00 | 488,41 | 22,04 | 0,06 | 0,26 | |
18,3 | 28,2 | 516,06 | 334,89 | 795,24 | 27,53 | 0,67 | 2,38 | |
Σ | 212,0 | 358,5 | 5567,83 | 3571,54 | 9050,25 | 358,50 | 0,00 | 99,69 |
среднее | 14,133 | 23,900 | 371,189 | 238,103 | 603,350 | 23,90 | 0,00 | 6,65 |
Параметры a и b уравнения
Yx = a + bx
определяются методом наименьших квадратов:
Разделив на n и решая методом Крамера, получаем формулу для определения b:
Уравнение регрессии:
=11,591+0,871x
С увеличением выпуска продукции на 1 тыс. руб. затраты на производство увеличиваются на 0,871 млн. руб. в среднем, постоянные затраты равны 11,591 млн. руб.
2.1.2. Тесноту связи оценим с помощью линейного коэффициента парной корреляции.
Предварительно определим средние квадратические отклонения признаков.
Средние квадратические отклонения:
Коэффициент корреляции:
Между признаками X и Y наблюдается очень тесная линейная корреляционная связь.
2.1.3. Оценим качество построенной модели.
Определим коэффициент детерминации:
т. е. данная модель объясняет 90,5% общей дисперсии у, на долю необъясненной дисперсии приходится 9,5%.
Следовательно, качество модели высокое.
Найдем величину средней ошибки аппроксимации Аi .
Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора.
Ошибка аппроксимации Аi, i=1…15:
Средняя ошибка аппроксимации:
Ошибка небольшая, качество модели высокое.
2.1.4. Определим средний коэффициент эластичности:
Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,515%.
2.1.5. Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H0, что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05. Найдем табличное (критическое) значение F-критерия Фишера:
Найдем фактическое значение F- критерия Фишера:
следовательно, гипотеза H0 отвергается, принимается альтернативная гипотеза H1: с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.
Построим полученное уравнение.
2.2. Модель полулогарифмической парной регрессии.
2.2.1. Рассчитаем параметры а и b в регрессии:
уx =а +blnх.
Линеаризуем данное уравнение, обозначив:
z=lnx.
Тогда:
y=a + bz.
Параметры a и b уравнения
= a + bz
определяются методом наименьших квадратов:
Рассчитываем таблицу 2.
Таблица 2
№ | x | y | z | yz | z2 | y2 | Аi | ||
5,3 | 18,4 | 1,668 | 30,686 | 2,781 | 338,56 | 15,38 | 3,02 | 16,42 | |
15,1 | 22,0 | 2,715 | 59,723 | 7,370 | 484,00 | 25,75 | -3,75 | 17,03 | |
24,2 | 32,3 | 3,186 | 102,919 | 10,153 | 1043,29 | 30,42 | 1,88 | 5,83 | |
7,1 | 16,4 | 1,960 | 32,146 | 3,842 | 268,96 | 18,27 | -1,87 | 11,42 | |
11,0 | 22,2 | 2,398 | 53,233 | 5,750 | 492,84 | 22,61 | -0,41 | 1,84 | |
8,5 | 21,7 | 2,140 | 46,439 | 4,580 | 470,89 | 20,06 | 1,64 | 7,58 | |
14,5 | 23,6 | 2,674 | 63,110 | 7,151 | 556,96 | 25,34 | -1,74 | 7,39 | |
10,2 | 18,5 | 2,322 | 42,964 | 5,393 | 342,25 | 21,86 | -3,36 | 18,17 | |
18,6 | 26,1 | 2,923 | 76,295 | 8,545 | 681,21 | 27,81 | -1,71 | 6,55 | |
19,7 | 30,2 | 2,981 | 90,015 | 8,884 | 912,04 | 28,38 | 1,82 | 6,03 | |
21,3 | 28,6 | 3,059 | 87,479 | 9,356 | 817,96 | 29,15 | -0,55 | 1,93 | |
22,1 | 34,0 | 3,096 | 105,250 | 9,583 | 1156,00 | 29,52 | 4,48 | 13,18 | |
4,1 | 14,2 | 1,411 | 20,036 | 1,991 | 201,64 | 12,84 | 1,36 | 9,60 | |
12,0 | 22,1 | 2,485 | 54,916 | 6,175 | 488,41 | 23,47 | -1,37 | 6,20 | |
18,3 | 28,2 | 2,907 | 81,975 | 8,450 | 795,24 | 27,65 | 0,55 | 1,95 | |
Σ | 212,0 | 358,5 | 37,924 | 947,186 | 100,003 | 9050,25 | 358,50 | 0,00 | 131,14 |
Средн. | 14,133 | 23,900 | 2,528 | 63,146 | 6,667 | 603,350 | 23,90 | 0,00 | 8,74 |
Разделив на n и решая методом Крамера, получаем формулу для определения b:
Уравнение регрессии:
= -1,136 + 9,902z
2.2.2. Оценим тесноту связи между признаками у и х.
Т. к. уравнение у = а + bln x линейно относительно параметров а и b и его линеаризация не была связана с преобразованием зависимой переменной _у, то теснота связи между переменными у и х, оцениваемая с помощью индекса парной корреляции Rxy, также может быть определена с помощью линейного коэффициента парной корреляции ryz
среднее квадратическое отклонение z:
Значение индекса корреляции близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида = a + bz.
2.2.3. Оценим качество построенной модели.
Определим коэффициент детерминации:
,
т. е. данная модель объясняет 83,8% общей вариации результата у, на долю необъясненной вариации приходится 16,2%. Следовательно, качество модели высокое.
Найдем величину средней ошибки аппроксимации Аi .
Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора. Ошибка аппроксимации Аi,:
, i=1…15.
Средняя ошибка аппроксимации:
.
Ошибка небольшая, качество модели высокое.
2.2.4.Определим средний коэффициент эластичности:
Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,414%.
2.2.5. Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H0, что выявленная зависимость у от х носит случайный характер, т.е. полученное уравнение статистически незначимо. Примем α=0,05.
Найдем табличное (критическое) значение F-критерия Фишера:
Найдем фактическое значение F-критерия Фишера:
следовательно, гипотеза H0 отвергается, принимается альтернативная гипотеза H1: с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.
Построим уравнение регрессии на поле корреляции
2.3. Модель степенной парной регрессии.
2.3.1. Рассчитаем параметры а и b степенной регрессии:
Расчету параметров предшествует процедура линеаризации данного уравнения:
и замена переменных:
Y=lny, X=lnx, A=lna
Параметры уравнения:
Y=A+bX
определяются методом наименьших квадратов:
Рассчитываем таблицу 3.
Определяем b:
Уравнение регрессии:
Построим уравнение регрессии на поле корреляции:
2.3.2. Оценим тесноту связи между признаками у и х с помощью индекса парной корреляции Ryx.
Предварительно рассчитаем теоретическое значение для каждого значения фактора x, и , тогда:
Значение индекса корреляции Rxy близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида:
2.3.3. Оценим качество построенной модели.
Определим индекс детерминации:
R2=0,9362=0,878,
т. е. данная модель объясняет 87,6% общей вариации результата у, а на долю необъясненной вариации приходится 12,4%.
Качество модели высокое.
Найдем величину средней ошибки аппроксимации.
Ошибка аппроксимации Аi, i=1…15:
Средняя ошибка аппроксимации:
Ошибка небольшая, качество модели высокое.
2.3.4. Определим средний коэффициент эластичности:
Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,438%.
2.3.5.Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H0, что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05.
табличное (критическое) значение F-критерия Фишера:
фактическое значение F-критерия Фишера:
следовательно, гипотеза H0 отвергается, принимается альтернативная гипотеза H1: с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.
Таблица 3
№ | x | y | X | Y | YX | X2 | y2 | Аi | |||
5,3 | 18,4 | 1,668 | 2,912 | 4,857 | 2,781 | 338,56 | 15,93 | 2.47 | 6,12 | 13,44 | |
15,1 | 22,0 | 2,715 | 3,091 | 8,391 | 7,370 | 484,00 | 25,19 | -3,19 | 10,14 | 14,48 | |
24,2 | 32,3 | 3,186 | 3,475 | 11,073 | 10,153 | 1043,29 | 30,96 | 1,34 | 1,80 | 4,15 | |
7,1 | 16,4 | 1,960 | 2,797 | 5,483 | 3,842 | 268,96 | 18,10 | -1,70 | 2,89 | 10,37 | |
11,0 | 22,2 | 2,398 | 3,100 | 7,434 | 5,750 | 492,84 | 21,92 | 0,28 | 0,08 | 1,24 | |
8,5 | 21,7 | 2,140 | 3,077 | 6,586 | 4,580 | 470,89 | 19,58 | 2,12 | 4,48 | 9,75 | |
14,5 | 23,6 | 2,674 | 3,161 | 8,454 | 7,151 | 556,96 | 24,74 | -1,14 | 1,30 | 4,84 | |
10,2 | 18,5 | 2,322 | 2,918 | 6,776 | 5,393 | 342,25 | 21,21 | -2,71 | 7,35 | 14,66 | |
18,6 | 26,1 | 2,923 | 3,262 | 9,535 | 8,545 | 681,21 | 27,59 | -1,49 | 2,22 | 5,71 | |
19,7 | 30,2 | 2,981 | 3,408 | 10,157 | 8,884 | 912,04 | 28,29 | 1,91 | 3,63 | 6,31 | |
21,3 | 28,6 | 3,059 | 3,353 | 10,257 | 9,356 | 817,96 | 29,28 | -0,68 | 0,46 | 2,37 | |
22,1 | 34,0 | 3,096 | 3,526 | 10,916 | 9,583 | 1156,00 | 29,75 | 4,25 | 18,03 | 12,49 | |
4,1 | 14,2 | 1,411 | 2,653 | 3,744 | 1,991 | 201,64 | 14,23 | -0,03 | 0,00 | 0,24 | |
12,0 | 22,1 | 2,485 | 3,096 | 7,692 | 6,175 | 488,41 | 22,78 | -0,68 | 0,46 | 3,06 | |
18,3 | 28,2 | 2,907 | 3,339 | 9,707 | 8,450 | 795,24 | 27,40 | 0,80 | 0,65 | 2,85 | |
сумма | 212,0 | 358,5 | 37,924 | 47,170 | 121,062 | 100,003 | 9050,25 | 358,5 | 0,00 | 59,61 | 105,95 |
среднее | 14,133 | 23,900 | 2,528 | 3,145 | 8,071 | 6,667 | 603,350 | 23,90 | 0,00 | 3,97 | 7,06 |
3. Выбор лучшего уравнения.
Составим таблицу полученных результатов исследования.
Таблица 4
Уравнение | Коэффициент (индекс) корреляции | Коэффициент (индекс) детерминации | Средняя ошибка аппроксимации | Коэффициент эластичности |
линейное | 0,951 | 0,905 | 6,65 | 0,515 |
полулогагифмическое | 0,915 | 0,838 | 8,74 | 0,414 |
степенное | 0,936 | 0,878 | 7,06 | 0,438 |
Анализируем таблицу и делаем выводы.
ú Все три уравнения оказались статистически значимыми и надежными, имеют близкий к 1 коэффициент (индекс) корреляции, высокий (близкий к 1) коэффициент (индекс) детерминации и ошибку аппроксимации в допустимых пределах.
ú При этом характеристики линейной модели указывают, что она несколько лучше полулогарифмической и степенной описывает связь между признаками x и у.
ú Поэтому в качестве уравнения регрессии выбираем линейную модель.