Оценка качества построенной модели (адекватности эмпирическим данным).
2.6.1 Коэффициент детерминации. Для оценки качества построенной модели регрессии можно использовать коэффициент детерминации . Коэффициент детерминации может быть вычислен по формуле:
.
С другой стороны, для парной линейной регрессии верно равенство:
.
При близости значения коэффициента детерминации к 1 говорят, что уравнение регрессии статистически значимо и фактор оказывает сильное воздействие на результирующий признак .
При анализе модели парной линейной регрессии по значению коэффициента детерминации можно сделать следующие предварительные выводы о качестве модели:
¾ Если , то будем считать, что использование регрессионной модели для аппроксимации зависимости между переменными и статистически необоснованно.
¾ Если , то использование регрессионной модели возможно, но после оценивания параметров модель подлежит дальнейшему многостороннему статистическому анализу.
¾ Если , то будем. считать, что у нас есть основания для использования регрессионной модели при анализе поведения переменной .
Средняя ошибка аппроксимации.
Другой показатель качества построенной модели –– среднее относительное отклонение расчетных значений от фактических или средняя ошибка аппроксимации:
.
Построенное уравнение регрессии считается удовлетворительным, если значение не превышает 10% – 12% .
Пример.
По 21 региону страны изучается зависимость розничной продажи телевизоров ( ) от среднедушевого денежного дохода в месяц ( ).
Номер региона | Среднедушевой денежный доход в месяц, тыс. руб., | Объем розничной продажи телевизоров, тыс. шт., |
2,4 | 21,3 | |
2,1 | ||
2,6 | 23,3 | |
1,7 | 15,8 | |
2,5 | 21,9 | |
2,4 | ||
2,6 | ||
2,8 | 23,9 | |
2,6 | ||
2,6 | 24,6 | |
2,5 | ||
2,9 | ||
2,6 | ||
2,2 | ||
2,6 | ||
3,3 | 31,9 | |
3,9 | ||
35,4 | ||
3,7 | ||
3,4 |
Необходимо найти зависимость, наилучшим образом отражающую связь между переменными и .
Рассмотрим вопрос применения модели линейной регрессии в этой задаче.
Построим поле корреляции, т.е. нанесем исходные данные на координатную плоскость. Для этого воспользуемся, например, возможностями MS Excel 2003.
Подготовим таблицу исходных данных.
Нанесем на координатную плоскость исходные данные:
Характер расположения точек на графике дает нам основание предположить, что искомая функция регрессии линейная: . Для оценки коэффициентов уравнения регрессии необходимо составить и решить систему нормальных уравнений ( ).
По исходным данным рассчитываем необходимые суммы:
Номер региона | |||||
2,4 | 21,3 | 51,12 | 5,76 | 453,69 | |
2,1 | 44,1 | 4,41 | |||
2,6 | 23,3 | 60,58 | 6,76 | 542,89 | |
1,7 | 15,8 | 26,86 | 2,89 | 249,64 | |
2,5 | 21,9 | 54,75 | 6,25 | 479,61 | |
2,4 | 5,76 | ||||
2,6 | 57,2 | 6,76 | |||
2,8 | 23,9 | 66,92 | 7,84 | 571,21 | |
2,6 | 67,6 | 6,76 | |||
2,6 | 24,6 | 63,96 | 6,76 | 605,16 | |
2,5 | 52,5 | 6,25 | |||
2,9 | 78,3 | 8,41 | |||
2,6 | 54,6 | 6,76 | |||
2,2 | 52,8 | 4,84 | |||
2,6 | 62,4 | 6,76 | |||
3,3 | 31,9 | 105,27 | 10,89 | 1017,61 | |
3,9 | 128,7 | 15,21 | |||
35,4 | 141,6 | 1253,16 | |||
3,7 | 125,8 | 13,69 | |||
3,4 | 105,4 | 11,56 | |||
Сумма | 57,4 | 530,1 | 1504,46 | 164,32 | 13926,97 |
Составляем систему уравнений:
Имеем систему линейных алгебраических уравнений, которая может быть решена, например, по формулам Крамера. Для этого вычислим следующие определители:
Тогда, согласно теореме Крамера,
Получаем уравнение регрессии:
Величина коэффициента регрессии означает, что увеличение среднедушевого месячного дохода на 1 тыс. руб. приведет к увеличение объема розничной продажи в среднем на 7 540 телевизоров. Коэффициент в данном случае не имеет содержательной интерпретации.
Оценим тесноту линейной связи между переменными и качество построенной модели в целом.
Для оценки тесноты линейной зависимости рассчитаем коэффициент детерминации. Для этого необходимо провести ряд дополнительных вычислений.
Прежде всего, найдем выборочное среднее по формуле:
.
Для рассматриваемого примера имеем:
Теперь произведем расчет остальных вспомогательных величин:
Номер региона | |||||||
19,76 | 8,24 | 67,89 | 2,76 | 7,60 | |||
2,4 | 21,3 | 22,75 | -1,45 | 2,11 | -3,94 | 15,55 | |
2,1 | 20,51 | 0,49 | 0,24 | -4,24 | 18,00 | ||
2,6 | 23,3 | 24,25 | -0,95 | 0,90 | -1,94 | 3,77 | |
1,7 | 15,8 | 17,52 | -1,72 | 2,95 | -9,44 | 89,17 | |
2,5 | 21,9 | 23,50 | -1,60 | 2,56 | -3,34 | 11,17 | |
2,4 | 22,75 | -2,75 | 7,57 | -5,24 | 27,49 | ||
2,6 | 24,25 | -2,25 | 5,04 | -3,24 | 10,52 | ||
2,8 | 23,9 | 25,74 | -1,84 | 3,39 | -1,34 | 1,80 | |
2,6 | 24,25 | 1,75 | 3,08 | 0,76 | 0,57 | ||
2,6 | 24,6 | 24,25 | 0,35 | 0,13 | -0,64 | 0,41 | |
2,5 | 23,50 | -2,50 | 6,24 | -4,24 | 18,00 | ||
2,9 | 26,49 | 0,51 | 0,26 | 1,76 | 3,09 | ||
2,6 | 24,25 | -3,25 | 10,54 | -4,24 | 18,00 | ||
2,2 | 21,26 | 2,74 | 7,53 | -1,24 | 1,54 | ||
2,6 | 24,25 | -0,25 | 0,06 | -1,24 | 1,54 | ||
3,3 | 31,9 | 29,48 | 2,42 | 5,86 | 6,66 | 44,32 | |
3,9 | 33,96 | -0,96 | 0,93 | 7,76 | 60,17 | ||
35,4 | 34,71 | 0,69 | 0,47 | 10,16 | 103,17 | ||
3,7 | 32,47 | 1,53 | 2,34 | 8,76 | 76,69 | ||
3,4 | 30,23 | 0,77 | 0,60 | 5,76 | 33,14 | ||
Сумма | 57,4 | 530,1 | 130,68 | 545,73 |
Здесь столбец « » – это значения , рассчитанные с помощью построенного уравнения регрессии, столбцы « » и – это столбцы, так называемых, «остатков»: разностей между исходными значениями , и рассчитанными с помощью уравнения регрессии , а также их квадратов, а в последних двух столбцах – разности между исходными значениями , выборочным средним , а также их квадраты.
Для вычисления коэффициента детерминации воспользуемся формулой ( ):
Значение коэффициента детерминации позволяет сделать предварительный вывод о том, что у нас имеются основания использовать модель линейной регрессии в данной задаче, поскольку .
Построим линию регрессии на корреляционном поле, для чего добавим на координатной плоскости точки, соответствующие уравнению регрессии ( ).
Нанесем теперь уравнение регрессии на диаграмму, используя специальные средства Excel. Для этого необходимо выделить правой кнопкой мыши исходные точки и выбрать опцию Добавить линию тренда.
В открывшемся меню Параметры линии тренда выбрать Линейную аппроксимацию. Далее поставить флажок напротив полей Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации .
Нажав на ОК, получаем еще одну прямую на диаграмме, которая совпадает с построенными ранее точками линии регрессии:
Сплошная черная линия на диаграмме – это линия регрессии, рассчитанная средствами Excel. Линия регрессии, построенная нами ранее, совпала с данной линией регрессии. Нетрудно убедиться, что уравнение регрессии и коэффициент детерминации тоже совпадают с полученными ранее вручную.
Найдем теперь среднюю ошибку аппроксимации для оценки погрешности модели. Для этого нам потребуется вычислить еще ряд промежуточных величин:
Номер региона | |||||
19,76 | 8,24 | 0,29 | |||
2,4 | 21,3 | 22,75 | -1,45 | 0,07 | |
2,1 | 20,51 | 0,49 | 0,02 | ||
2,6 | 23,3 | 24,25 | -0,95 | 0,04 | |
1,7 | 15,8 | 17,52 | -1,72 | 0,11 | |
2,5 | 21,9 | 23,50 | -1,60 | 0,07 | |
2,4 | 22,75 | -2,75 | 0,14 | ||
2,6 | 24,25 | -2,25 | 0,10 | ||
2,8 | 23,9 | 25,74 | -1,84 | 0,08 | |
2,6 | 24,25 | 1,75 | 0,07 | ||
2,6 | 24,6 | 24,25 | 0,35 | 0,01 | |
2,5 | 23,50 | -2,50 | 0,12 | ||
2,9 | 26,49 | 0,51 | 0,02 | ||
2,6 | 24,25 | -3,25 | 0,15 | ||
2,2 | 21,26 | 2,74 | 0,11 | ||
2,6 | 24,25 | -0,25 | 0,01 | ||
3,3 | 31,9 | 29,48 | 2,42 | 0,08 | |
3,9 | 33,96 | -0,97 | 0,03 | ||
35,4 | 34,71 | 0,69 | 0,02 | ||
3,7 | 32,47 | 1,53 | 0,05 | ||
3,4 | 30,23 | 0,77 | 0,02 |
Здесь столбец « » – это значения , рассчитанные с помощью построенного уравнения регрессии, столбец « » – это столбец так называемых «остатков»: разностей между исходными значениями , и рассчитанными с помощью уравнения регрессии , и, наконец, последний столбец « » – это вспомогательный столбец для вычисления элементов суммы по формуле ( ). Просуммируем теперь элементы последнего столбца и разделим полученную сумму на 21 – общее количество исходных данных:
.
Переведем это число в проценты и запишем окончательное выражение для средней ошибки аппроксимации:
.
Итак, средняя ошибка аппроксимации оказалась около 8%, что говорит о небольшой погрешности построенной модели. Данную модель, с учетом неплохих характеристик ее качества, вполне можно использовать для прогноза – одной из основных целей эконометрического анализа. Предположим, что среднедушевой месячный доход в одном из регионов составит 4,1 тыс. руб. Оценим, каков будет уровень продаж телевизоров в этом регионе согласно построенной модели? Для этого необходимо выбранное значение фактора подставить в уравнение регрессии ( ):
(тыс. руб.),
т.е. при таком уровне дохода, розничная продажа телевизоров составит, в среднем, 35 480 телевизоров.